andante :: 5408

0201

ChatGPTに新しいモデルo3-miniとo3-mini-highが追加された。試してみたが実際賢い感じではある。いつも通りライフゲイムベンチマーク（平衡状態における生存セル割合の推定）をやったところ、平均場近似は難なくこなしてきた上で、ペア近似なる方法（ちゃんと理解していないが要するにセルの平均生存率だけでなく隣接セルが共に生存している確率に関しても平均場近似を行う？ことで、近傍セル同士の相関を勘定に入れることができる？）で計算をして、なんかものすごい連立自己無撞着方程式を提出してきた。問題はこれが解けないことで、数値計算ソフトによれば4%付近に解を持つようではあるが、これを以て何かの正解に近づいたと考えてもよいのかは判断できない。そもそも式が合っているのかも追っていない（これはまあちゃんと読めばわかるようには書かれているが）。
だいぶ前から指摘されていることではあるが、いよいよLLMの知的能力を評価するのが難しくなりつつあるなと思った。プログラムコードだって、本当に複雑なものをスラスラ書き下してきたら読むリソースのほうが追いつかなくなるだろう。その時どうすべきなのか（あるいは、誰に向かって祈るか）、そろそろ決めといたほうがいいのだろうか。

寝ます。Clineしばき業は停滞している。別のことしながらしばいていると堂々巡りに陥っていることに気づくのが遅れる。