1002
しばらく落ち着いていたSQLチューニングだが、機能改修に伴ってさらなる改善が必要になってしまった。なんとも悩ましい……。
LLMの驚くべきところは、世界や言語についてのモデルを手で組み込むということ(ほぼ)なしに、後続トークン予測のみの訓練によってそれらのモデルを獲得したかのようにしか見えない出力が出てくるところであろう。たとえば天気予報は同じことをするのに大気の力学に関するモデルを手で組み込んでいると思われるが、LLMはそうではない。マルコフ連鎖人工無脳botのものすごい先にChatGPTができることを、20年前は誰も予想していなかったのではないかと思う。
世界に関するモデルがLLMの内部にどうエンコードされているのか、そのようなモデルがどうやって自発的に構築されるのか、そういった部分は今まさに探究が進められていることと思う。そしてそれが理解できてしまえば、そういう仕組みがあるからそういう振る舞いをしますという風に納得されるものなのだろう(そしてそのような理解が得られたなら、ヒトの脳に対してもその理解を適用することはある程度できるのではないかと想像する)。
寝ます。