1220
昨日はいささか飲みすぎたのか、今日はまあまあしんどかった。仕事は普通にできる程度だったので仕事は普通にした。バッチコマンドを追加するためにTerraformを見よう見まねで書いている。Terraformはもうすこしテキストエディタの支援が受けられるとうれしいが、IDEによっては強力だったりするのだろうか。
夜は日本語変換の学習に使うコーパスの準備をしていた。KyteaのPythonバインディングがM1 macだとpipで入らないらしく、Poerty環境でいい感じにするのにとても難儀した。というか結局いい感じにはなっていないが、あまりそこに拘る意味もないので妥協しておく。
Wikipediaから全記事データをダウンロードしてテキスト部分を抽出したら12億文字のデータが得られた。これを文単位に分割してKyteaで読みを推定させてコーパスを作る。それを元に重みを学習させたいが、たぶんマルチスレッド対応しないと厳しいだろうな。どうしたらいいか。
寝ます。明日はなんか会議が5個くらいある。なんかおかしくない??