Irohabook
0
187

機械学習の研究を少し発表する:カギはたぶんデータのオブジェクト化と位相化

曖昧な結論から。私は科学、経済、社会、文化の統計データを機械学習にかけて、少しましなデータを集めています。まだ数億〜数兆個のデータですが、半年後はこの 100 倍以上のデータを生産しているでしょう。

成果としては類語辞典があります。今は計算科学と社会問題に関する予測データの作成に専念しています。

機械学習そのものは範囲が広く、最先端の研究に追いつく努力をしていますが、一方で重要な戦略が見えたのでここにまとめます。

  • データを名前のついたオブジェクトにする
  • 抽象データの演算を可能にする
  • データを位相にみたてて、データ全体(データ多様体と呼ぶ)から定まる次元と距離を計算する
  • データ多様体の代数的構造をもとに一見無関係なデータから別データの性質を計算する
  • 自然言語をノードにして、ノードの構築する機械的文脈と自然文脈の差異情報を集める

また同時並行でクラウド計算機を開発しています。計算はローカルのハイスペックなマシンがするべき、という価値観を一度捨てて、素因数分解といった原始的な計算を計算機データベースへの参照に置き換える実験をしています。

高度な計算、しかも外部ネットワークからのデータ取得と連携するような処理では、負荷の高い処理をクラウド計算機の API にしたほうが効果的です。機械学習の未来はクラウド分散計算機の発展にかかっているような気がしています。

次の記事

ビジネス