機械学習の研究を少し発表する:カギはたぶんデータのオブジェクト化と位相化
曖昧な結論から。私は科学、経済、社会、文化の統計データを機械学習にかけて、少しましなデータを集めています。まだ数億〜数兆個のデータですが、半年後はこの 100 倍以上のデータを生産しているでしょう。
成果としては類語辞典があります。今は計算科学と社会問題に関する予測データの作成に専念しています。
機械学習そのものは範囲が広く、最先端の研究に追いつく努力をしていますが、一方で重要な戦略が見えたのでここにまとめます。
- データを名前のついたオブジェクトにする
- 抽象データの演算を可能にする
- データを位相にみたてて、データ全体(データ多様体と呼ぶ)から定まる次元と距離を計算する
- データ多様体の代数的構造をもとに一見無関係なデータから別データの性質を計算する
- 自然言語をノードにして、ノードの構築する機械的文脈と自然文脈の差異情報を集める
また同時並行でクラウド計算機を開発しています。計算はローカルのハイスペックなマシンがするべき、という価値観を一度捨てて、素因数分解といった原始的な計算を計算機データベースへの参照に置き換える実験をしています。
高度な計算、しかも外部ネットワークからのデータ取得と連携するような処理では、負荷の高い処理をクラウド計算機の API にしたほうが効果的です。機械学習の未来はクラウド分散計算機の発展にかかっているような気がしています。
ビジネス
-
-
-
-
-
-
-
-
-
-
ボッーとしている時間を減らすと生産性が上がる
0
267
-
-
-
-
-
-
-
-
-
-
-
「了解」と「承知」の意味と違いと使い方
0
6233
-
-
今年と来年の干支(2023年と2024年の干支)|十干十二支早見表
0
1246163
-
一両日(いちりょうじつ)の意味
0
2281
-
今年の漢字まとめ(1995年~)
0
162
-
著作権と著作物の法律
0
117
-
-
ASCIIコード一覧表
0
1882
-
-
-
-
方角の言葉(東西南北と八方位)
0
34683
-
-
A3、A4、B4、B5と年賀状のサイズ(縦と横の長さ)
0
1557
-
A4サイズの長さ(センチとインチ)と比率
0
281
-
畳の種類(京間、中京間、江戸間、団地間)とサイズ早見表
0
1727
-
-
製品開発モデルと顧客開発モデル
0
598
-
-