ホームに戻る
 機械学習についての覚え書き

0、機械学習とは

機械学習とは「大量のデータ」を用いて、
「試行の繰り返し」により結果を求める方法である。

以降は考え方についてのみの覚え書き。

1、k近傍法

すでに結果群がある。
結果群にサンプルを配置したとき、
距離の近いk個の結果のうち最も多いグループに
サンプルは所属していると決定する方法。

2、主成分分析

多次元をより少ない次元に落とし込む分析法。
原理は3次元を2次元の影絵のように落とし込む。
その際にデータ群の回転を試み影絵をより大きくする。
大きな影絵ほど元データ間の差を顕著に表す。

3、多次元尺度構成法

多次元をより少ない次元に落とし込む分析法。
データ群のデータ間で結びつきをそれぞれ決定する。
データは最初は適当に配置し、
結びつきが強ければ少し近づけ弱ければ少し遠ざける。
この作業を繰り返すことで最終的な配置を決定する。

4、線形回帰

例えばデータx1、x2について次のような式を作る。

y = a0+a1x1+a2x2

x1とx2を入力したときに可能な限り結果yが線形になるよう
a0、a1、a2を設定する方法を考える。
この具体的な方法には最小2乗法が考えられる。
結果群から最小2乗法で最適なa0、a1、a2を求める。

5、ロジスティクス回帰

データx1、x2について結果が0,1でも解析が可能。
例えばデータx1、x2について合否のデータしかないとしても
合格率の推定が可能である。
また、それぞれのデータの寄与度も評価できる。

6、判別分析

データ群の間に線を引いて群を分割する方法。
データが分離するように変形させるカーネル関数を用いる方法。
よりデータから遠くに分離線をひくマージン最大化がある。

7、決定木

「はい」と「いいえ」で分岐をいくつか作る。
この分岐の枝分かれを決定木と呼ぶ。
データを元に決定木を組み替えて成果率を上げる。

8、ニューラルネットワークとは

ある複数データからある方法で結果を導く。
また、ある複数データから異なる方法で結果を導く。
この結果をたくさん用意しさらに結果を導く。
この構造を壊したり組み替えたりして最善の構造を構築する。
構造がシナプスに似ているためニューラルネットワークと呼ばれる。
ディープラーニングはニューラルネットワークの多層化のこと。

9、過学習

学習によりある最適と思われる状態に移行すると、
多少例外的なデータを渡しても結果を変えなくなる。
仮に別の最適解があってもそちらへ移行しなくなる状態。


10、交差検定

データ群の90%を取り出し解析して残りの10%で検証する。
この取り出しと検証を繰り返し精度を高める方法。

inserted by FC2 system