はじめに
今回は機械学習を学ぶにあたって最低限欲しい確率・統計の知識について書いていこうと思います。
ざっくりと何を書くかについて述べると「確率分布」「ヒストグラム」「尤度(ゆうど)関数」「最尤推定」の4つです。
では早速見ていきましょう。
確率分布,ヒストグラム
まずはサイコロを投げたとき、とりうるそれぞれの値の確率について考えてみましょう。
確率変数 X | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
P(X) |
このように「確率変数のとりうるそれぞれの値について、確率の値を表形式にまとめたもの」を確率分布といいます。
そして確率分布を棒グラフとして表現することができ、このグラフのことをヒストグラムといいます。
例えば全部同じ確率でない確率分布をヒストグラムにしてみるとこんな感じ。
確率変数 X | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
P(X) |
尤度関数
次に表と裏があるコインを5回投げて、1,4回目だけ表が出た場面を考えてみてください。
ただしこのコインには表と裏の出る確率はでない「いかさまコイン」で表の出る確率をpとし、確率変数
とすると、5回の試行ごとの確率は以下のようになります。
i | P(X = ) | |
---|---|---|
1 | 1 | p |
2 | 0 | 1-p |
3 | 0 | 1-p |
4 | 1 | p |
5 | 0 | 1-p |
これを参考に、5回コインを投げて1,4回目だけ表が出る確率はであることが分かります。
この確率を見てみると、pの関数になっていますよね。例えばpの値がのときは確率が大きそうだけれど、p=0.1や0.9あたりならかなり難しそうです。
このように「モデルの特徴を表す変数(今回はp)を式に含んでいる確率の式」のことを尤度関数と言います。
加えて「尤度関数をパラメータで微分し、微分値が0となるときのパラメータ値を求めること」を最尤推定といいます。
さいごに
かなり爆速でそれぞれの単語の意味を説明させていただきました。
また近いうちにUnityというゲームエンジンでロジスティック回帰モデルを実装してみようと思うので、是非そちらも興味があるかたはみてみてください。
ではまた。