ジャンガおじさん統計学を学ぶ。その3(確率分布編)

 

こんにちは、ジャンガおじさんです。

前回は平均、標準偏差など基礎中の基礎についてまとめていきました。

今回はいよいよ統計学っぽいことを学んでいきます。

 

今回学ぶことは『確率分布』についてです。

聞いたことはありますでしょうか。

世の中で一番有名な確率分布は正規分布であると思うのですが、

確率分布は正規分布だけではないのです。

今回は確率分布についてしっかり学んでいきましょう。

学ぶことは大きく分けて2つです。
 
▼学ぶこと
 
1.サンプルの理解から母集団を理解すること
=「確率分布」について学びます
・3つの代表的な確率分布
①二項分布
ポアソン分布
→「データがどの分布に従うか」ということがデータ分析の方向性を決める要素の1つです。(これから学びますので、焦らずに)
 
2.得られたデータをどのように分析に利用していくか
=「中心極限定理」について学びます。
 
 
ではさっそく
1.サンプルの理解から母集団を理解すること
について学んでいきます。
まずは確率分布について説明をします。
 
・確率分布とは
確率変数が出る値とそれに対応する確率の値を現した分布です
例)サイコロを1回投げた時の確率分布
 
確率変数?と思われた方がいると思いますが、
 
・確率変数とは
「そのような値になるか」が確率的に決まる変数
 
 あまりイメージがつかないと思いますので、
具体的に説明していきます。
 
▼具体例
~コインを10回投げて、確率分布を学ぼう~
 
・コインを10回投げた時の確率を出せますか?
ー10回すべて表が出る確率は?
ー5回表が出る確率は?
 
 ー10回すべて表が出る確率を考えていきましょう!
 
コイン投げから確率分布を学んでいきます。
・コインを10回投げます
ー10回全てで表が出る確率は?
(1/2)^10=0.001=0.1%
これは
表表表表表表表表表表
1通りである
 
これは何となく中学校の知識があれば理解できると思います。
 
 
それではこちらの問いは解けますか??
 
ー5回表5回裏が出る確率は?
表になるのが1/2、裏になるのが1/2なので同様に、
(1/2)^10=0.001=0.1%
なのでは?
 
 
 
 
 
 
 
 
 
 
違いますね!!!笑
 
 
 
5回表が出る確率は?
5回表、5回裏になるのは何通りあるのか?
→いっぱいある!!!
 
具体的に書いてみるとわかります。
 
表表表表表裏裏裏裏裏 →1通り
表表裏裏裏裏裏表表表 →1通り
裏裏裏裏裏表表表表表 →1通り
 
とかとか、いっぱい可能性はあるんです!
それをどうやって計算すればいいかわかりますか???
(高校生の頃習ったはずです。。)
 
10C5で計算できる!!!!(Cはコンビネーションです)
ここで言う10C5の意味というのは、
10=10回中
5=5回という表(裏)になるという意味
 
10C5×(1/2)^5×(1/2)^5
=0.246=24.6%
 
同じ要領で
0回表が出る確率:0.1%
1回表が出る確率:1.0%
2回表が出る確率:4.3%
3回表が出る確率:11.7%
4回表が出る確率:20.5%
・・・・
 
と確率を出していきます。その時の、
N回=確率変数
N%=確率
というんです!!
 
グラフにしてみると、

f:id:i_am_janga:20171204222241p:plain

横軸は「サイコロが表になった回数」
横軸は「確率」になるのです。
よく見たことあるグラフではないでしょうか?
 
 
▼離散的確率と連続的確率
・今までは結果の数が有限だったんですが、、、
=>離散的確率
(サイコロの目だと1,2,3,4,5,6)
 
 
しかし、身長のような結果の数が無限ととれるような場合、
(基本的にスパっと決まらないはずです。170.1111...cmとか)
どのように表すのかというと「連続的確率」で表すのです。
 
そして連続的確率をグラフで表すために、
確率密度関数と累積分布関数を使って表していくのです。
 これからしっかり学んでいきます。
 
その前にに離散的確率(サイコロとか)は
確率質量関数(PMFと呼ばれる関数で表すことができます。
 
確率質量関数とは、
確率的変数のそれぞれの値の確率をグラフで表したもの
ー離散的確率を見るときに使うのです。
 
例えば、
・サイコロの目が1になる確率
・コインを投げて表になる確率
...etc
 
次に連続的確率(株価とか)についてグラフで表すために、 
確率密度関数(PDF)が用いられます。
 
確率密度関数で重要なことは下記になります。
・確率変数のそれぞれの値の確率をグラフで表したもの
・面積は必ず1
・面積を求めることで確率が求まる
・連続的確率を見るときに使う
 
例えば、
身長がXXcm以上になる確率
徒競走のタイムが00秒以内になる確率
etc..
 
確率質量関数と確率密度関数についてグラフで記載したものが下記の図1になります。
 
「確率密度関数」の画像検索結果

 図1

 
あと知っておくといいのが、
積分布関数(CDF)という関数があります。
 
積分布関数とは
確率密度関数で得られた確率を順々に足していく
・0から1の右上がりになっているもの
 となる関数を指します。
 
 
確率分布で大切なことは下記のとおりです。
 
 
確率分布とは
1、イベント発生回数や数値と、それらが得られる理論上の確率の関係を表現した関数・グラフ
2、全ての可能性を足したら、必ず確率は1になる
3、確率分布の形を規定する変数を「パラメーター」という
4、確率分布には名前と、どんな状況やデータのとり方をしたときに使うかが概ねきまっている
 
ビジネスの世界で用いるとなると、4についてはより重要になってきます。
知識や経験が増えるとともに状況によって用いるべき分布の形が分かるからです。
 
では次回、代表的な3つの分布についてまとめていきます。