地頭力を鍛える~AMEXが年会費を1円にしたら儲かるか~

 
ビジネスケースのフェルミ推定を行っていきます。
前回行ったシカゴのピアノの調律師の人数を考えることよりも、
より専門的になってきます。
 
▼前回の記事
 
今回は自分が個人的に好きな問題です。
 
▼今回の問題
-------------------------------
AMEXはカード会社間の熾烈な競争にさらされています。
強豪のカードは年会費無料やマイレージサービスなどとの提携で攻勢をかけてきています。
AMEXは思い切って年会費を大幅に安くして、年会費1円にすることを考えています。
これは良いアイデアでしょうか??
下記の情報を参考にしてみてください。
ⅰ.AMEXの年会費は1万2,600円
ⅱ.クレジットカードブランドの世界シェア

f:id:i_am_janga:20171230211523p:plain

(あらためて見ると、世界の国際ブランドは圧倒的に稼いでいます。笑
AppleとVISAがバチバチやり合っているのも頷けます。)
-------------------------------
 
さて、みなさんをどこからアプローチをしていきますか。
この問題はビジネスケースの問題で過去に多くの戦略コンサルティング会社で出題されました。
決して難問ではありませんが、問われていることをよく考えないと的外れな回答になってしまいます。
さっそく、前提確認をしっかりしましょう。
 
①前提確認
 
問いの前提確認の以前のお話ですが、
面接などで聞かれた場合によく間違えて答えてしまうのが
「AMEXは高所得者層向けのブランドに特化すべき。マーケティングのキャンペーンを考えます。」
といった回答になります。
 
上記のような答えは完全に論点のすり替えですので、面接官のいっていることに対して的確に回答をしていかなければいけません。
面接で聞かれた場合には面接官の求めている答えはそういうことではありません。
 
・もし年会費を下げて会員がたくさん集まるのならやるべき
・年会費を下げた分の減益を回収できないのでやるべきではない
などの、やったほうが良いのか・悪いのかの2択で結論をだすことが大切です。
 
今回のやる・やらないの結論を出すために必要な要素として、
クレジットカード会社の収益(ビジネスモデル)を挙げることができます。
 
②アプローチ設定
 
クレジットカード会社の収益源は大きく分けて2つ挙げられます。
1つは年会費、もう1つは買い物の際の手数料になります。
(今回はリボの利用額は考慮に入れていません。)
 
式にするとこのような式になります。
 
カード会社の収益=[年会費+(会員1人あたりの年間利用額×加盟店手数料率)]×会員数
 
③モデル化
 
今回は参考としてあらかた数値を出しているので、年会費、利用額、会員数はの数値は揃っています。残りの加盟店手数料率をどう出すのかですが、感覚的にお店・お客さん・カード会社とプレイヤーがいて、消費税の5%が取られている現状ですので一旦消費税の半分以下の2.0%として考えていきましょう。(あんまり立ち止まらないほうがいいです。)
 
④計算実行
AMEXの売上を見積もって行きます。
カード会社の収益=
年会費+(会員1人あたりの年間利用額×加盟店手数料率)]×会員数
式であるように大きく分けて年会費収入と手数料収入を導き出していきます。
 
○年会費収入
データから発行枚数が1億1000万枚です。つまり、会員が1億1000万人いるとして、これに年会費を掛け算します。
1億1000万枚×1万2600円=1兆3860億円
これが年会費収入になります。
 
○カード手数料収入
次に手数料収入についてですが、頭出ししたデータでは年間110兆円となっており、さきほど加盟店手数料率を2.0%としました。よって、導き出される答えは下記になります。
110兆円×2.0%=2兆2000億円
 
AMEXの収益は年会費と手数料収入で合計3兆5860億円という答えが出せました。
 
⑤検証
最後に検証を行っていきます。今回行う検証としては、年会費を1円にして儲かるのか?儲からないのか?を検証していきます。
 
年会費と手数料収入で合計3兆5860億円という答えが出せましたが、割合でみると年会費の収入が39%と手数料の収入が61%となりました。
 
ですので、年会費を1円にすることで39%の収入が無くなることを意味しています。
そこで出てくる疑問が会員を増やして39%減った収入をカバーできるのかということです。
 
ここでまず年会費が下がったことで会員が増えると仮定します。
この増えた会員がカードを利用することで、どのくらいの収益が見込めるでしょうか?
 
現在、会員1億1000万人の会員で手数料収入を2兆2000億円上げています。年会費の収入のカバー分だけでも、単純計算で手数料だけで3兆6000億円ほどの売上が必要になります。
 
1億1000万人:2.2兆円=??万人:3.6兆円
 
これを計算すると答えが1億8000万人。
7000万人増です。つまり39%の会員数の増加を見込まなければいけません。これは現実的でしょうか?
 
現実性を判断するには2つの観点があります。
まず会員の獲得の観点ですが、そもそも年会費を1円にして会員が増加するという前提でしたが、本当に会員は増えるのでしょうか。競合他社のクレジットカードの年会費は0円のところが多いです。AMEXも横並びにしたところで急激に会員が増えるとは思えません。
 
もう一つは新しい会員が買い物に使う金額の問題です。参考データの取扱高を発行枚数で割ると1会員当たりの利用金額が算出できます。それを算出したのが以下の図です。

f:id:i_am_janga:20171230215336p:plain

AMEXの利用額年間100万円というのはダントツに高いといえます。高所得者層をターゲットにしているからこそこの数字を出せているのです。

年会費1円の魅力に惹かれてAMEXのカードを作る層というのは大衆層であると想定できます。

仮に大衆層がカードを作成し、VISAの33万円ほどの利用をした場合には話の前提が大きく崩れてしまいます。

年間100万円利用の想定で7000万人(39%増)の会員増が必要だったはずですが、これが年間33万円の会員しか獲得できないとすると、2億1000万人もの増加を必要になります。

この数字は会員数を3倍以上にしてくださいといっているということですので、短期間での達成は到底不可能です。

 

ここから導き出される回答としては、AMEXの年会費は1円にするべきではないということになります。

どうでしたか?フェルミ推定もビジネスに応用していけばどんどん面白くなっていきます。

 

地頭力を鍛える(フェルミ推定)

 

地頭力を鍛える一番良い方法はフェルミ推定であると言われています。

 

フェルミ推定フェルミすいてい、Fermi estimate)とは、実際に調査するのが難しいようなとらえどころのない量を、いくつかの手掛かりを元に論理的に推論し、短時間で概算することを指す。オーダーエスティメーションや「封筒裏の計算(英語)」ともいわれる。』

 

フェルミ推定はコンサルの面接や外資の面接などで良く問われることがあります。

何故、面接で問われると思いますか?

それはフェルミ推定は暗記では対応できないと考えられており、答えのない問に対して仮説を立て論理的に考えることが求められる為、求職者のふるい落としを効率的に行えるからなのです。効率的にとはそれだけ明暗がわかれる問いであり、普段から頭を使っている人と使っていない人の差がとても明確になります。

そんなフェルミ推定ですが、今回は体系立てて少しでもフェルミ推定を理解し、知の世界に足を踏み入れてほしいと考え書いております。

 

(0)学ぶ前に知っておくと良いこと「ストック問題」と「フロー問題」

ストック、フローとは?

まず、フェルミ推定問題を大きく二分する「ストック」(stock)と「フロー」(flow)という用語について説明します

 辞書で「ストック」を調べると「ある一時点に存在する経済諸量の大きさを示す概念」、一方で「フロー」は「経済諸量が一定期間内に変化または生起した大きさを示す概念」という説明が出てきます。

よりかみ砕いて説明するならば、「ストック」とは「あるモノの一時点における存在量」のことであり、一方で「フロー」は「あるモノの一定期間における変化量」のことです。

たとえば、「ピアノ」を例に考えてみましょう 。

 

○ストックとフローの具体例

「シカゴにおけるピアノの数」と「シカゴにおけるピアノの市場規模(年間)」……果たしてどちらが「ストック」で、どちらが「フロー」でしょう

 

答えは、「シカゴにおけるピアノの数」が「ストック」であり、「シカゴにおけるピアノの市場規模(年間)」が「フロー」です。

市場規模(年間)は1年間のピアノのシカゴ内総販売額を集計したものですから、「1年間という一定期間で自動車がシカゴで売られた量(金額)」といえますね

 

たとえていうと、「ストック」は「容器の中の水の量」であり、「フロー」は「一定時間に蛇口から容器へ注がれる(容器から出ていく)水の量」です。後者の「フロー」は、「1分間に10リットル」のように、一定時間あたりの量を表しているという特徴があります。

 

(1)基本ステップの解説

フェルミ推定は、基本的に次の5つのステップで進めていきます。

①前提確認 ②アプローチ設定 ③モデル化 ④計算実行 ⑤検証

ここでは、一番有名で基本である「シカゴにピアノの調律師は何人いるのか。」という問題を例に、この5つのステップを順に説明していきます。

 

①前提確認

ここでは「ピアノ」の定義を明確にしていきます。今回で言うと調律できるピアノであり、電子的なピアノは含まれていません。※今回は家庭にあるピアノを算出していきます。

ⅰ.「ピアノ」をどのように定義をするか「定義」

ⅱ.どのような「ピアノ」を数えるのか「範囲の限定」

を明確にしていきます。

 

②アプローチ設定

ここでは基本的な式を設定します。いきなりシカゴのピアノの調律師の数を導き出すことはできません。

そこで中学校でならった因数分解をしていきます。

シカゴのピアノの調律師の数を出すためには、

ピアノ調律師の数=ピアノ調律需要÷調律師一人当たりの年間調律件数

を導き出すと答えにたどり着きます。

ここで前提となっている認識としては、需要=供給 ということです。

需要というのはピアノの調律師です。「シカゴでいったいどのくらいのピアノの調律需要があるのか?」という数字です。

供給量というのは、まさにピアノ調律師の数です。シカゴにはその地域のピアノ調律需要を満たすに十分な調律師がいるはずだと考えよということです。

 

③モデル化

ここでは②アプローチ設定で立てた基本式の深堀を行っていきます。

基本式をみていくと、『ピアノ調律需要』『調律師一人当たりの年間調律件数』という変数があります。

この2つの変数をさらに因数分解していくことを③モデル化で行っていきます。

②アプローチ設定と③モデル化の違いは前者は横のアプローチであり、後者は縦のアプローチとなっています。

ピアノ調律需要=シカゴ世帯数×ピアノ保有率×ピアノ調律の頻度

調律師一人当たりの年間調律件数=一日あたり調律件数×年間労働日数

因数分解をすることができます。

 

④計算実行

それでは③で求めたモデル式を計算していきます。

ピアノ調律需要=シカゴ世帯数×ピアノ保有率×ピアノ調律の頻度

 

▼世帯数の推定

シカゴ世帯数はどう求めるかというと、人口÷平均世帯人数です。

シカゴの人口はどうやって求めるの?そんなの知らないよ!と思われるかもしれないですが、ここで大切なことは推定のためにどういう推定式を使うか、という論理の方です。実際は③モデル化までは導き出せればほぼフェルミ推定は完了しています。

ここではざっくり東京の人口が1000万人だからそこまではいかないだろう。でも都市としては世界で10番目ぐらいには入っていそうだ。なので300万人ぐらいと予想しよう!

みたいな感じで最初の方は考えて問題ありません。フェルミ推定を嫌いになるぐらいならそれぐらいの気軽さで考えたほうが良いと思っています。

考え方というのは習慣にしないと確実に身に付きません。ですので、まずはやってみることが大切なのです。

次に平均の世帯数ですが、感覚的に母親、父親、子供が平均的な世帯であると仮定し、

3人とします。結果としてシカゴ世帯数は300万人÷3人=100万世帯と導ぎだせます。

▼ピアノ保有率の推定

シカゴ世帯数が100万世帯としたときに、ピアノを保有する可能性があるとする裕福なファミリー層は50%といると仮定し、そして実際に保有する世帯を10%で計算していきます。

100万世帯×50%×10%=5万台

シカゴの家庭で保有されているピアノの数は5万台という結論が出ました。

そしたピアノ調律頻度はざっくり年一回程度だろうと仮定します。

そうすると、

ピアノ調律需要

=シカゴ世帯数×ピアノ保有率×ピアノ調律の頻度

=100万世帯×5%×1回/年間

=5万件/年間

と導くことができます。

 

調律師一人当たりの年間調律件数=一日あたり調律件数×年間労働日数

一日あたり調律件数

こちらはピアノの調律は各家庭を回るわけですから、移動時間等のコストが入ります。

そう考えると、大体午前1回、午後2回程度の調律が想定できます。

ですので一日あたりの調律件数を3件と仮定します。

▼年間労働日数

こちらざっくり土日を休みにして大体200日ぐらいだろうと仮定します。

そうすると、

調律師一人当たりの年間調律件数

=一日あたり調律件数×年間労働日数

=3件×200日

=600件

と求めることができます。

 

そして最後に上記で求めた変数を代入すると、

ピアノ調律師の数=ピアノ調律需要÷調律師一人当たりの年間調律件数

=5万件/年÷600件/年

=約83人

と導くことができました。

ここで気を付けてほしいことは「単位を揃えるということ」です。

今回の問題で言えば「年間」で統一をしています。

 

⑤検証

 検証の方法として一番簡単なのが、

シカゴの人口で割ってみるということです。

300万人÷83人=36,000人

約36,000人に1人の割合でピアノ調律師が存在することになります。

30人に1人とかの割合で出してしまうと公務員ぐらいの数になってしまうので、

明らかにどこかの推論が間違っている可能性があります。

ですので今回の推論をおそらくこのぐらいの数であろうということが分かります。

 

すぐに読めるのでお勧めです↓

   

 

 

 

ジャンガおじさん統計学を学ぶ。その5(ビジネス応用編)

 

こんにちは、ジャンガおじさんです。

 

前回はかなりザクっと確率分布についてまとめていきましたので、

今回記事の中で出てきた分布について具体的に掘り下げていきます。

 

下記のケースを読んでみてください。

 

あなたWEBサービスの責任者です。

・あなたが働いている企業では3か月前に検索サービスをリリースしました。

・検索サービスは広告モデルで広告収入を得て成り立っています。

 

バックオフィスのエンジニアが駆け寄ってきてこんなことを言ってきました。

「新しいUIはサーバーへの負荷が高いので1分間に同時に980人検索サイトに訪れるとかなり読み込みが遅くなり重たくなってしまいます。1000人を超えるとアウトです。。。。」

 

下のデータは12月5日の1分間ごとの来訪者数です。

この時の検索サービスの1分間の平均来訪者数を940人だとします。

時間 来訪者
0 0 776
0 1 886
0 2 989
0 3 835
0 4 760
0 5 875
0 6 769
0 7 865
0 8 962
0 9 827
0 10 813
0 11 916
0 12 944
0 13 967
0 14 878
0 15 885

さて、1001人以上の人が同時に検索サービスに来訪する確率はどの程度でしょうか???

 

ある程度イメージはできているでしょうか。

統計学を用いると将来をある程度予測することができるので、

不確実性が高いビジネス世界においてとても重宝される学問であり、

ビジネスとはとても相性が良いのです。

では、具体的に考えていきましょう。 

 

まずやることは

1、まずサンプルデータの形を確認する

ヒストグラムを作ると、1001人以上の同時にサイトに訪れてはいないことがわかります。

では、1001人以上の同時来訪はない=確率0%なのでしょうか??

 いいえ、違うのです。

サンプルデータから直接確率を算出するのは問題があるのです。
・観測していないものは確率が0になってしまう。
・もし観測したデータがあってもサンプル数が少なければ、極端な確率が出てしまう。
統計学」を使うことで
観測していなくても(近似的に)確率を
出すことができます。
あなたが知りたいのは未来永劫の確率です。

 

サンプルから母集団を推測するには?
・サンプルの世界≠母集団の世界
・サンプルから母集団を推測するにはどうしたらよいか?
 
~母集団を推測するからくり~
統計学には母集団の「分布の型」が用意されており、母集団はその分布に従っていると仮定するとします。
 
 
~母集団はXX分布に従うと仮定しよう!~
・分布の型は「パラメータ」で分布の形が変わります。
・サンプルから母集団に仮定した「分布の型」のパラメータを推定=形を推測する。
 
「パラメーターを推定すると分布の形が決まる。」
これはめちゃくちゃ大切ですので覚えておいてください。
 
復習をしていきましょう!
 
★サンプルから推定するのはパラメーター
・「分布の型」は理論分布と呼ばれる
・理論分布の形はパラメーターと呼ばれる
いくつかの数値できめられる
ここでのゴール
・母集団に理論分布を仮定し、
・サンプルから理論分布のパラメーター全てを推測すること
・これができれば、母集団の分布が推測できる
 
 
先ほどのケースに当てはめてみましょう!
一分間の同時来訪者数を表現する理論分布はポアソン分布で推測することができるのです。
 
ポアソン分布について思い出してみましょう。 
ポアソン分布とは
・一定期間/空間内で
・あるイベントが起こる回数
を表現するための理論分布=ポアソン分布
▼過去記事
 
ポアソン分布が当てはまる具体例は下記の通りです。
・ある交差点で1時間に起こる事故の件数
・1ページの文章で誤字がある個数
・1時間に来店する客の数
 
ポアソン分布は
・一定期間(もしくは一定空間)で
・ある事象が平均??回発生する
と表現できる分布です。
 
平均??回=これがポアソン分布のパラメーターになります。
 
パラメーターを変化させると分布の形が変わるというの
下記のグラフをみると一目瞭然です。
 Plot of the Poisson PMF

上記ポアソン分布(理論分布)です。

下記がポアソン分布の確率質量変数です。(再訂)
{\frac  {\lambda ^{k}}{k!}}\cdot e^{{-\lambda }}

λ(ラムダ)というのは平均を表しています。

ポアソン分布で言うパラメーターとは平均のことであり、

つまり平均が分かれば分布の形を特定することができるのです。

では平均はどこから持ってくればよいのでしょうか?

 

それは、、、

サンプルからパラメーターを推定できるのです!
 
母集団がポアソン分布だと仮定すると、
サンプルの平均=母集団の平均の推定値
として、おかしくないことが理論的にわかっています!
 
今回の例で言えば、
サンプルの平均は940人だった!
母集団の平均もだいたい940人になる
ということになります。
 
よって、観測していないデータの確率を計算できるのです。
 
下記がポアソン分布の確率質量変数です。(再訂)
{\frac  {\lambda ^{k}}{k!}}\cdot e^{{-\lambda }}
そして具体的に値を入れていきます。
イベント数(=k)  0人から1000人までが起動するので 1000
平均(=λ) 検索サイトを1分間に訪れる平均人数 940

 

エクセルで解き方を考えてみましょう。

 

今回の場合は、

1分間で1001回以上の来訪が発生する確率ですので、

1- (1分間で1000回以下来訪する確率)

になります。

 

ポアソン分布のエクセル関数は、

POISSON.DIST(イベント数,平均,関数形式)

 

ですので、エクセルの式はこうなります。

=1-POISSON.DIST(1000,940,TRUE)

=2.51%

 

よって、1001人以上の人が同時に検索サービスに来訪する確率は2.51%

 

この2.51%を許容するのか、しないのかはビジネスジャッジになります。

ただ、サーバーおちるのかなーおちないのかなーでも危なそうだようなー

みたいな感覚的に仕事を行うよりも、2.51%という数字を用いて議論するのとでは

全然違います。より経営判断がしやすくなり、データドリブンで仕事ができるようになるのです。

博多行ったら絶対行ってほしい店

 

どうも、ジャンガおじさんです。

昔仕事の関係でしばらく博多に滞在していて、今回は博多に行ったら必ず行ってほしいお店をご紹介いたします。

(個人的に博多ラーメンは外します。昔食べ過ぎて今では豚骨の匂いを嗅いだだけで気持ち悪くなってしまいますので。)

 

まず、最初におススメするのが『水たき 長野』

クリックすると新しいウィンドウで開きます

福岡といえば水炊きなんすよね。福岡行くまでは全然知らなくて、行って現地の人に教えてもらいました。めちゃくちゃ人気なので予約1か月ぐらい普通にかかっちゃいます。残念なところとしてはクレジットカードが使えないんですよね。さっさっと導入してほしいです。

 

次におススメするのが『はじめの一歩』

f:id:i_am_janga:20170507174827p:plain

ここ来たら、黙ってゴマサバ、ゴマカンパチを喰うべし。

ここまでのクオリティのゴマサバはなかなか東京じゃ味わえないです。

海鮮系なら一番おススメのお店です。

 

そして、個人的に一番おススメするのがこちらです。

『博多とりかわ大臣』

f:id:i_am_janga:20170507175323p:plain

個人的に一番好きです。

もちろん一番おススメなのがとりかわです。

あの串に刺さったカリカリのとりかわを食べたときは衝撃を受けました。

もつ鍋に関しても美味しいお店たくさんありますが、

ぶっちゃけ東京にも同じような店はたくさんあります。(六本木とか)

 

水炊きなら『長野』

ゴマサバなら『はじめの一歩』

とりかわなら『とりかわ大臣』(とりかわ粋恭のとりかわもうまいです。)

 

是非、一度足を運んでみてください。

ジャンガおじさん統計学を学ぶ。その4(確率分布編)

 
「世の中のデータはどんな分布になるのかあらかた決まっている」
前回、確率分布とはということでまとめていきましたが、
今回は具体的に代表的な3つの確率分布についてまとめていきます。
 
3つの代表的な確率分布はこちらになります。
 
株価etc...
ランダムな動きを表す分布
 
②二項分布
コイン投げetc..
「裏表」、「あるない」ことを表す分布
 
ポアソン分布
交通事故の確率etc...
めったに起きないことを表す分布
 
ではさっそく、
正規分布から学んでいきましょう。
 
 
ーランダムな誤差を表す分布になります。
 
正規分布は英語でNormal distributionと言うことからも分かるように『この世でもっとも一般的な分布』であり、「誤差の大きさの出現確率」をはじめ、さまざまな社会現象や自然現象で当てはまる確率分布です。
 

正規分布とは、平均を μ ・分散を σ2 とした場合に以下の確率密度関数で表される確率分布を指し、N(μ, σ2)と表記されます。

{\frac  1{{\sqrt  {2\pi \sigma ^{{2}}}}}}\;\exp \left(-{\frac  {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}\right)

また、ある確率変数X の確率分布が正規分布N(μ, σ2)であるとき「確率変数 X はN(μ, σ2)に従う」と言い、『X ~ N(μ, σ2)』と表記されます。 

とりあえずは「この左右対称な釣り鐘型(山型)の分布を正規分布と言って、その正確な形を数式で表そうとしたらさっきの確率密度関数になるんだな」とおさえておけばOKです。

ビジネスで正規分布が当てはまるケース

・ある工場で製造される部品の寸法の誤差
・証券の値段の不確実性
 
 
 
世の中の社会現象や自然現象の中には、その確率変数が正規分布に従うとみなせるものが多く存在するため、その平均と標準偏差が分かれば、多くの現象について「どういった事がどれくらいの確率で発生するのか」を計算できるようになるんです。
 
 
 
 そして次に学ぶのが二項分布
 
②二項分布とは、
ー結果が2つの試行を何回も繰り返すことによって起こる分布

Binomial distribution pmf.svg

 
ビジネスにおいて二項分布が当てはまるケース
・N回のページビューのうち、確率pで広告がクリックされる回数
(クリックされるか、されないか)
 
・N人のユーザーのうち、確率pで解約する人数
(解約するか、されないか)
 
・N人の社員のうち、確率pで退職する人数
(退職するか、しないか)
 
少し考えてみればビジネスの世界でもどんどん応用できるようになります。 
こんな具体例どんな参考書にも載っていないと思います。
 
下記が二項分布の確率質量関数の式となる。
{n \choose k}p^{k}(1-p)^{{n-k}}\!
※エクセルで簡単に計算できる
 
 

f:id:i_am_janga:20171204223723p:plain

 
n回の試行を行い、
k回成功するとして、
(1回の試行における成功確率はp)
nCk はn回の試行で、k回成功する仕方を表します。
 
 
次はあまり聞いたことがないかもしれませんが
なかなか使える分布であるポアソン分布についてまとめていきます。
 
 
ーある一定時間や一定空間内でイベントが発生する回数を表現
 
Plot of the Poisson PMF

 

 
ビジネスでポアソン分布が当てはまるケース
・一カ月で平均n回コンバージョンする広告を使って得る今月のコンバージョン数
・一日に平均n個不良品が作られる工場で、今日作られる不良品の個数
 
ポアソン分布の確率質量関数

{\frac  {\lambda ^{k}}{k!}}\cdot e^{{-\lambda }}

 
Kは一定期間内にイベントが起こる回数、
分布の形はパラメータλに依存します。
 
ポアソン分布はPOISSON関数で計算できる
 

ポアソン分布のポアソンさん

Simeon Poisson.jpg
 
今日はここまで次回は具体的なケースをみていきます。
 
 
 
 
 
 

ジャンガおじさん統計学を学ぶ。その3(確率分布編)

 

こんにちは、ジャンガおじさんです。

前回は平均、標準偏差など基礎中の基礎についてまとめていきました。

今回はいよいよ統計学っぽいことを学んでいきます。

 

今回学ぶことは『確率分布』についてです。

聞いたことはありますでしょうか。

世の中で一番有名な確率分布は正規分布であると思うのですが、

確率分布は正規分布だけではないのです。

今回は確率分布についてしっかり学んでいきましょう。

学ぶことは大きく分けて2つです。
 
▼学ぶこと
 
1.サンプルの理解から母集団を理解すること
=「確率分布」について学びます
・3つの代表的な確率分布
①二項分布
ポアソン分布
→「データがどの分布に従うか」ということがデータ分析の方向性を決める要素の1つです。(これから学びますので、焦らずに)
 
2.得られたデータをどのように分析に利用していくか
=「中心極限定理」について学びます。
 
 
ではさっそく
1.サンプルの理解から母集団を理解すること
について学んでいきます。
まずは確率分布について説明をします。
 
・確率分布とは
確率変数が出る値とそれに対応する確率の値を現した分布です
例)サイコロを1回投げた時の確率分布
 
確率変数?と思われた方がいると思いますが、
 
・確率変数とは
「そのような値になるか」が確率的に決まる変数
 
 あまりイメージがつかないと思いますので、
具体的に説明していきます。
 
▼具体例
~コインを10回投げて、確率分布を学ぼう~
 
・コインを10回投げた時の確率を出せますか?
ー10回すべて表が出る確率は?
ー5回表が出る確率は?
 
 ー10回すべて表が出る確率を考えていきましょう!
 
コイン投げから確率分布を学んでいきます。
・コインを10回投げます
ー10回全てで表が出る確率は?
(1/2)^10=0.001=0.1%
これは
表表表表表表表表表表
1通りである
 
これは何となく中学校の知識があれば理解できると思います。
 
 
それではこちらの問いは解けますか??
 
ー5回表5回裏が出る確率は?
表になるのが1/2、裏になるのが1/2なので同様に、
(1/2)^10=0.001=0.1%
なのでは?
 
 
 
 
 
 
 
 
 
 
違いますね!!!笑
 
 
 
5回表が出る確率は?
5回表、5回裏になるのは何通りあるのか?
→いっぱいある!!!
 
具体的に書いてみるとわかります。
 
表表表表表裏裏裏裏裏 →1通り
表表裏裏裏裏裏表表表 →1通り
裏裏裏裏裏表表表表表 →1通り
 
とかとか、いっぱい可能性はあるんです!
それをどうやって計算すればいいかわかりますか???
(高校生の頃習ったはずです。。)
 
10C5で計算できる!!!!(Cはコンビネーションです)
ここで言う10C5の意味というのは、
10=10回中
5=5回という表(裏)になるという意味
 
10C5×(1/2)^5×(1/2)^5
=0.246=24.6%
 
同じ要領で
0回表が出る確率:0.1%
1回表が出る確率:1.0%
2回表が出る確率:4.3%
3回表が出る確率:11.7%
4回表が出る確率:20.5%
・・・・
 
と確率を出していきます。その時の、
N回=確率変数
N%=確率
というんです!!
 
グラフにしてみると、

f:id:i_am_janga:20171204222241p:plain

横軸は「サイコロが表になった回数」
横軸は「確率」になるのです。
よく見たことあるグラフではないでしょうか?
 
 
▼離散的確率と連続的確率
・今までは結果の数が有限だったんですが、、、
=>離散的確率
(サイコロの目だと1,2,3,4,5,6)
 
 
しかし、身長のような結果の数が無限ととれるような場合、
(基本的にスパっと決まらないはずです。170.1111...cmとか)
どのように表すのかというと「連続的確率」で表すのです。
 
そして連続的確率をグラフで表すために、
確率密度関数と累積分布関数を使って表していくのです。
 これからしっかり学んでいきます。
 
その前にに離散的確率(サイコロとか)は
確率質量関数(PMFと呼ばれる関数で表すことができます。
 
確率質量関数とは、
確率的変数のそれぞれの値の確率をグラフで表したもの
ー離散的確率を見るときに使うのです。
 
例えば、
・サイコロの目が1になる確率
・コインを投げて表になる確率
...etc
 
次に連続的確率(株価とか)についてグラフで表すために、 
確率密度関数(PDF)が用いられます。
 
確率密度関数で重要なことは下記になります。
・確率変数のそれぞれの値の確率をグラフで表したもの
・面積は必ず1
・面積を求めることで確率が求まる
・連続的確率を見るときに使う
 
例えば、
身長がXXcm以上になる確率
徒競走のタイムが00秒以内になる確率
etc..
 
確率質量関数と確率密度関数についてグラフで記載したものが下記の図1になります。
 
「確率密度関数」の画像検索結果

 図1

 
あと知っておくといいのが、
積分布関数(CDF)という関数があります。
 
積分布関数とは
確率密度関数で得られた確率を順々に足していく
・0から1の右上がりになっているもの
 となる関数を指します。
 
 
確率分布で大切なことは下記のとおりです。
 
 
確率分布とは
1、イベント発生回数や数値と、それらが得られる理論上の確率の関係を表現した関数・グラフ
2、全ての可能性を足したら、必ず確率は1になる
3、確率分布の形を規定する変数を「パラメーター」という
4、確率分布には名前と、どんな状況やデータのとり方をしたときに使うかが概ねきまっている
 
ビジネスの世界で用いるとなると、4についてはより重要になってきます。
知識や経験が増えるとともに状況によって用いるべき分布の形が分かるからです。
 
では次回、代表的な3つの分布についてまとめていきます。