ジャンガおじさん統計学を学ぶ。その5(ビジネス応用編)
こんにちは、ジャンガおじさんです。
前回はかなりザクっと確率分布についてまとめていきましたので、
今回記事の中で出てきた分布について具体的に掘り下げていきます。
下記のケースを読んでみてください。
あなたWEBサービスの責任者です。
・あなたが働いている企業では3か月前に検索サービスをリリースしました。
・検索サービスは広告モデルで広告収入を得て成り立っています。
バックオフィスのエンジニアが駆け寄ってきてこんなことを言ってきました。
「新しいUIはサーバーへの負荷が高いので1分間に同時に980人検索サイトに訪れるとかなり読み込みが遅くなり重たくなってしまいます。1000人を超えるとアウトです。。。。」
下のデータは12月5日の1分間ごとの来訪者数です。
この時の検索サービスの1分間の平均来訪者数を940人だとします。
時間 | 分 | 来訪者 |
0 | 0 | 776 |
0 | 1 | 886 |
0 | 2 | 989 |
0 | 3 | 835 |
0 | 4 | 760 |
0 | 5 | 875 |
0 | 6 | 769 |
0 | 7 | 865 |
0 | 8 | 962 |
0 | 9 | 827 |
0 | 10 | 813 |
0 | 11 | 916 |
0 | 12 | 944 |
0 | 13 | 967 |
0 | 14 | 878 |
0 | 15 | 885 |
さて、1001人以上の人が同時に検索サービスに来訪する確率はどの程度でしょうか???
ある程度イメージはできているでしょうか。
統計学を用いると将来をある程度予測することができるので、
不確実性が高いビジネス世界においてとても重宝される学問であり、
ビジネスとはとても相性が良いのです。
では、具体的に考えていきましょう。
まずやることは
1、まずサンプルデータの形を確認する
ヒストグラムを作ると、1001人以上の同時にサイトに訪れてはいないことがわかります。
では、1001人以上の同時来訪はない=確率0%なのでしょうか??
いいえ、違うのです。
λ(ラムダ)というのは平均を表しています。
ポアソン分布で言うパラメーターとは平均のことであり、
つまり平均が分かれば分布の形を特定することができるのです。
では平均はどこから持ってくればよいのでしょうか?
それは、、、
イベント数(=k) | 0人から1000人までが起動するので | 1000 |
平均(=λ) | 検索サイトを1分間に訪れる平均人数 | 940 |
エクセルで解き方を考えてみましょう。
今回の場合は、
1分間で1001回以上の来訪が発生する確率ですので、
1- (1分間で1000回以下来訪する確率)
になります。
ポアソン分布のエクセル関数は、
POISSON.DIST(イベント数,平均,関数形式)
ですので、エクセルの式はこうなります。
=1-POISSON.DIST(1000,940,TRUE)
=2.51%
よって、1001人以上の人が同時に検索サービスに来訪する確率は2.51%
この2.51%を許容するのか、しないのかはビジネスジャッジになります。
ただ、サーバーおちるのかなーおちないのかなーでも危なそうだようなー
みたいな感覚的に仕事を行うよりも、2.51%という数字を用いて議論するのとでは
全然違います。より経営判断がしやすくなり、データドリブンで仕事ができるようになるのです。