『完全独習ベイズ統計学入門』を読んで

FullSizeRender (1)

帝京大学経済学部教授の小島寛之先生の『完全独習ベイズ統計学入門』(ダイヤモンド社、2015年)を読みました。小島先生といえば、『完全独習統計学入門』(ダイヤモンド社、2006年)という有名な本を書かれた方であり、この本はその「ベイズ統計版」とも言うものだと思います。ベイズ関連の本はなぜだか最近たくさん出版されているようですが、そもそもベイズとは何なのか、なぜベイズ統計が必要なのかというコンセプト的なところを十分に説明せずに、突然テクニカルな説明に入ってしまうものが多い印象があります(そうすると手を動かせるようにはなるかもしれませんが、なぜベイズ統計を使ったのか説明できないことになってしまいます)。この本の素晴らしいところは、この「ベイズ統計の正体」とも言えるコンセプトの部分をきちんと丁寧に説明しているところだと思います。超入門書として説明されていますが、ベイズ統計学を勉強する人、実際に使っている人にとって、初心者・上級者に関わらず学ぶところのある本だと思い、お薦めいたします。

本書の前半は、数式を一切使わずにベイズ統計を説明しています。どのようにしてそれを可能にしているかと言うと、数式の代わりに面積図で図解しているのです。これは画期的で、ベイズ統計学を感覚的に理解することができると思います。この部分だけでもこの本を買う価値があると思います。

その一方で少し残念なのが、後半になると数式や確率分布が突然出てくるようになり、難易度が一気に上がることです。ベイズ統計学を大学院で習った私でもしっかり読み込まないといけないレベルですので、ベイズ統計にあまり馴染みのない方(おそらくこの本の読者層の大部分)はこの部分で挫折してしまうのではないかと思いました。さらには、本書の中盤ではじめて出てくる確率分布がベータ分布であり、これがさらに難易度を上げていると思います。統計学の確率分布の「基本のき」は正規分布ですので、説明するとしたら正規分布からであれば(もしくは正規分布だけでも十分かもしれません)もっと分かりやすい本になったと思います。

私がこの本で一番好きなのは第9講のモンティ・ホール問題です。簡単にご説明をしたいと思います。※少しだけネタバレになってしまいますので、それが嫌な方はこの下は読まないで頂くのが良いと思います。以下に本書からそのまま引用させて頂きます。

”モンティ・ホール問題

あなたは3つのカーテンA、B、Cの前に立っている。3つのカーテンのどれか1つの裏に賞品の自動車が隠されている。あなたは3つのカーテンの1つを選び、そこに自動車が隠されていれば、その自動車をもらうことができる。さて、あなたがカーテンAを選んだとき、選ばれなかったカーテンのうちBを司会者が開いてみせて、「ここには自動車はありません」という。そして、「残るカーテンは、あなたの選んだAと、私が開かなかったCの2つです。あなたは今ならまだ、選ぶカーテンを変えることができますが、どうしますか?」と訊ねた。あなたはCのカーテンに選び変えるべきか?”(P102)

この本の中では2つの考え方が紹介されています。

”考え方その1:カーテンAとカーテンCの2つに1つとなったのだから確率は五分五分となる。したがって、カーテンAに自動車が隠されている確率は3分の1から2分の1に上昇する。

考え方その2:カーテンBに自動車がないことを知っても、カーテンAに自動車のある確率は変化しない。したがって、その確率は3分の1のままである。これはカーテンCに自動車のある確率は3分の1から3分の2に上昇したことを意味する。”(p106)

どうでしょう?皆さんはどのように思われますか?ここでポイントなるのは、情報の入手によって確率が変化するということです。多くの人は考え方その1が正しいと考えると思いますが、どちらが正しいかは条件によって異なります。仮に、カーテンAの裏に自動車が隠されている場合に、司会者は五分五分の確率でBまたはCを開けるとします。事前にはA、B、Cのどれに自動車があるのかは均等ですので、事前確率は1/3ずつになります。

事前確率

A: 1/3, B: 1/3, C: 1/3

 

そして、自動車がAにあった場合には、カーテンBとCを開く確率は50:50ですので、

事後確率=1/3×1/2=1/6

となります。

 

自動車がBにあった場合は、カーテンBを開ける確率はゼロですので、事後確率もゼロです。

 

自動車がCにあった場合には、カーテンBを開ける確率は1ですので(カーテンCを開けるわけにいかないので、100%の確率でカーテンBを開ける)、

事後確率=1/3×1=1/3

となります。

 

まとめると、

 

(Aである事後確率):(Cである事後確率)

=1/6:1/3

=1/3:2/3

FullSizeRender

(この図の中でA&開Bとは、自動車がAにあり、司会者がBのカーテンを開けたことを表しています。C&開Bとは、自動車がCにあり、司会者がBを開けた場合です。)

よって正解は考え方その2であり、あなたはCに選び変えるべきだと言うことになります。

ただし正解は「条件」によって変わります。この例ではカーテンAの裏に自動車が隠されている場合に、司会者は五分五分の確率でBまたはCを開けるとしました。これはもし自動車がAの裏にあった場合、BとCのいずれかを恣意的に選んでも良いと言う状況であったため、この司会者による「選択」が情報を与えた形になります。一方で、司会者が選択をしなかった場合には話が変わってきます。もし「参加者がカーテンAを選んだ場合、Aに自動車が隠されているときには必ずBを開ける」とあらかじめ決めておいたとします。そうすると、司会者がカーテンを開けることで得られる「情報」は無くなりますので、情報によって確率が変化しなくなります。そしてその場合、考え方その1が正解となります。

この例はベイズ統計の本質を良く表している例であり、説明も非常に分かりやすいと思いました。本書ではページ数をかけてもっと丁寧に説明していますので、ご興味がある方は本書をご参照ください。

個人的には、ベイズ統計を勉強する必要がある人は、まずこの本でベイズ統計のコンセプトを肌感覚で理解し(その場合、数式が出てくる後半部分は読み飛ばしてもよいかもしれません)、その次に、もう少しテクニカルな本でより深く勉強するというのが良いと思います。一方で、ベイズ統計を勉強する必要はないけど、どのようなものか頭で理解しておきたいと言う人は、この本の前半の内容だけ理解していれば十分かもしれません。そして、そもそもベイズ統計って普通の統計(頻度論の統計)とどう違うの?と疑問に思う方がいらっしゃれば、私の以前のブログ(前半後半)を参考にして頂ければ幸いです。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中