頻度論 vs. ベイズ統計(前半)

11442225495_0803bbb32b_k

写真:Simon Cunningham/クリエイティブ・コモンズ表示 2.0 一般

世の中には統計学やベイズ統計の本や記事があふれています。頻度論のフレームワークで統計学を学んだ人(「頻度論者」と呼びます)の中には、ベイズ統計は事前分布(詳しくは後述します)という主観的なものを入れ込むので「信用ならない」と言う人もいます。一方で、ベイズ統計を信じている人たち(「ベイズ論者」と呼びます)は、ベイズ統計は頻度論よりも柔軟性が高く、洗練された高度な統計学であり、より優れていると主張します。そして、ちまたにある記事はおそらく頻度論しか使わない人が書いたもの(「なんとなくベイズは苦手」)や、もしくはベイズ統計が大好きな人が書いたもの(「ベイズ最高!」)が多いような気がしています。自分が何を信じているかでどっちが正しいと思うかが決まるイディオロギーの対立に近い感じになってしまっているような印象を受けるのですが、実際のところはどうなのでしょうか?

世の中の多くの事柄がそうであるように、どちらかが圧倒的に優れていて、どちらかが劣っているということは無いと私は考えます。頻度論もベイズ統計もどちらも、強みと弱みがありますので、それらを理解した上でどちらが良いか選択する必要があります。○○には頻度論が適していて、××にはベイズ統計が合っている」と言うロジックも一理あるとは思うのですが、それだとどちらとも使うことができる場合にどちらの方法を使ったらよいのでしょうか(実際にはこのパターンが多いと思われます)?一度に全てご説明することはできないのでベイズ統計の(頻度論と比べた場合の)強み・弱みを何回かに分けてご説明しますが、今回はベイズ統計の最大の強みである「ベイズ統計の方が結果の解釈が自然である」という点に関してお書きします。最初に、頻度論とベイズ統計に関して理解しておきましょう。

頻度論とベイズ統計

頻度論(Frequentist):いわゆる普通の統計学のことです。古典的統計学と呼ばれることもあります。特に断りなく「統計学」と説明された場合には一般的にはこちらのことを指します。フィッシャー(1890~1962)、ネイマン(1894~1981)、ピアソン(1895~1980)らによって確立された学問です。自分の目の前にあるデータは数多く行われた実験のうちの一つが観察されたものであると仮定しており(“Hypothetical sequence of trials”)、それを元に、目の前で認められた事象がたまたまの偶然であるのかそうでないのかを評価します。

ベイズ統計(Bayesian):ベイズ(1701~1761)が開発し、ラプラス(1749~1827)が再発見した「ベイズの定理」を用いた統計学のことです。データを見る前に「事前分布」を設定し、それに「データ」を組み合わせることで、「事後分布」を推定する方法論です。つまり、「事前分布×データ=事後分布」であり、この事後分布が目的とするパラメーターになります。1920~30年代に絶滅の危機に瀕したものの、1950年代頃から復活してきている比較的新しい統計学であり、統計学者の中でも人気が出てきています。

ベイズ統計の強み(1):結果の解釈はベイズの方が分かりやすい(自然である)

解析の結果を解釈するにあたってはベイズ統計の方が頻度論よりも自然で直観的です。頻度論者もそのことは認めており、UCLAの疫学者であるグリーンランドとノースカロライナ大学のポール(頻度論者)もそのことを認めており、頻度論で得られたP値も状況次第でベイズ統計っぽい解釈をしても良いのではないかと論文に書いています。それに対してコロンビア大学の著名な統計学者であるゲルマン(ベイズ論者)に、いやいやそんなことはできないよ、と一刀両断されました。ちなみにこのゲルマンの論文はベイズ統計の考え方を理解するのにとても役立ちますのでご興味あのある方はご一読をお薦めします。

1)P値
「確率」に関しては、頻度論でもベイズ統計でもP値を用いますが、解釈が異なります。

頻度論におけるP値とは「帰無仮説が正しいとしたときに、標本のようなデータが得られる確率」です。例えば帰無仮説と対立仮説を下記のように設定したとします。

帰無仮説:Aの平均とBの平均は等しい
対立仮説:Aの平均とBの平均は等しくない

P値とは「AとBの平均が等しいと仮定した時に、手元にあるデータが得られる確率」となります。本来ならば最も自然な解釈は、目の前のデータを観察した上で仮説が成り立つ確率です。しかし、頻度論ではこれをひっくり返して、帰無仮説が正しいと仮定した上でデータが得られる確率をP値としています。この条件(帰無仮説)と結果(データ)の関係がひっくり返っていることが、頻度論のP値の解釈が直観的ではない理由です。

これに対して、ベイズ統計のP値は、実際のその数字を取る(もしくはその数字より極端な値を取る)確率そのものを表します。

例を用いて説明します。ある高校のクラスで、男子学生の平均身長が172cm、女子学生の平均身長が155cmだったとします。男女の身長差は17cmですね。このデータを元に、日本では男子高校生の方が女子高校生よりも背が高いと言っても良いでしょうか?

頻度論で得られたP値は0.04だったとします。解釈としては、「男子高校生と女子高校生の身長に差が無いと仮定したときに、今回のような17cmの身長差がデータとして得られる確率は4%である」となります。この4%という数字はかなり小さいので、おそらく「男子高校生と女子高校生の身長に差が無い」という仮説(帰無仮説)は誤りであり、男子高校生の方が背が高いのではないかと結論付けます(「帰無仮説を棄却する」と表現します)。そして、この4%が何を意味するかというと、この「男子高校生の方が背が高い」という現象が偶然の産物でありたまたまそうなっただけである確率が4%であるということになります。「男性高校生の方が17㎝以上背が高い確率は4%である」と解釈したくなるのはやまやまですが、その解釈は間違いになります(残念なことにこのような誤った解釈はしばしば見受けられますが・・・)。

Frequentist_p_value

(注:こちらのグラフはイメージ図です。実際にはZ値といった統計量を正規分布などと比較してP値を計算します。)

ベイズ統計ではどうなるのでしょうか?ベイズ統計では男女の身長差の確率分布が事後分布として得られます。同じくP値が0.04だったとすると、「男子高校生の方が17cmもしくはそれ以上背が高い確率は4%である」という解釈になります。上記の頻度論の解釈よりも自然であることが分かって頂けると思います。さらには、同じ確率分布を用いて、身長差が20cm以上である確率や、16cm以上である確率なども容易に計算することができます。これらは頻度論のフレームワークでは計算することのできない確率です。

Bayesian_p_value

2)信頼区間 vs. 信用区間
統計では推定値の「幅」を表すときにこのような「区間」を用いますが、頻度論では信頼区間(confidence interval)、ベイズ統計では信用区間(credible interval)を用います。ともにCIと略されるので混乱しやすいのですが、解釈が異なります。ベイズ統計の信用区間は、「ベイズ信頼区間」や「確信区間」と呼ぶこともあります。

頻度論の信頼区間の解釈はとてもややこしいのです。上記のHypothetical sequence of trialsの考え方に立ち戻らなくてはなりません。つまり、目の前にあるデータは、数多くの(全く同一の)実験が行われたうちの一つであると捉えます。ここでは仮に100回実験したとします。そして、それぞれの実験データを元に95%信頼区間を100回計算します。すると、この100個の信頼区間のうち95個のものは真の値を含む、というのが95%信頼区間の正しい解釈になります。今回は95%信頼区間が10~22cmだったとします。下図のように、赤い線が今回のデータになります。同じように20回信頼区間を計算して線を描くと、そのうち19個は真の値(緑色の点線)を含みます。95%信頼区間ですので20回のうち1回(5%)は真の値を含みません(下図では一番下の線は真の値をカバーしていません)。実際には目の前にあるデータを(100回ではなく)1回集めただけですので、そのデータを解析して結果得られた95%信頼区間に真の値が含まれるかどうかは分かりませんし、得られた信頼区間に真の値が含まれる確率(実はこれがベイズ統計の95%信用区間になります)も分かりません。

Frequentist_CI

ベイズ統計の信用区間は、事後分布がその間に収まる確率を表します。とても自然で分かりやすいですね。例えば上記の高校生の身長の例で、95%信用区間が10~22cmだったとします。この場合、男女の身長差が10~22cmに収まる確率は95%となります。

Bayesian_CI

※当ブログに掲載されている内容の無断転載はご遠慮ください。

2件のコメント 追加

  1. nonaka より:

    「男性高校生の方が17㎝背が高い確率は4%である」と解釈したくなるのはやまやまですが、その解釈は間違いになります。そして、残念なことにこのような誤った解釈はしばしば見受けられます。について、もう少し教えていただけますでしょうか?→「帰無仮説を過程をしたとして、男性高校生の方が背が高いと結論される確率は4%である」とすればいいのですか?

    いいね

  2. 津川 友介 より:

    nonaka様、
    コメントありがとうございます。頻度論における4%が何を意味するかというと、この「男子高校生の方が背が高い」という現象が偶然の産物でありたまたまそうなっただけである確率が4%であるということになります。言い換えると、帰無仮説が正しいと仮定した上で、このようなデータ(男子高生の方が17㎝背が高い)が観察される確率は4%に過ぎないというのが正しい解釈になります。

    いいね: 1人

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中