プロペンシティスコア（Propensity score; PS）（２）－PSに関する5つの誤解

プロペンシティスコア（Propensity score; 以下PS）に関するお話の後半はこの方法論に関する誤解に関してご説明したいと思います（前半をまだ読んでいない方は先に前半をお読みください）。PSはローゼンバウムとルービンが1980年代に開発した方法論であり、私はハーバード大学でルービンの因果推論を勉強し、そのフレームワークの中でPSを習いました（実際にはルービンの弟子に習い、ルービンはゲストとして1回来ただけでしたが・・・）。疫学の授業でもPSを習ったことがあり、それらを対比することでアメリカでもPSがしばしば間違って用いられていると思いました。ほとんどは1983年のローゼンバウムとルービンの論文をきちんと読んで理解していないための誤解だと思います。PSはきちんとした統計学的理論に基づいた方法論ですが、間違った方法で用いると正しい因果推論はできなくなってしまいます。PSに関する誤解をここでまとめたいと思います。

（１）PSは万能？？

×PSを使うことでありとあらゆるバイアスを取り除ける

○PSはPSモデルに投入された因子のみ対処できる

PSでマッチングするとありとあらゆるバイアスを取り除けると言う誤解がありますが、それは真実ではありません。実際にはPSは観察された交絡因子しか調整できません。それどころか、PSはPSモデルに投入された因子しか対処していません（つまり観察されていて測定されていてもPSモデルに含まれていなければ何もしていないのと同じです）。PSモデルに含まれていない因子は対応できませんし、いわんおや観察されていない交絡因子（unobserved confounder）には全く無力です。以前のブログでもご説明したように、観察されていない交絡因子の影響を取り除くことができるのはRCTと操作変数（IV）法と回帰分断デザインの3つだけになります。

PSのそもそもの前提条件として、全ての交絡因子が測定されておりデータとして手元にあり、PSモデルには全ての交絡因子が含まれている必要があります[これはIgnorable treatment assignment assumption (Conditional on covariates, treatment is randomly assigned) と呼ばれるPSの重要な前提条件になります]。もし重大な交絡因子が測定されておらず、データとして入手することができないのであれば、PSは（少なくとも理想的な形では）使うことができません。

（２）PS vs. 重回帰分析

×PSも重回帰分析も得られる結局のところ結果はほとんど変わらない

○PSは重回帰分析よりも優れた点がいくつかある

PSと重回帰分析（Multivariable regression）はほとんど変わらないと言う誤解がありますが、それも正しくありません。少なくとも2つの点においてPSの方が優れている方法であると考えられています。一つ目は、PSではPSのスコアがオーバーラップする部分であるコモンサポート（Common support）にある人のデータしか使いません。つまり、いかなる状態でも必ず治療群に含まれる人、およびいかなる状況でも必ずコントロール群に含まれる人は解析から除外されます。これらの人達に反事実Counterfactual（治療群に含まれた人でしたらもし仮に治療を受けなったらアウトカムがどうなっていたか、そしてコントロール群の人だったらもし仮に治療を受けていたらどうなっていたか）がありません。この「もし仮に・・・」のシナリオが存在しないからです。PSによる解析ではこのコモンサポートの外にある人達のデータは使わないので、より厳格な因果推論を行うことができると考えられています。重回帰分析ではこのようなコモンサポートの外にいる人もあたかもCounterfactualがあるかのように扱い、その他の人達と同じようにデータに含まれてしまいます（というか区別することすらできません）。このような解析は英語ではExtrapolation（外挿）と呼ばれ好ましくないことであるとされています。二つ目は、PSでは間違ったモデルを作ってしまう（misspecification）可能性が低く、データの分布に関してもよりフレキシブルであると考えられます。例えばアウトカムが血圧であり、連続変数であるため線形回帰分析が用いられたとします。説明変数に年齢と性別が入っていたとします。年齢を連続変数で用いた場合には、血圧と年齢が線形の相関にある（Y軸を血圧、X軸を年齢としてグラフを書くとこの2つは線形である）ことを仮定してしまいます。でもこれが正しいかは分かりません。年齢と性別の間で相互作用（interaction term）が必要かどうかは誰も教えてくれません。PSの強みは、PSモデルに含まれる変数が2群間でバランスが得られるまでPSモデルを作り直し続けます。その過程の中で年齢の2乗、3乗が必要であることが分かるかもしれませんし、相互作用が必要になるかもしれません。2群間でバランスが得られるということ自体が、そのPSモデルが正しい（misspecificationが無い）ということの証明になっています。そのため、回帰分析ほどはモデルが間違っているリスクを心配する必要がありません。逆に言うと、コモンサポートを無視して、PSモデルに線形でしか変数を投入しなければ（2乗、3乗などを用いず、相互作用も使わなければ）、確かにPSも重回帰分析も結果はほぼ同一になると考えられます。

（３）PSモデルに含めるべき変数は？

×PSモデルには交絡因子だけ含まれていれば良い

○PSモデルには交絡因子だけでなくアウトカムの予測因子も含めるべきである

疫学者の中にはPSモデルには交絡因子だけ含まれていれば良いと考えている人達がいます。実際に私もハーバード公衆衛生大学院のミゲル・ハーナン教授と直接ディスカッションしたことがありますが、彼にも交絡因子だけ含まれていれば良いと言われました。しかし、ルービンによるとPSモデルには交絡因子とアウトカムの予測因子の両者が含まれている必要があります。確かにPSモデルに交絡因子が全て含まれていれば、交絡は完全に取り除くことができ、RCTと同じであると考えることができるかもしれません。しかしながら、無作為割り付けの失敗（Randomization failure）と同じような状況になってしまうリスクがあります。つまり、PSモデルに交絡因子のみを含んだ解析を100万回行えば、平均すると（on average）比較可能な2群を作りだすことができます。一方で、自分の目の前にある一つのデータセットにおいてはたまたまアンラッキーなことに2群が比較可能ではないというリスクがあります。治療を医療保険、アウトカムを糖尿病の発症率だとします。交絡因子であるためには、治療（医療保険）とアウトカム（糖尿病の発症率）の両者の共通の原因である必要があります（詳しくは以前のブログをご覧ください）。仮に糖尿病の家族歴があるかどうかが、その人が医療保険を持っているかに全く関係がないとします（オバマケアによって医療保険会社はカバーすることを拒否することができなくなったので十分あり得るシナリオです）。そうすると、糖尿病の家族歴は治療（医療保険）の原因では無くなるので、交絡因子ではありません。PSモデルに糖尿病の家族歴を含めなければ、高率に2群間でバランスが悪くなります。糖尿病の家族歴がある人の割合が、医療保険を持っている群で40％、持っていない群で20％だったとします（この割合はランダムですのでどのような割合でもあり得ます）。医療保険を持っている群でアウトカムである糖尿病の発生率が5年で10％、医療保険を持っていない群で5％だったとします。医療保険が糖尿病を引き起こしているのでしょうか？明らかに違うことが分かって頂けると思います。あくまでアウトカムの予測因子が十分に2群間でバランスが取れていないため、バイアスを伴った推定をしてしまっただけであると考えられます。PSでは、RCTのテーブル1のようにアウトカムの予測因子が2群間でバランスが取れていることを示すことがゴールまでの第一段階です。RCTにおいて2群間でバランスが取れていることを示す必要があるのはアウトカムの予測因子ですので、PSでもアウトカムの予測因子をPSモデルに含める必要があります。

それでは、交絡因子・アウトカムの予測因子以外の変数をPSモデルに含めるのはどうでしょうか？まず注意して頂きたいポイントは、少なくとも治療の予測因子であるもののアウトカムの予測因子ではない変数、つまり操作変数（IV）のような変数はPSモデルに含めない方が良いとされています（AJE, 2006）。交絡因子・アウトカムの予測因子ではなく、IVでもないような「その他もろもろの変数」はどうでしょうか？PSモデルに含めるべきでしょうか？重要な変数に関して2群間でバランスを達成するのもけっこう大変ですので、あまり重要ではない変数までバランスを確保するのはかなりの労力が必要となります。その割にバイアスを減らすことも、推定の精度も高める（推定の信頼区間を狭くする）ことも無いので（PSモデルでは点推定値Point estimateしか用いないため）、そのメリットはほとんど無いと思われるので、必要ないと考えられます。

（４）良いPSモデルとは？

×良いPSモデルとは治療の割り付けを正確に予測することのできるモデルである

○良いPSモデルとは2群間の変数のバランスが得られるモデルである

もう一つの大きな誤解は多くの人がPSモデルがいかに良好に治療の割り付けを予測できるかがとても重要であると多くの研究者が思っていることです。PSの定義が治療群に割り付けられる確率である、ということがこの誤解の大きな原因であると思われます。確かにこの定義は正しいのですが、実際にPSモデルに含めるべきなのは交絡因子（全ての交絡因子が含まれている必要あり）とアウトカムの予測因子の2つである、ということに注意が必要です。前回のブログでも書いたようにPSモデルに含まれた変数の分布を2群間で似かたよったものにすることがPSの最終的な目標です。そのため、PSモデルの治療の割り付けの予測能力は重要ではありません。PSモデルがどれくらい治療割り付けと相関があるかを検証する必要すらありません。ルービンら（Pattanayak、Rubin、Zell、2011）によるとこの注意点は下記のように説明されています。

Importantly, a proposed observational study design should not be evaluated based on how closely the propensity score model fits the data or how well the propensity score model describes the presumed true decision-making process. Estimating the propensity score model is one step toward creating well-balanced subclasses or matches, and the best propensity score model is the one that leads to the design with the best covariate balance.

大事なのは、プロペンシティスコアがいかに良くデータに適合するかや、プロペンシティスコアがいかに良く治療を受けるかどうかの意思決定のプロセスを説明するかで評価するべきではないということである。プロペンシティスコアを計算することは、層別化やマッチングをするためのプロセスであり、最良のプロペンシティスコアとは共変数が2群間で最もバランスが取れた形にするもののことを指す。

上記の（３）でも出てきたように、PSモデルには操作変数（IV）のように治療を予測するもののアウトカムを予測しないものは含めない方が良いことが分かっています。もし仮に良いPSモデルが治療の割り付けを正確に予測できるモデルなのであったとしたら、操作変数（IV）はPSモデルに含めないというのは論理的な矛盾があるのかもしれません。

（５）PS vs. IPW

×PSはサンプルサイズが小さくなってしまうので、重み付け（IPW）の方が優れている

○PSはマッチングか層別化で用いた方が良い（少なくともPSの開発者であるルービンはそのように主張している）

前述のように、PSではコモンサポートの外に相当する人達を除外しますので、サンプルサイズが小さくなってしまいます。これは多くの研究者にとってデメリットであると思われているようです。それを解決する方法として、PSを用いてマッチングや層別化する代わりに、逆確率重みつき推定法（Inverse probability weighting; 以下IPW）という方法論を用いることを推奨している研究者たちがいます。ざっくりとご説明すると、各々の人が実際に受けた治療を受ける確率の逆数を逆確率（Inverse probability；以下IP）と呼び、各人をその人のIPで重み付けした後に2群間でアウトカムの平均値を比較するのがIPWになります。IPWで用いられる確率は「その人が実際に受けた治療を受ける確率」であり、PS＝「その人が治療を受ける確率」とは違います。実際に治療を受けた人達（治療群）においては、IPWの確率とPSは同一です。その一方で、実際には治療を受けなかったコントロール群に含まれる人達にとっては、その人が「コントロール群に割りつけられる確率」になります。

IPWは一見素晴らしい方法なのですが、一つの問題を内包しています。本来だったらどう考えても治療を受けていないはずの人（Aさん）がいて、その人のPSが0.1％だったとします。一方で、まあ順当に行けた治療群に入っている人（Bさん）がいて、その人のPSは50％だったとします。IPWで重み付けすると、Aさんには1/0.001=1,000、Bさんには1/0.50=2の重みが与えられ、全体の推定値にはAさんがBさんよりも500倍も影響力があるというおかしなことが起きてしまいます。ちなみにこのAさんはおそらくPSマッチングをした場合には、コモンサポートが含まれないということで解析から除外されてしまうでしょう。IPWは確かに数学的には正しい結果を導き出すはずなのですが、このような反事実の存在しないような極端なサンプルに過大な影響力を与えてしまうと言うことで（これに関して詳しくはBasu’s elephantsをご参照ください）、PSの開発者であるルービンはIPWを否定しています。ちなみにルービンはPSを回帰分析の一つの変数として用いることにも否定的です。ルービンの言葉を借りると「PSはそのような目的のために開発されたものではない」ということです。ルービンによると、PSはマッチングと層別化の2つの解析方法にのみ限って用いられるべきものなのです。

12件のコメント追加

sokyt より:

2015/05/15 16:07

非常に勉強になりました。ありがとうございます。
私は臨床医でPSを勉強しながら使っていますが一流誌の中にも使い方を誤っている例が多く見受けられると思います。そもそも治療を受けやすいか否かの指標なのに、過去の治療歴の有無や糖尿病の有無を調節するのに使っている例もあります。
また色々と勉強させていただきたいと思います。ありがとうございました。

いいねいいね: 1人

返信
Taka Osawa より:

2015/10/24 03:44

プロペンシティスコア(2)でのことです。
「PSモデルには交絡因子だけでなくアウトカムの予測因子も含めるべきである」とありますが、交絡因子とアウトカムの予測因子はほぼ同じではないのですか？

「調べようとする因子以外の因子で、アウトカムの発生に影響を与えるものを交絡因子」として私は認識しております。

いいねいいね

返信
1. 津川　友介より:
  
  2015/10/24 22:07
  
  Osawa様、
  コメントありがとうございます。前のブログ（https://healthpolicyhealthecon.com/2014/12/12/causal-diagram/）でも書かせて頂いたのですが、交絡因子とは「原因（暴露因子）」と「結果（アウトカム）」の両方の共通の原因のことです。一方で、アウトカムの予測因子はアウトカムの原因ではありますが、「原因（暴露因子）」の原因である必要はありません。つまり図示すると、
  
  アウトカムの予測因子（X）：
  X→アウトカム
  
  交絡因子（C）：
  C→アウトカム
  かつ
  C→原因（暴露因子）
  
  という感じになります。つまり交絡因子であればアウトカムの予測因子になりますが、その逆は成り立たないということになります。
  
  いいねいいね
  
  返信
  1. Osawa より:
    
    2015/10/25 01:51
    
    大変勉強になりました。ありがとうございました。
    
    いいねいいね
ft より:

2015/12/21 08:33

質問させて下さい。例えば脳梗塞の予防にACE-iとARBとβブロッカーのいずれか1剤が投与された集団がいると仮定します。その後1年間は薬剤の変更がなかった集団です。アウトカムを1年後の脳梗塞の発症として、ACE-i 10000例、ARB 10000例、βブロッカー 10000例の30000例の中でACE-iとARBの効果を比較検討する際にプロペンシティスコアマッチングを用いても良いのでしょうか？
例えばまったく同じことをACE-iとARBをランダマイズスタディでした場合はその2つ以外の選択肢がありません。しかし、先に示した状況では他の降圧薬もあるなかでACE-iとARBだけを抜き取りその2つで比較することになります。これは問題にはならないのでしょうか。
わかりにくい質問で申し訳ありません、もしよろしければ先生の意見をお聞かせ下さい。

いいねいいね: 1人

返信
1. 津川　友介より:
  
  2015/12/29 14:45
  
  ft様、ご質問ありがとうございます。ACE-I群とARB群で交絡因子とアウトカムの規定因子の分布が同じであれば、唯一の違いはどちらの薬剤を服用しているかになりますので、2群間のアウトカムの差は治療効果（治療効果の差）になります。βブロッカー群がいることで特に問題になることはないと考えます。一つ注意して頂きたいのは、PSにはSUTVAという条件があり、用量や種類にばらつきがないことが条件になります。つまりACE-Iの用量が同じ集団しか検証することができません。また違う種類のACE-Iを服用している人たちは、それぞれの種類ことしか検定できないので注意してください。
  
  いいねいいね
  
  返信
  1. ft より:
    
    2016/01/22 18:53
    
    大変わかりやすく解説してくださりありがとうございます。よくわかりました。
    
    いいねいいね: 1人
ピンバック: Winter course | 長谷川研究室
Hiroshi より:

2016/06/03 18:57

まだ(2)を読んでいる段階ですが，こんなに親切にかつ多くの事がきちんと記されていて，かつ重要なTipsも差し込まれているような資料にたどり着けた事を大変幸運に思っています．

ところで恐縮ですが1点Typoかと思うのですが，「医療保険を持っていない群でアウトカムである糖尿病の発生率が5年で10％、医療保険を持っていない群で5％だったとします。」この最後の部分は「医療保険を持っている群で5％だったとします。」ではないでしょうか．今後初学者が覗いた時のために修正していただけますと幸いです．宜しくお願いいたします．

いいねいいね: 1人

返信
1. 津川　友介より:
  
  2016/06/04 11:27
  
  お褒めのお言葉ありがとうございます。Typoに関してはおっしゃる通りです。教えて頂きありがとうございました。誤解のないように修正させて頂きました。また何かございましたら教えて頂けると幸いです。今後ともよろしくお願いいたします。
  
  いいねいいね
  
  返信
  1. Hiroshi より:
    
    2016/06/04 16:20
    
    早速ありがとうございました．そして私の不注意で指摘があべこべだったのにサラッと直して頂きまして恐縮です．
    
    いいねいいね: 1人
FT より:

2017/05/07 02:26

大変勉強になります。先生のような方が今後の日本を盛り立ててくださると信じています。
ところで、結果の解釈について質問させてください。プロペンシティスコアマッチングあるいはIPTWを用いて抽出した２群間の、治療後の結果に有意差があるかを検討したい場合です。
PSマッチングの際にはグループ同士を対応のある検定を行うという認識で正しいのでしょうか？もしそうであれば連続変数であればpaired tテストで、名義変数であればMcNemar’s テストを使用することになるのでしょうか？
また、IPTWの際にはどのような評価方法が適当なのでしょうか？
少し先生の本筋と外れてしまうかもしれませんが教示いただけると嬉しいです。この２つの手法について正確に日本人専門家が解説したものが皆無で、おすがりする思いです。

いいねいいね: 1人

返信