回帰不連続デザインRegression discontinuity design(および分割時系列デザイン)

今回は、疑似実験(Quasi-experimental design)の中でも回帰不連続デザイン(Regression discontinuity design、以下RDD)と分割時系列デザイン(Interrupted time-series analysis、以下ITS)の2つに関してご説明します。なぜ2つの研究デザインをまとめて一回でお話するのかというと、考え方によってはITSはRDDの特殊な例であると捉えることができるからです。というわけでまずはRDDの説明をさせて頂き、最後にこのデザインとITSとの関係性をお示しします。ちなみにRDDに関しては図も含めてMoscoe, Bor, Bärnighausenの2015年の論文を引用させて頂きました。

RDDはThistlethwaiteとCampbellが1960年に初めて報告した研究デザインです。このCampbellは以前のブログで出てきた心理学者のキャンベルと同一人物です。RDDとは、ある連続変数(Z)の値が特定のカットオフ値よりも高いか低いかによって治療群(T=1)に割り付けられるか、コントロール群(T=0)に割り付けられるかが決まっている事象を利用することで、治療効果を推定する方法です。この連続変数Zに沿ってアウトカムを見て行くと、カットオフ値の近くでは、Zの値はほとんど変わらないにも関わらず、カットオフ値の片側では治療群、もう片側ではコントロール群に割り付けられているという現象が生まれます。このカットオフ値のすぐ両脇の人達を比較すると、唯一違うのは治療群になったかコントロール群になったかということだけですので、この2群間でアウトカムを比較すると、その差は治療(T)の効果であると言うことができます。図でご説明した方が分かりやすいと思います。

RDD1

この図ではX軸は治療の割り付けの規定因子である連続変数Assignment variable(前述のZ)であり、Y軸は治療を受けるかどうかの確率(Pr(T=1))になります。この例ではZが40未満であればコントロール群に、40以上であれば治療群に割り付けられるようになっていることが分かります。このようにカットオフ値のどちら側にいるかで治療群に入るかコントロール群に入るかが確実に決まるものをSharp regression discontinuity(RD)と呼びます。一方で、確実に決まるのではないものの、治療群に割り付けられる確率ががらっと変わるものをfuzzy RDと呼びます。ここではSharp RDに関してのみご説明します。それでは、次にZに沿ってアウトカムを見て行きます。

RDD2

この図ではX軸に割り付けの規定因子である連続変数Zを、Y軸にアウトカム(Y)を示しています。先ほどお見せしたグラフで分かるように、Z=40の点線の左側の人達は全員コントロール群、右側の人達は全員治療群であることを我々は知っています。例えば、Zの値が39の人(Z<40)は治療を受けていないのですが、Zの値が41の人(Z>40)は治療を受けています。このZ=40にものすごく特別な意味があるわけではないのであれば、この2人はかなり似かたよった2人であることが分かると思います。このデータがRDDに適したものであれば、2人の唯一の違いは治療を受けたかどうかであると言っても過言ではない状態になります。そうなると、上記のグラフでデータの点に沿って線を引いていくと、Z=40のところで連続性が無くなっていますが、この(Y軸方向の)「ギャップ(非連続)」が治療の効果(Treatment effect)そのものになります。

別の考え方をしてみましょう。例えばZの値に誤差があり、測定するごとに2~3くらい値がランダムに上下するとします。そうすると、Z=40の人がこの点線(Z=40の点線)の右側に含まれるか、左側に含まれるかはランダムに決まると言って良いと思います。そうすると、これは実際には観察データでありランダム化比較試験(RCT)ではないのですが、少なくともZ=40の周辺においてはランダム割り付けが行われていると捉えることができます。

一つ注意しないといけないのは、このZ=40の左右で人々を比較しているので、集団全体を比較するRCTとは見ているものが違います。RDDではこのZ=40周辺の人達への治療のインパクトであり、これは以前のブログでもご説明したLocal average treatment effect (LATE) もしくはComplier average treatment effect (CATE) と呼ばれるものになります(日本語では局所平均処置効果と呼びます)。よって、RCTのように集団対集団の比較をした場合の治療効果とは比較することはできません(推定しているものが違うため)。

RDDからバイアスの無い形で治療効果を推定するためにはいくつかの重要な条件がありますが、その中で最も重要なのがZのカットオフ値においてアウトカムに影響を与えるその他の因子が大きく変わることはない、ということです。例えばZ=40の時点において、第三の因子(L)の値も同様に大きく変化していたとします。このLがアウトカムの規定因子であった場合、上記のギャップ(=治療効果)が治療(T)の影響を見ているのか、それともLの影響を見ているのかが分からなくなります。その他の前提条件には以下のようなものがあります。

RDDを用いるための前提条件

  • Zのカットオフ値においてアウトカムに影響を与えるその他の因子が大きく変わることはない
  • 治療の割り付けのルール、およびZのカットオフ値が明確に分かっている
  • Zはカットオフ値の周辺で連続である(連続的な変化をする)
  • カットオフ値の周辺で潜在的なアウトカム(Potential outcome)は連続である

RDDのコンセプトは操作変数(IV)法に近いものがあります。IV法では操作変数が2値変数(0か1しか取らない変数)であったのに対して、RDDは連続変数を使っているイメージです。RDDはIV法と同様に、測定された交絡因子だけでなく、測定されていない交絡因子に関しても対処することができます。よって、プロペンシティスコア法のように、「測定されていない交絡因子が存在しない」という強い仮定を置く必要がありません。

IV法の時と同様に、適切な割り付け変数Zを探すことが一番のカギになります。実際には多くのRDDが考えられます。カナダ・サイモンフレーザー大学経済学部の重岡仁先生の研究では、日本において70歳を超えると医療費の自己負担額が下がることを利用して、70歳の前後で医療サービスの利用頻度や健康状態が変わるかどうかの研究が行われました。その結果、69歳11カ月と70歳を比べると外来患者数は10.3%増加していたことが分かりました(下図)。低出生体重児の診断基準が1500gであり、それを下回ると多くの医療サービスが投入されることを利用して、医療費が健康のアウトカムにどのように影響を与えたかという研究も有名です。臨床現場でも病気の診断基準などが明確なカットオフ値で決まっていることが多いので、これを利用して治療効果を推定できることができると思われます。

Shigeoka

分割時系列デザイン(Interrupted time-series analysis)

端的に言うと、治療割り付けのための連続変数Zを「時間」にしたものがITSになります。例えば、オバマケアは2010年に導入されました。この政策の健康へのアウトカムを見たければ、2010年をZのカットオフ値だとして、それよりも前の時点でのアウトカムのトレンドをモデルして、それよりも後のアウトカムのトレンドもモデルして、2010年の段階でギャップ(非連続)が発生しているかどうかを見ます。RDDとITSの違いの一つは、もしITSで同じ集団のアウトカムを繰り返し測定していた場合、自己相関(autocorrelation)を考慮する必要が出てきます。自己相関とは、前の年のアウトカムと次の年のアウトカムの間に相関があることを示しています。自分の体重を毎年測っていたとすると、昨年度の体重の情報はかなり強力に今年度の体重を予測しますね?これが自己相関です。RDDの場合にはZのカットオフ値の両サイドは違う人を比べていることになりますので、自己相関はあまり問題になりません。一方で、ITSではしばしば同じ集団を追跡していきますので、自己相関をきちんと考慮した上での解析が必要になります。医療分野におけるITSに関しては、WagnerとSoumeraiの論文が詳しいと思います。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中