実験(Experiment)と疑似実験(Quasi-experiment)

因果関係や相関関係を証明するのには大きく分けて、実験(Experiment)と疑似実験(Quasi-experiment)という二つの方法があります。疑似実験は観察研究と同じ意味で使われることもありますし、経済学のように疑似実験を観察研究の中でも質の高いものである操作変数法など(次回のブログで詳しくご説明します)のことのみを指すこともあります。

1.実験(RCT)

臨床医学や経済学の世界では、実験とはランダム化比較試験(RCT; randomized controlled trial)のことを指します。この研究方法は、どのグループがどの治療(介入)を受けるかを実験者(研究者)がくじを引いてランダムに割り付ける研究方法のことを指します。治療を受ける方に割り付けられたグループのことを治療群、受けない方に割り付けられたグループのことを対照群(コントロール群)と呼びます。RCTは1950年頃に初めて開発された研究手法であると考えられています。

(RCTではない)より原始的な実験はかなり昔から行われていたと考えられています。1747 年にはスコットランドの外科医James Lindが、壊血症(ビタミンC不足によって出血しやすくなる病気)に対して柑橘類が有効であるという実験を論文にしています。1900年代には、患者を交互に治療群と対照群に割り付けるAlternate-allocation studyという手法が用いられるようになったと言われています。1931年にはJames Burns Ambersonがコインを投げて表になるか裏になるかで結核患者に対してSanocrysinという薬を投与するかどうかを決めたことが記録に残っています(Bothwell and Podolsky, 2016)。しかし、対象者を決める時に本当にランダムに割り付けられていないことが明らかになり(重症な患者は優先的に治療群に割り付けられていたりしました)、医師や患者が治療群に割り付けられたのか対照群に割り付けられたのか分からなくすることが必要であることが明らかになってきました。治療を行う医師は目の前の患者がどちらのグループに割り付けられたのか分からないようになりました。それだけでなく、患者もどちらのグループに割り付けられたのか分からなくするために、プラセボ(偽薬とも呼ばれます。見た目は本物の薬のように見えるが薬として効く成分が入っていない偽物の薬のこと)が用いるようになりました。このように治療を行う医師と患者の両者ともが、治療群と対照群のいずれに割り付けられたのか分からなくすることを「二重盲検化」と呼びます(注)。

(注)二重盲検化には、割り付け時に起こる問題を予防するという意図だけでなく、割り付け後におこる問題を防ぐという目的もあります。たとえRCTで割り付けがランダムに行われたとしても、研究者や臨床現場で治療にあたっている医師が割り付け結果を知っているがために、割り付け後に、片方のグループに追加の介入が行われてしまうリスクがあります。また、被験者が(自分の割り付け結果を知っているために)行動を変えることもありえます。そうなると介入の因果効果を正しく評価できなくなってしまいます。二重盲検化することで、これらの問題を未然に防ぐことができます。

1935年にロナルド・フィッシャーが、肥料などを評価する農業実験に関する「実験計画法(The design of experiment)」においてRCTを提唱しました。1948年には、英国Medical Research Council による結核患者に対するストレプトマイシンの研究にRCTが用いられ、その成功によって臨床試験においても方法論としての有効性が認められるようになったと言われています*1。 そしてルービンの因果モデルの登場によって、なぜRCTが因果推論を行うのに最適な方法であるかが理論的に証明されたとされています。

あらゆる研究デザインの中でRCTが最も内的妥当性の高い研究デザインであると言われています。この方法の最大の強みは、各々の治療を割り付けられたグループの間で、①測定された交絡因子も、②測定されていない交絡因子も共にバランスが取れており、グループ間で唯一違うのは、どの治療を受けたかだけであるということです。ここでカギになるのは後者の「測定されていない交絡因子」です。測定された交絡因子の影響を補正する方法はいくらでもありますが、「測定されていない交絡因子」の分布をグループ間で同じようにする方法は3つしかなく、それは(1)RCT、(2)(完璧にデザインされた)操作変数(IV)法、(3)回帰分断デザイン(および分割時系列デザイン)になります。IV法に関しては後述するように完璧な操作変数を探すことがとても難しいため、実際としては「測定されていない交絡因子」による交絡を確実に排除する唯一の方法がRCTであると言うことができます

RCTの弱点

RCTは優れた研究デザインですがいくつかの弱点があります。1つ目は、沢山のお金がかかることです。実際に患者さんに被験者になってもらい病院でRCTをやるとすると莫大なお金がかかります。学校単位でRCTをやってもお金がかかりますし、ランド医療保険実験のように一般市民にランダムに医療保険を提供するなんて莫大なお金がかかります。いずれにしても観察研究に比べるとはるかに高額な研究費が必要になります。

2つ目は、外的妥当性(一般化可能性)です。上述のとおり内的妥当性に関しては最もパワフルな研究デザインですが、その一方で、外的妥当性に関しては弱いことが知られています。例えば、ある薬の効果を判定するためのRCTを行ったとします。RCTはお金がかかりますので、確実に結果が見られるように、とても高齢な人には参加してもらいたくないですし、合併症がたくさんある人も除外され、とても健康的な人だけが被験者になっていることが多いです。よって、例えRCTで薬が効果的であると評価されたとしても、実際に世の中にその薬が出回って、もっと高齢な人が使ったら、思ったような効果は見られないかもしれません。実験の状況下での効果を「効能(Efficacy)」、実世界で認められる効果を「効果(Effectiveness)」と呼びますが、この2つは必ずしも一致しません。そしてRCTでは効能な理想に近い形で評価することができますが、効果は評価できません。

3つ目は、「脱落」の問題です。RCTは優れた研究手法なのですが完ぺきではなく、キャンベルの因果推論のフレームワークにおける脱落があると、正しい因果推論ができなくなります。つまり、RCTから脱落して追跡できなくなった被験者がいて、追跡できた被験者と脱落した被験者がシステマティックに異なった場合、そのRCTの解析の結果得れらた因果効果はバイアスがかかっていると考えられます。よって、RCTで脱落者が発生した場合には、その中の一部の集団でも良いのでがんばって追跡を行い、残った被験者と脱落者がどのように異なるのか評価する必要があります。

4つ目は、RCTは高額であるため、膨大な数の被験者をリクルートしたり、長期的に追跡を行うことは困難です。そのため、発生頻度の低いアウトカム(例えばまれな副作用)や長期的な追跡を行わないと観察できないアウトカムの評価には適さないという問題があります。

最後に(これは必ずしも弱点ではありませんが)、RCTでは一般的に介入の「割り付け」に基づいて2群間を比較します。そしてこの比較で評価できるのは介入そのものの因果効果ではなく、割り付けの因果効果(Intention to treat effect; ITT effect)になります。実際には、介入群に割り付けられた人が自分の意志で介入を受けなかったり、逆に対照群に割り付けられた人が介入を受けてしてしまうことがあります(ノンコンプライアンス問題)。しかし、RCTのデータを用いて、実際に介入を受けた人と受けなかった人を比較する方法(Per protocol analysis)は、バイアスのかかった形で因果効果を推定してしまうため推奨されていません。RCTから正しく介入そのものの因果効果(Treatment on the treated effect; ToT effect)を推定するためには、操作変数法操作変数法という手法を用いる必要があります。

2.疑似実験

なんだかんだ言ってRCTの方が内的妥当性の高い結果を得ることができます。そうは言うものの、予算や時間の問題でRCTはできないということが多い思います。手元にもうデータがあって、それを解析することで何か分かるのではないか?という状況の人も多いと思います。RCTの方が内的妥当性が高いからと言って、手元にあるデータを利用しない手はありません。実験主義者(Experimentalist)と呼ばれる人たちの中には、RCT以外では因果関係を述べることができないという極端な主張をする人たちもいますが、そんなことはありません。上記の原理原則を理解して頂ければ分かるように、RCTの最大の(というか唯一の)強みは「測定されていない交絡因子」でもグループ間で差が無いということです。もしすべての交絡因子が測定されていれば、観察研究のデータでもRCTと同じように因果関係を述べることができます。「ありとあらゆる情報が全て測定されていれば」という話ではあれば現実的ではありませんが、「すべての交絡因子が測定されていれば」という条件は満たしうる条件だと思います。前のブログでご説明したように、交絡因子とは「治療(暴露)因子とアウトカムの両方の原因となるもの」です。つまり治療因子の原因を全て列挙するか(誰がどのような治療を受けるかのメカニズムが完璧に理解し、測定する)、もしくはアウトカムの規定因子を全て列挙できれば、この条件は達成されます。例えば、アウトカムが心筋梗塞であれば、その規定因子はかなり良く研究されており、情報を全て集めることは不可能ではありません。すべての情報が測定されていれば、プロペンシティ・スコア・マッチングなどの方法を用いてRCTと同じように因果関係を証明することができます。

疑似実験/観察研究の研究デザインには以下のようなものがあります。

  1. 操作変数法(IV; Instrumental variable methods)
  2. プロペンシティ・スコア・マッチング(PS; Propensity score matching)
  3. 回帰分断デザイン(Regression discontinuity method)・分割時系列デザイン(Interrupted time-series analysis)
  4. 差分の差分分析(DID; Difference-in-difference analysis)

この中で、(1)~(3)はとてもパワフルな解析方法であり、正しい方法で使えば質の高い因果推論を行うことができます(間違った方法で用いられていることも多いのですが・・・)。この4つは疑似実験と呼んだとしてもあまり異論はないと思います。これらに比べると(4)は弱い研究デザインであると考えられますが、世の中で広く用いられている方法になります(特にDIDは医療経済学でとても幅広く使われています)。疑似実験/観察研究デザインの各方法論に関しては次回ご説明したいと思います。

参考文献

*1 Medical Research Council (1948). Streptomycin treatment of pulmonary tuberculosis: a Medical Research Council investigation. BMJ 2:769-782.

8件のコメント 追加

  1. 鈴木瞬@SNC産業医事務所 より:

    津田先生
    いつも更新を楽しみにしております。先生のブログは私のような実務家にも非常にわかりやすく、勉強になります。

    いいね

  2. 異能生存体 より:

    ブログに引用させていただきました。事後報告で申し訳ありません。

    いいね: 1人

    1. 津川 友介 より:

      ご紹介頂きありがとうございます!今後ともよろしくお願いいたします。

      いいね

  3. さいとうはじめ より:

    ブログ下部に、『この中で、(1)~(4)はとてもパワフルな…』と紹介した後で、『これらに比べると(5)は…』とありますが、(5)が紹介されていないように思います。おそらく、(3)までがパワフルで、(4)のDIDが弱いデザインという文脈だと推測します。なお、メールアドレスおよび名前は架空のものです。

    いいね

    1. 津川 友介 より:

      ご指摘ありがとうございます。おっしゃる通りです。修正させて頂きました。

      いいね

コメントを残す