相関関係は因果関係ではない(Correlation is not causation)

19世紀を代表するアメリカの思想家・作家であるラルフ・ウォルドー・エマーソンは、「浅はかな人間は運を信じ、流れを信じる。強い人間は因果関係を信じる。」と言いました。医療政策において因果関係はとても重要です。例えば、「地域の人口一人当たりの医師数」と「医療費」との間に相関関係が認められたとします。この2つが本当に因果関係であれば、医師数を減らせば医療費も抑制できます。一方で、もしこの2つの事象が因果関係になければ、医師数を減らすことで医療費は抑制されず、単に地域住民の病院での待ち時間が増えたりしてアクセスが悪くなってしまうだけです。場合によっては医師数を減らすことで、逆に医療費が増えてしまう可能性すらあります。「地域における病気の人の数」が多ければ、医療費は増えますし、医療サービスに対する需要は多くなるので(必要に迫られて)医師数も増えます。逆に地域に病気の人が少なければ、医療費も医師数も少なくなります。もしこの状態で医師数を減らすと、病気の人が多い地域では病院になかなかかかれなくなり、診断や治療も遅れ、重症化してから治療されるようになってしまうため、結果的に医療費が逆に高くなってしまうかもしれません。

相関関係と因果関係とは同じ意味ではありません。ビッグ・データが入手できるようになり多くの相関関係を簡単に述べることができるようになってきましたが、間違って因果関係があるかのように解釈してしまうと誤った経営判断をしてしまう可能性があります。例えばインターネットショッピングサイトで20%オフのクリスマスセールをやったところ売り上げが前月よりも10%増加したとします。これだけでは値下げが売り上げ増加の原因であるかどうかは分かりません。クリスマス前の時期はそもそも消費者の購買意欲が増加して売り上げアップしていたかもしれませんし、セールに合わせてホームページをリニューアルしたことが本当の原因かもしれませんし、消費税増税前の駆け込み需要かもしれません。もし仮に(その他の条件を全く変えずに)値下げをしなかったらどうなっていたか(この「もし××しなかったらどうなっていたか?」というシナリオのことをルービンの因果推論モデルではPotential outcome、疫学の因果推論モデルではCounterfactualと呼びますが、これらに関しては次回のブログで詳しくご説明します。)というシナリオをきちんと考慮しない限りは値下げの真のインパクトは評価することはできません。これが売上げアップは値下げの影響だと解釈してしまうと、今後売り上げが下がってきたらすぐに値下げに走るという間違った経営戦略を取るようになってしまうリスクもあります。

今回は因果関係、相関関係などの概念をまとめたいと思います。定義に関しては専門分野や教科書によって多少異なりますが、ここでご説明するのは比較的広く受け入れられている概念を用います。下記のように適切な日本語訳がなくオーバーラップしてしまっているため(AssociationとCorrelationは共に相関関係と訳されてしまうため)、英語のままの表現を用いてご説明します。

Typology of relationship (関係性の類型論)

  1. Causation=因果関係
  2. Association=相関関係
  3. Correlation=相関関係
  4. Covariance=共分散
  5. Covary/Covariation=共変動

上の4つの表現のうち、上に行けばいくほど”強い”意味合いを持った関係・関連(Relationship)であると捉えてください。まずはCovaryもしくはCovariationですが、これは2つの事象(XとYとします)があるとして、片方が動いたらもう片方も動くイメージです。この2つの事象の関係性の「形」は特に決められてなく、ざっくりとした概念です。

CovarianceとCorrelationは統計学的にきちんとした定義があり、対比で考えた方が分かりやすいと思われます。CovarianceもCorrelationもXとYの線形の関係を表しており下記のような関係にあります。XとYのCovarianceはこの2つの事象の線形の相関関係を見ています。ちなみに統計学で出てくる平均と分散の「分散(Variance)」とは、自分自身(XとX)のCovarianceのことを指します。そして、CorrelationはCovarianceを-1から+1の間におさまるように標準化した値になります。Correlation=+1を完璧な正の相関、-1の場合を完璧な負の相関とします。自分自身(XとXの相関)は常に+1になります。

Covariance and Correlation

次にCorrelationとAssociationです。日本語では共に相関関係と訳されますが、Correlationは線形(Linear)の相関関係を指すのに対して、Associationは線形(Linear)でも非線形(Non-linear)でも良いより広い概念になります。相関関係を定量化するピアソンやスピアマンの相関係数(Correlation coefficient)という統計量がありますが、これらの統計量は線形の関係しか評価できません。例えばXとYの関係がU字型であった場合、Correlation coefficientはゼロであるということもあり得ます。下図のようにU字型の関係のときにはCorrelationはありませんが、Associationはあるという結果になります。

Correlation vs Association

最後にAssociationとCausationの違いです。これには2つの考え方があります。より狭い意味合いでは、Xが原因でありYがその結果であると言う因果関係の矢印が引けるものをCausation、その矢印の方向性がはっきりとしないものをAssociationと呼びます。つまり、「X⇒Y」がCausation、「X⇔Y」がAssociationだとイメージしてください。降圧薬を飲んだら血圧が下がるという関係がCausationの一例です。「降圧薬を飲む⇒血圧が下がる」という矢印が引けますが、「血圧が下がる⇒降圧薬を飲む」という逆向きの矢印を引くことはできません。一方で、地域の医療費と病気の死亡率の関係はCausationではなくAssociationになります。地域の医療費が高いと言うことは病院数、医師数などの医療資源が十分投入されているということを意味します。その場合、死亡率が低下することが期待されます。一方で、病気の死亡率が高いと言うことは、(高齢化が進んでいるなどの理由により)病気が重症であるとことを示唆します。病気が重症であれば結果として医療費がかかってしまいます。「地域の医療費⇔病気の死亡率」は両方向の矢印になりますので、CausationではなくAssociationになります。ちなみにこの逆向き(もしくは両方向)の因果関係の矢印のことを経済学ではSimultaneity(同時性)、疫学では逆の因果関係(Reverse causality)と呼びます。

より広い意味合いでは、XとYの間に内生性(Endogeneity)・交絡因子(Confounding)が介在する見せかけの因果の関係性をAssociation、これらが存在しない純粋な因果の関係性をCausationと呼びます。因果推論の世界では、実際にはこちらの使い方がされている場合の方が多いです。前のブログでもご説明した通り、XとYの共通の原因(Common cause)のことを経済学では内生性(Endogeneity)、疫学では交絡因子(Confounding)と呼びます。これが存在しているとXとYの間に全く関係が無くても、見かけ上はあたかも関係があるように見えてしまいます(下図)。例えば飲酒をX、肺がんの発病率をYとします。実際には飲酒は肺がんのリスクを上げなかったとしても、アルコールをたくさん飲む人はたばこも一緒に吸う確率が高いことが知られています。この場合、喫煙が内生性・交絡因子になります。たばこをたくさん吸う人ほどアルコールをたくさん飲む(喫煙⇒飲酒)、そして喫煙は肺がんのリスクを上げる(喫煙⇒肺がん)、そうすると実際にはアルコールと肺がんの間に関係が無かったとしても、見かけ上は関係があるように見えてしまいます。この見かけ上(まやかしの)の因果関係をAssociation、真実の因果関係をCausationと呼びます。この場合、内生性・交絡因子で補正(Adjustment)するか層別化(Stratification)することで、XとYの真の関係を評価することができるようになります

Causal diagram

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中