統計手法の制約や弱点を知っておく

著者は、シカゴ大学でデータ分析の理論と応用について大学院生に講義をしている伊藤公一朗さん。 冒頭で、「新聞やテレビで主張されていることの多くは、相関関係を誤って解釈して因果関係のごとく示されているもの」(42ページ)と指摘しているが、まさにそのことが気になって本書を購入した。 だが、物事を判断するには、相関関係より因果関係が必要になる場面がほとんどだ。そこで、因果関係を証明するためには、原因を適用する介入グループと、何もしない比較グループを用意する。伊藤さんは、この2つのグループ分けを行うには、ランダム化比較試験(Randomized Cintrolled Trial: RCT)が最適だという。 そして、実際に北九州市で行ったRCTの実験結果から、電力料金の値上げという介入によって電力消費量が下がるという結果が導かれた。 現実社会では、RCTを行うことが難しいケースが多い。たとえば、70歳を境に医療費の自己負担は3割から1割に減るが、これが医療サービスに影響を与えるかどうかを調べるとき、ランダム抽出は難しいから、RDデザイン法を用いる。しかし、RDデザインをはじめとする自然実験手法では、仮定が成り立つことを数学的に証明することはできず、あくまでも議論を積み重ねていくしかないという。また、この方法で測定できる因果関係は、あくまでも「境界線付近にいる人」に関しての因果関係である。 この他も、集積分析、パネル・データ分析といった自然実験手法を紹介する。 第5章は実践編として、データ分析をビジネスや政策形成に活かした事例を紹介する。 ビジネスとしては、ネットでタクシーを配車するUberが、RCTを使って需要曲線を明らかにしたケースが興味深い。また、「RCTなどの科学的な方法で因果関係を示すことの実務的な利点は、イデオロギー論争などを超えた、データ分析の結果に基づく政策議論ができること」(234ページ)だという。その通りであろう。 第7章では、データ分析の不完全性や限界を説明している。とかく統計分析が万能であるかのような言説が流れる中、伊藤さんの解説は良心的である。 ただ、数式を用いないという制限を課しているなか、取り上げたテーマが多すぎて、新書のページ数ではやや消化不良に感じたことである。