ネイト・シルバー氏がトランプ勝利の可能性を高く見積もっていた理由

先日行われた米国大統領選の事前予測について、著名なデータサイエンティストであり今回も選挙予測を行っていたNate Silver氏が11月11日にブログ記事を書いています。大統領選というよりも、統計分析の話として面白かったので、簡単にポイントを付けて共有したいと思います。

fivethirtyeight.com

（なお、僕自身は統計や投票行動の専門家でもなく、彼が専門家として現在どの程度信頼されているかについても正確に理解しているわけではないので、彼の記事を引用することについて違和感があればご指摘いただけるとありがたいです。）

Nate Silver氏は、日本でも2013年頃にブームとなった「シグナル＆ノイズ」の著者で、2012年の米国大統領選挙の結果を正確に予想したことでよく知られています。
今回の選挙では、他の予測サイトがトランプ氏勝利の確率について15％～1%以下としている中、Nate Silver氏が運営するサイト”Five Thirty Eight”は、約30%という比較的高い当選確率を示していました。今回のブログ記事では、「なぜ我々の予測は他の予測と比べてトランプ氏勝利の確率を高く推定していたのか」ということを分析するとともに、多くのメディアや人々がヒラリー勝利の予想に偏っていたことを批判しています。

＊＊＊
＜ポイント＞
① モデルによる投票予測は、世論調査が完全に正確でないから意味がある。
② 世論調査においては全国の結果よりも、州ごとの結果の方が、誤差は大きくなる。
③ ある州における投票結果は、周囲の州の結果と強い相関がある。
④ 直前まで態度を決めていない、あるいは第三党支持者の動向は予測と結果の関係に大きな影響を及ぼす。
⑤ 今回の選挙における事前の世論調査に特別大きな誤差があったわけではない。
⑥ 今回の世論調査には、過去の選挙と同程度の、「ほどほど(modest)の」誤差があったが、その程度の誤差であっても大方の予想を反してトランプ氏が当選するには十分だった。
⑦ 今回のトランプ勝利を「予想外」のものとしたのは、世論調査の誤差よりも、ジャーナリストの思い込み。

<概略＞
（要約ではなく、重要と思った箇所を適宜ピックアップして再構成しています。原文にはもっといろいろなことが書いてあります。）

まず、モデルによる投票結果分析の意義は、世論調査が完全に正確ではないために生じます。
世論調査が完全に正確であれば世論調査の結果をそのまま読めばよいので、モデルを用いて当選確率を示すことには意味がありません。誤差を考慮に入れた上で、可能範囲の予測を示すことに、数理モデルを用いた投票分析の意味があります。

Five Thirty Eightの選挙予測は、1972年以降の大統領選挙における世論調査結果の正確性のデータに基づいています。例えば、選挙最終週の世論調査と実際の投票結果には、平均2%の誤差が生じます。これは、単純なサンプリングエラーよりも大きいので、世論調査結果には規則的な誤差が生じていると考えられます。　

このような誤差は、全国レベルよりも州レベルでより大きくなります。例えば、トランプ支持者が多い白人中所得層と、クリントン支持者が多いヒスパニック系において、世論調査への回答率が低かったと仮定します。この時、彼らの意見は世論調査では現れないものの、選挙結果には反映されます。
全国では、それぞれの効果がある程度打ち消しあうため、世論調査と選挙結果のずれは比較的小さくなると見込まれます。しかし、州ごとで見ると、白人中所得層の多い州では、トランプ氏が世論調査よりも多い票を得る一方、ヒスパニック系の多い州ではクリントン氏が世論調査よりも多い票を得ることになります。米国大統領選は原則州ごとに選挙人を総取りする方式なので、こうした州ごとのずれの影響が大きくなります。
Five Thirty Eightは、過去のデータにおけるこのような州ごとの特色を考慮しています。

今回、この影響は大きく出ました。クリントン氏は11の州で事前の世論調査よりも多い得票率を得ました。特にカリフォルニアでは世論調査を5ポイント上回る支持を得ています。しかし、その内9つの州はもともと民主党優位な地域であったため、結果としてあまり有利になりませんでした。
他方、中西部・ペンシルバニアなどでは、世論調査を大きく下回る結果となりました。これらの州には激戦区が多く含まれていたため、クリントン氏はこれらの地域で予想以上に選挙人を失うこととなりました。

また、ある州での選挙結果は周りの州の選挙結果と相関があります。例えば、中西部及びペンシルバニアは似た動向を示す傾向にあり、これらの地域でクリントン氏が予想以上に苦戦したことは、今回の結果に大きな影響を与えました。
これはFive Thirty Eight が4年前にオバマ氏の勝利を予測し、今回クリントン氏の勝率を低く見積もった共通の原因の一つです。

さらに、直前まで態度を決めていなかった投票者の動向が大きな影響を与えました。態度を決めていない人の投票行動を予測することは難しく、このような人が多い場合には予測と結果のブレは大きくなりがちです。また、トランプ氏は最後の2週間で大きく支持を伸ばしましたが、事前の結果予測において、選挙直前の世論調査の動向をどの程度織り込むべきかについては議論があり、予測モデルによってもその反映の程度は異なります。

今回の選挙において、世論調査の結果に特別大きな誤差があったという考えには強く反論します。今回の選挙における世論調査でも過去の選挙と同程度のmodestな誤差があり、それらの誤差はトランプ氏の勝利を導くのに十分でした。

多くの人が今回の結果や英国のEU離脱を予想外に感じたのは、事前の思い込みから偏ったデータの見方をしていたことにあり、データを丁寧に分析していれば今回の結果はそれほど予想外のものではなかったはずです。

＊＊＊
（以下個人の感想）
以下のNew York Timesのページでは、各種調査における事前予測の比較がなされています。（州ごとの非常に詳細なデータです）

http://www.nytimes.com/interactive/2016/upshot/presidential-polls-forecast.html?_r=0#other-forecasts

多くのメディアにとって予想外の結果になったにせよ、こうした形で様々な事前分析が行われ、終わった後には予測の振り返りが行われるというのはとても面白い文化だと思いますし、日本でももっと普及するといいなと思います。

2012年の選挙でほとんどの州の結果を的中させたNate Silver氏が今回の選挙ではヒラリー勝利に70%の確率を置いていたことをもって、統計分析の意義自体に疑問を投げかけるような言説をちょくちょく見かけたのですが、このような形で冷静に分析手法の特徴と限界を検討しつつ、適切な形で判断に利用していくことが重要なのだと感じました。

なお、今回引用した記事は選挙後の11月11日の投稿ですが、以下の10月24日の投稿ではより詳細にFive Thirty Eightのモデルとその他のモデルの違いを説明しています。

備忘録！！

面白いと思った記事や本を紹介したいと思います。

ネイト・シルバー氏がトランプ勝利の可能性を高く見積もっていた理由