書評:データは騙る 改竄・捏造・不正を見抜く統計学

データは騙る: 改竄・捏造・不正を見抜く統計学

本書を執筆したのは 、誤った理解 ─ ─誰かがもたらすものもあれば 、自分が招くものもある ─ ─を防ぐ一助になれば 、と思ったからだ 。本書を読めば 、ばかげた話だと気づくためにはどうしたらいいかわかるだろう 。ばかげた話は耳にするだけではなく 、自分で言うこともある 。デ ータを使って私たちをだまそうとするのは他人だけではない 。私たちはよく自分にもだまされる 。


著者のゲアリー・スミスはアメリカの経済学者である。本書では人が、統計データに騙されるか、について豊富な実例とともにわかりやすく解説している。

統計データは日常のさまざまな場面で用いられている。メディアなどでもよく目にするし、私の場合は技術者という職業柄、実験データの処理やグラフの作成などで自分自身が統計データを作成する側に立つこともある。

この本では、データの見せ方により人を騙すテクニックや、そもそもデータ処理に誤りがあるケース、恣意的にサンプリングを行う不正の例などが紹介されている。悪意のある不正なデータ処理は論外ではあるが、統計の原理を知らないでデータ処理を行った際に陥る誤謬(バイアス)も多数紹介されており、興味深い。

人間の認知バイアス:生存者バイアス

例えば、「生存者バイアス」の話。戦闘機の帰還率を改善するために、無事に帰還した機体の被弾箇所を調査したところ、被弾はコクピットやエンジンではなく、翼や胴体後部の部分に集中しているというデータが得られた。

であれば、被弾が多い翼や後部装甲を重点的に改善するべきだ!と考えてしまうのが、「生存者バイアス」という誤りである。今回の調査対象が、「基地に帰還した機体」というところがミソである。基地に帰還した機体を調査しても、致命傷を負い帰還できなかった機体のことはわからない。本来対策するべきなのは、帰還できなかった機体の弱点なのだ。

結果、技術者が取った対策は、基地に帰還した機体が一切被弾していなかった、コクピットやエンジン周り。そしてその対策が功を奏し、帰還率は向上したという。

大学時代の友人で、成功者の体験談、偉人の成功の秘訣みたいな話を一切参考にしない男がいた。「所詮、成功した人の話だけでしょ。」と言っていたあいつは、単純にヒネくれたやつだと思っていたが、「成功した生存者」の体験談を無視するのは、生存者バイアスを避けるという意味では、一理あったのかもしれない。

しかし、彼のように一切の成功者のデータを切り捨てるやり方も、また極端である。これでは「生存者バイアスバイアス」をかけることになる。

正しくは、成功すると考えられる特質について「事前に」仮説を立て、なるべく、仮説をたてた因子の影響のみが評価できるようにした状態で、新しくデータを取り直し、仮説を検証するのが適切な方法である。本書ではこのあたりも、丁寧に解説されており参考となる。

「専門家」も間違う

実際に発表された「専門家」の論文や著書(しかも超有名なもの!)にもあるというから驚きだ。もちろん本書内では全て具体例を実名と共に詳細に紹介している。クレームがつかないか心配になるくらいに。具体的に私が読んだことのある本で言えば、「成長の限界」の例が挙げられている。

「成長の限界」はいわゆる「持続可能な成長」について、検討した有名な書籍である。人口の増大、化石資源の枯渇、食料問題、水、環境問題などを数理モデル化し、人類が今後も生存していくための条件を解析した本である。非常に有名な本であり、読んだことがなくとも、名前は知っている方は多いのではないだろうか。

本書によれば、「成長の限界」の著者は現実の世界に対する理解が浅く、実際に世界で起きている現象をよく理解しないまま、数学的なモデルを過去のデータに適用し、将来を予測しようとしたために、現実とは大きく異なる結果となった、と述べている。

実際例えば人口の増加に関して言えば、「成長の限界」の予測とは異なり、人口増は頭打ちとなる傾向が見えているそうである。これは、最近出版された「ファクトフルネス 」にもよく示されている。

人々が世界を認識する際に、思い込みによって事実と異なるイメージを持っていることに気づいたハンス氏。10の思い込みを乗り越え、データを基に世界を正しく見る習慣、をファクトフルネスと名付け、一冊の本にまとめあげた。それが本書である。

どこで「成長の限界」の著者は予測を誤ったか。それは、出生率の見積もりである。「成長の限界」では経済成長しても出生率は下がらない、という仮定を置いていた。この場合、人口は複利で増えるため急増することになる。しかし実際は、経済成長することで出生率は低下する。いうまでもないが、日本はその際たる実例である。

パターン化の誘惑に打ち勝つ

よく点が三つ並んでいるだけで、人の顔に見えてくる、という話がある。例えばこういうやつが顔に見えてくる。→(∵)

これは人の脳が、並んだ点を「顔」のパターンとして認識するためである。データや現象の中から、パターンを見つけ出し、それを利用する能力。我々が生命の歴史の中で淘汰されていく中で獲得した強力なツールであるが、現代の複雑な系、例えば経済活動等の社会科学においては、本能的に見つけてしまうパターンが誤っていることも多いと言う。すぐパターン化する本能に打ち勝ち、妥当な判断をするためには、本書を読んで人の思考の癖や、ありがちな誤謬を知っておくことが必須だ。

データなき理論は空論、理論なきデータは数字の遊び

本書の内容を端的に言えば、本文中にも似た表現があるが、「データ無き理論は空論、理論無きデータは数字の遊び」といったところか。

人間である以上、間違いは避けられないわけだが、誤ったデータの解釈により多大な損失を生む場合もある。統計データの処理については、技術者として、人命に関わる場合もあるので、自分自身の作業に誤謬が紛れていないか、を重々気をつけたい。また、他人の処理したデータや、メディアや国家が発表するデータの見方などを見る際に、自分自身の身を守るためにも知っておくべき内容であると思う。

本書においては、悪意を持ったデータ改竄・不正の例も挙げられている。おりしも国家による統計の不正がニュースを騒がせる昨今、必読の一冊と言えるだろう。(非常に嘆かわしいことですが。)

併せて読みたい

本書では、グラフの書き方により人を騙すテクニックが多数紹介されているが、そもそもわかりづらいグラフや、最低限の体裁が整っていないものを、「チャートジャンク」、つまりゴミ図表だと言っている。以下の記事は私が書いたものだが、筆者が言うところの「チャートジャンク」を避けるためのポイントを挙げている。グラフを作成することがある方はご覧ください。

技術者、研究者が仕事をする中で、グラフを書くことは必須の作業です。今まで自分自身がやってきたことや、後輩、インターンの学生たちに指導してき...

「データは騙る」の中では、「理論無きデータ」の例や、パターンに着目しやすい人の性質として、相関関係に飛びつきやすいことを挙げている。しかし理論に裏付けされた因果関係がない相関関係だけでは役には立たない。当ブログでも下記の記事で紹介しています。

「AとBの関係を調査した結果、相関関係があることが分かりました。」 このような報告は何かの調査結果などで良く目にします。 ...

2019年3月現在、総務省による統計の不正が話題になっているが、政権によるデータ偽装の疑いを真っ先に指摘したのは、弁護士の明石順平氏ではないだろうか。明石氏の著書、「アベノミクスによろしく」では政府の発表するGDP値を、算出に使用した統計元データから全て確認し、疑わしい処理があったのではないか、と結論づけている。

正直、この結論が正しいかどうかも、究極自分自身でデータを一から確認し直さないとわからない訳ではある。しかし、本書で示される資料は出典も明確であり、信頼できるものと判断している。

アベノミクスによろしく (インターナショナル新書) この本はアベノミクスの「中身」とその「結果」について、政府や国際機関が公表しているデー...