匿名化データのre-identification
私は現在北米の大学でMBAコースに在籍中なのですが、MBAとは別に統計学部のData Analysisという講義を履修しています。この授業はまだ3回目ながらなかなか面白く、とても楽しみにしています。
今回の講義では、図書館のスタッフからデータ分析にまつわる様々な注意や便利なツールの紹介があったのですが、そこで引用されていた匿名データの個人情報特定に関するデータが面白かったので以下備忘メモ。
米国における1990年の国勢調査データと各州が研究者向けに提供している医療データを突合することで、匿名化された医療データの個人を特定することができてしまったとの指摘。なんと、①ZIPコード(5桁の郵便番号)、②性別、③生年月日の3つの情報だけで87%の個人は特定されてしまったそうです。
It was found that 87% (216 million of 248 million) of the
population in the United States had reported characteristics that likely made them unique based only on {5-digit ZIP, gender, date of birth}. About half of the U.S. population (132 million of 248 million or 53%) are likely to be uniquely identified by only {place, gender, date of birth}, where place is basically the city, town, or municipality in which the person resides.
Source: Sweeney(2000)
講義では上の研究を例に挙げ、研究で用いたデータはたとえ匿名化されていても高いセキュリティの場所に保存するよう指導していました。
Reference:
Sweeney, L. (2000). Simple demographics often identify people uniquely. Health (San Francisco), 671, 1-34.