幾年前讀過的論文,整理一下分享心得。這篇論文應該算是有造成一點小轟動(可能我自以為這樣),也有上到Science去。論文題目是 Unique in the shopping mall : On the reidentifiability of credit card metadata

這篇大概分幾個部分來講,懶得看的人可以略過定義跟資料集還有論文結果、直接看簡介跟結論就好

  • 簡介
  • 定義/資料集
  • 論文結果
  • 論文結論

簡介

大家都知道,現在各大公司、政府,每天都在產出各式各樣的個人資料,例如電信公司擁有顧客每天的通聯紀錄、Netflix知道你除了睡覺之外(Netflix說:睡眠是我們競爭對手)都在幹些啥好事、Google用你的移動資訊來提供即時的交通路況。

運用這些資料的時候,即使你把裡面的個人資訊例如:電話、姓名、地址、或其他的個資都隱蔽,也不代表你真的把它變成匿名資訊,或是已經變成可以安全地揭露給大眾或是第三方了

在論文裡面,他們運用了一個字眼叫Unicity(單一性),他們對這個詞的定義是:你有多高的風險可能被辨識出來。在這篇論文發表之前,有另外一篇文章是透過手機的資料來做相同的事情。單一性用來表示一個數字,表示:平均來說,在你擁有額外的資訊的情況,你可以在這個資料集裡面找出一個你已經知道的使用者的機會有多少。這個數字越高,代表你越容易被辨識出來,他也同樣代表了如果你有多個不同的匿名資料集,有多容易可以把這些資料給合併起來。

資料集

他們使用了三個月的信用卡資料,裡面有110萬個使用者在一萬個商店裡的消費記錄。沒有說明是哪個國家,但是是一個OECD的國家(我記得最近很紅的一部片裡面有問OECD有幾個國家,結果旁邊的人說不會考不用問,所以我也不記得有哪些國家)。這份資料集裡面用了簡單匿名原則,就是裡面沒有使用者姓名、帳戶、以及任何可以辨識的資訊。每一筆消費紀錄裡面有消費日期(沒有時間)、消費的商店、價格,後面的價格區間是他們另外定義的,後面會提到。
dataset

定義

可辨識性(Reidentified)

在這裡要怎麼定義說他可以辨識出人呢?例如:我們想要在這個資料集裡面找出王大頭,我們知道他做了兩件事,昨天在麵包店買了東西,今天在鼎泰豐吃了什麼碗糕,我們在搜尋整個資料庫之後發現只有一個人在這兩天各別去了這兩個地方,Bang,我們就是找到這個人了。

單一性(Ep)

這個數字表示在這個資料集裡,如果我們對每個人隨機抽出p個消費行為,有多少比例的人會被找出來。
對每個人,他其實把所有可能的p個組合都找出來,然後用平均來算他可能被抓到的機率

實驗結果

dataset
圖上表示的事情其實很簡單,綠色的部份表示如果我知道的部分包含商店跟消費時間,有多少比例的人會被找出來,藍色的部份表示如果我還知道價格的區間,有多少的比例的人會被找出來。

這裡你可以看到只要隨便知道你的4個點,有90%的人會被辨識出來,如果除了知道你的商店跟日期之外,還知道價格,找出來的機率更多了22%(不要問我為什麼90%+22%>100%,你數學老師在背後非常火)

好,接下來可能有些人會說:欸這數字太精確啦,我們可以把資料集模糊化,像是日期變成週啊、商店變成區域啊、價格變成區間啊,於是作者就開始做模糊化了

日期的部分,他把本來是日期的部分改成15天的區間、把商店的部分變成商店圈、例如淡水老街圈啊、永康街啊(文章裡面是用簡單的clustering,有興趣的可以再去讀),然後把價格變成模糊的區間

這邊就不另外解釋了,真的有興趣的可以去讀一下XD。

這個圖表示他在模糊了價格跟日期之後的結果,我個人覺得這張圖很好的用平面的方式解釋三維的差別。這張圖上表示的都是在知道四個點的情況,每條線代表了被找出來的比例區間。三張圖左到右分別是:價格區間很細、價格區間比較大、沒有價格

直立的線是每個商圈平均的店家數、斜的部分則是日期範圍有多廣(天)。圖裡面可以被另外講的數字是:就算你把日期變成15天為區間、每個商圈350個商店,在知道你的10筆記錄的情況,你還是有86%的機會被辨識出來。這簡直就是徵信社的天大好消息,明天起可以開始投資徵信社了。

其實論文到這裡差不多快結束了,這張補上來的圖是根據男性女性以及收入區間來看被辨識的機會。女生比男生容易找出來(徵信社可以依性別分別報價了)、越有錢的越容易被找出來(還可以根據收入報價)。後面他們還盡量的去模糊價格區間帶,去除掉離群值,用了最多人買東西的區間來測試,結果還是差不多,七筆資料就夠你被找出來了。模糊空間也是,就算把那種移動距離很遠的特例去除掉,還是不需要太多筆資料

論文結論

儘管技術上以及行為上的不同,團隊過去用手機通聯紀錄的測試改成用信用卡資料,仍然是可以做出接近的結果

這也表示了你就算把個資法規定的資料都隱蔽起來,你還是很容易可以找到這些特定人的資料,就算你模糊了其他的訊息也一樣
美國所用的個資保護法,顯然不足以保護這些個人的隱私權,尤其在這種很高風險的資料集裡(註,台灣更不用說了,我還沒有認真看完歐盟新的個資法,但歐盟的應該強力很多)

從技術的角度來看,這個結果其實表示現在這些保護措施的效果其實很差,應該要盡可能地來更加的推廣隱私權議題的研究

從政策的角度講,他們也應該要加強目前的個資法的部分,不是只是那些以為的數值,而是應該要從數字的角度來加強,例如公司應該要達到多少比例的人無法被辨識出來啊之類的

但同樣的,要在隱私權跟方便性中找到平衡,才是這種類型的題材最重要的一個部分

最後

這篇文章想寫一段時間了,個資法的問題一直是大家在意的事情,不管是被不合時宜的法律逼著做無用功,或是被劍橋分析掃到颱風尾,又或者是被歐盟新個資保護給用到要多加班。最近幾個合作的案子也常常冒出相關的議題。如果現在大眾對於個資法的保護只是"不要讓別人知道我的名字"這種程度的觀念,那大概離真正的隱私還很遠,但換個方向,如果所有的人對個資的限制都跟GDPR一樣,那各種做資料分析的公司可能都要哭出來了。