歐盟 「一般資料保護規範」 (General Data Protection Regulation,簡稱 GDPR)已在2016年4月27日由歐洲議會修法通過並於2018年5月25日起全面實施。剖析 (Profiling) 是從大數據中掘取有用資訊的主要工具,其已廣泛應用於一般資料分析。
GDPR 第22條中規範有關個人化之自動決策(Decision-making)包含剖析 (Profiling)。
其中,第22條第1項中規範有關於資料主體 (Data Subject) 應有權不受僅基於自動化處理,包含剖析所做成而對其產生法律效果或類似之重大影響之決策所拘束。
然而,第22條第2項中包含三項特定豁免,如該決策:(a)簽訂或執行合約所必需的; (b)由歐盟或成員國法律授權,或(c)基於個人的明確同意。
但是,第22條第3項亦規範即使在適用這些豁免的情況下,資料控制者 (Controller) 應執行適當保護措施以確保資料主體之權利、自由及正當利益,至少有權利表達個人意見並對所涉及決策提出異議的權利。
擬匿名化 v.s.匿名化
針對 GDPR 第22條之適當保護措施可採擬匿名化 (Pseudonymisation) 和匿名化 (Anonymisation),其兩者本身是不同的資料安全術語。匿名化為不可逆轉地破壞了識別資料主體的任何方式;擬匿名化替代資料主體的身份,以便需要額外資訊來重新識別資料主體。隨著 GDPR 的出現,了解其差異性就變得非常重要,主要的原因為:不可逆轉和有效的匿名資料不是“個人資料”,不需要遵守一般資料保護規範,而擬匿名化資料仍然是個人資料。GDPR 鼓勵使用擬匿名化資料作為實施適當的保護措施,這些條文包含:
1. 第6條第4項中規範控制者為確保處理之目的與原先蒐集個人資料之目的相互兼容,適當保護的措施可包含擬匿名化;
2. 第25條第1項考量到現有技術、執行成本以及處理之性質、範圍、內容及目的以及處理對當事人之權利及自由所生諸多可能且嚴重之風險,不問係在決定處理方式時或係在處理中,控制者均應實施適當之科技化且有組織的措施,例如擬匿名化;
3. 第32條第1項考量現有技術、執行成本、處理之本質、範圍、脈絡及目的與對當事人權利及自由之風險變動之可能性與嚴重性,控制者及處理者應執行採取適當之科技化且有組織的措施,以確保對於風險之適當安全程度,可使用個人資料之擬匿名化;
4. 第40第2項中規範組織與代表控制者或處理者類型之其他機構得備置行為守則或修改或擴張該守則以明確化本規則之適用範圍,例如個人資料之擬匿名化;
5. 第89條第1項為實現公共利益、科學或歷史研究目的或統計目的之處理,應受本規範資料主體之權利及自由所定適當保護措施之拘束。該等保護措施應確保已備妥技術上及組織上之措施,特別是用以確保資料最少蒐集原則之落實。只要上述目的得以實現,措施得包括擬匿名化。
因此,根據 GDPR 第22條第3項的規定,組織要依賴第22第2項之豁免時,可以使用擬匿名化來保護資料主體 (請注意,GDPR 視擬匿名化資料為個人資料,因此必須按照其規範進行處理)。資料控制者或處理者可使用圖一所示之常用剖析大數據方法,藉以保護資料主體之權利、自由及正當利益。
上述方法可應用於擬匿名化或匿名化:
1. 泛化 (Generalisation) 個人資料:使用分類或分群來降低資料之精確度,使其較不特定。例如,可以對包含資料主體年齡的個人資料進行調整,以便僅記錄個人所屬的年齡段(例如18-25、25-35、35-45等)。
2. k-匿名性 (k-anonymity):當一個資料集之中,使用分群對於一個多個屬性值結合起來的組合 (例如年齡、性別、國籍等),若是可以找到k筆資料是具有這樣的組合,那此資料集就符合K-匿名性(K>1)。
3. 合併個人資料:使用分類或分群將數項個人資料合併成一資料項,使其較不具敏感性 例如2016年及格人數為3人,2017年及格人數為5人,合併為2016~2017年及格人數為8人。
4. 差動隱私法 (Differential Privacy):使用個人資料查詢結果加入由預測產生之隨機「雜訊」,將資料集中的任一當事人之個人資料遮蔽。
5. 關聯性規則:為了消除識別任何資料主體的合理可能性而進行了匿名處理的資料將不再是個人資料,但如果組織在此基礎上保留匿名資料,則可使用關聯性規則持續關聯其可識別性狀態。特別是,該組織可能擁有新的資料,進而可以將匿名資料與個人資料建立關聯。
本文介紹 GDPR 第22條有關個人化之自動決策包含剖析之規範,然而 GDPR 亦有相關豁免情況並鼓勵使用擬匿名化來實施適當的資料保護措施。資料控制者或處理者可參考本文提出之常用剖析大數據方法並應用於個人資料擬匿名化或匿名化。
本文作者任職安碁資訊資安顧問服務部
Reference:
1. https://ec.europa.eu/info/law/law-topic/data-protection_en
2. https://www.eugdpr.org/
3. Data Masking: Anonymisation or Pseudonymisation ?, http://digitalmarketingmagazine.co.uk/gdpr/data-masking-anonymisation-or-pseudonymisation/4666
4. Anonymisation and pseudonymisation - Data Protection Commissioner, https://www.dataprotection.ie/docs/Anonymisation-and-pseudonymisation/1594.htm
5. Pseudonymization vs. Anonymization and How They Help With GDPR, https://www.protegrity.com/pseudonymization-vs-anonymization-help-gdpr/
6. GDPR and Big Data: 4 Steps to Compliance | Oracle Big Data Blog, https://blogs.oracle.com/bigdata/gdpr-big-data-steps
7. 歐盟個人資料保護規則 - 財團法人金融聯合徵信中心
8. 李仁鐘, 李秋緣, R語言資料分析:從機器學習、資料探勘、文字探勘到巨量資料分析- 博碩文化出版社。