大數據應用潛藏的歧視風險

2016 / 08 / 15

陳譽文

隨著科技進步，網際網路與雲端技術應用，近年從業界到各國政府都看中大數據資料可提供的價值，相繼提出以大數據資料為主的商業模式與政策規劃。當大數據分析應用漸趨普及的同時，有關運用大數據資料的可能風險，也逐漸受到重視。大數據分析應用可能產生風險，討論焦點多半集中在確保隱私及個資，與其相關去識別化之議題。除此之外，大數據應用可能帶來潛在的歧視議題，成為亦近期關注的焦點。

美國聯邦交易委員會（Federal Trade Commission, FTC）在2016年1月6日公布針對大數據的一份研究報告：”Big Data: A Tool for Inclusion or Exclusion? Understanding the Issues” 指出，大數據愈趨重要，無疑增進消費者在眾多領域之福祉；然而接續的重要議題是，企業應確保在運用大數據分析時合於法律，且在保護消費者權益的價值與原則下，持續提供消費者益處及機會，並極小化可能產生的風險，避免造成歧視。
再者，白宮在2016年5月公佈了2016大數據報告，” Big Risks, Big Opportunities: the Intersection of Big Data and Civil Right” ，同樣談到在運用大數據分析可能造成的歧視性後果。報告直接指出，「大數據分析可能在不經意間歧視了某些特定公民。」

大數據預測未來犯罪機率
針對大數據應用可能帶來的潛在歧視，近日著名的案例是美國著名獨立媒體ProPublica所作的一份調查報告 “Machine Bias” 。這份調查報告中指出，運用大數據預測未來犯罪機率的「風險評估數字」呈現對黑人的嚴重偏見。

在美國，當刑事被告面臨宣判，法官可以用幾個因素來判斷最適合的刑罰，這些判斷因素之一是所謂的「風險評估分數」（risk assessment score），用以預測被告未來是否會犯其他罪行的數字。「風險評出分數」可能會影響保釋金數字、治療計劃或刑期長短。如果被告得到的「風險評出分數」較高，法官在裁量的時候，容易因為認為他們被告未來可能再犯罪的可能性高而因此讓他們接受更多懲罰。ProPublica調查報告證實了某些司法人員的疑慮，大數據分析應用在刑事體系時出了大錯，特別是當它牽涉到了種族。ProPublica調查報告顯示，白人被告常被認為是低犯罪風險，尤其跟黑人相比；運用的公式特別容易錯誤地認定黑人被告未來可能犯罪，對黑人錯誤標識的比例是白人的兩倍。但是美國法官仍然使用「風險評估分數」作為裁量刑罰的判斷標準，最終造成種族歧視並形成不公平的結果。

隱藏在大數據中立客觀下的歧視
在大數據應用下，歧視被包裹在「技術中立」的外衣中。在普遍認為大數據應用的軟體和演算法是客觀的前提下，做決定的主體以大數據分析所得到的「預測」作為其決定的依據，忽視其中潛藏的歧視與偏見，做出的決定可能只是更加強化原本的歧視，所帶來的後果將更加嚴重。誠如美國白宮CTO Megan Smith的文章中提到：「技術是有可能帶有偏見的，可能是挑選的基數太少、使用數據不完整，或是演算法本身就有問題。將數據轉為資訊的演算系統並非萬無一失，他們依賴在不完美的輸入、邏輯、可能性以及設計這系統的人。」
運用大數據分析進行「預測」，藉以判斷某些類型的人可能「傾向」某些特定行為，但為什麼他們會有這樣的「傾向」，則需要更進一步縝密的分析與探討。值得深思的是，大數據分析與一般以為傳統的統計學有所不同。傳統統計學使用的數據是以精密設計挑選、符合母體特徵的樣本，藉以「推論」母體可能的情況。然而，大數據特性之一為「量」（Volume）大，就是因為此一特性，分析者無法判斷所獲得的數據資料是否真正符合母體特性，獲得的數據資料即使量大但很有可能有許多偏差。即便最終使用大數據分析得到良好的預測結果，仍然無法得知完整因果關係的推論過程。

但，完整的推論過程才是做決定時的重要關鍵。以白宮報告中提到大學運用大數據分析的例子而言。美國大學時常運用大數據分析來預測學生的畢業比率，大數據分析的結果指出，家庭收入是影響學生畢業比率的顯著影響因素，低收入家庭的學生退學比例較高，這使得大學在一開始招收學生時傾向拒絕低收入家庭的學生。就結果看來，似乎會讓人以為低收入家庭的學生能力不足，但低收入家庭的學生中途退學的真正原因多半是無法負擔高額學費，而非是在校成績不佳。大學運用大數據分析卻忽略其中的因果關係，最終造成對低收入家庭學生的歧視性結果。

大數據的研究倫理
英國內閣總理辦公室在2016年5月19日釋出了第一版的「資料科學倫理架構」（Data Science Ethical Framework）。在提出此倫理架構之時，英國內閣總理幕僚長Matt Hancock指出，政府在政策制定時，使用到資料的情況越來越多，為了在數據資料使用上更明確地保護資料隱私與安全，並更加重視研究過程的倫理議題，英國政府決定針對此一議題進行討論，希望未來政府部門在使用以及釋出資料時，能有所遵循依歸。
英國政府的第一版「資料科學倫理架構」（Data Science Ethical Framework）指出，政府部門在使用數據資料來進行計畫時，有6個原則必須要遵循，包括：(1) 開啟一項計畫時，必須確定是對未來計畫使用者及大眾有利；(2) 在使用資料數據與工具時，對民眾的權利侵犯最小化；(3) 在運用數據時，要盡量使用最好的演算模型；(4) 運用資料時，須注意民眾觀感；(5) 進行計畫時，對於自己使用的數據、模型以及演算法時，要盡量保持公開透明；(6) 確保數據資料的安全。

雖然這項倫理架構仍在初步階段，內容有待加強，但英國政府的作為，仍是標識對於大數據分析研究倫理議題重視的重要一步。

適當的規範導正技術的合理發展
大數據應用工具快速發展，我們期待的是讓人們可以獲得公平與機會，惟技術發展至今，人們須重新回頭檢視大數據分析帶來的風險與挑戰。不論公私部門，以大數據分析為基礎所做出的決定對於人類社會都有重大影響力，因此未來如何建構大數據分析研究的倫理架構，確保大數據應用從一開始數據資料的蒐集、彙整、分析到應用的完整過程，能符合倫理與法律規範，將會是未來的重要課題。唯有重視並減少大數據應用的負面影響，才能回歸當初希望運用大數據分析技術帶來公平與機會的初衷，為人類社會帶來真正的益處。

本文作者目前任職於，資策會科技法律研究所一職