[AI學術]機器學習公不公平？|數位時代 BusinessNext

[AI學術]機器學習公不公平？

運用機器學習技術的演算法，都會用到大量的人類活動歷史資料，訓練數學模型進行決策。而過往的人類行為很可能內含偏見與歧視，如何避免數學模型學到人類的歧視行為，是演算法公平性研究的一個重要問題。

演算法公平性（algorithmic fairness）是與大數據、機器學習相關的新興研究主題之一，大約從2015年開始受到媒體報導與關注。

這個主題研究的是，當我們開始在醫療、保險、法律、金融或其它領域，運用資料與演算法進行某些傳統上由人進行的決策時，能不能確保演算法的結果符合這些領域應維繫的「公平原則」？

如何避免數學模型學到人類的歧視行為？

其中一個重要議題是反歧視（non-discrimination）。

運用機器學習技術的演算法，都會用到大量的人類活動歷史資料，訓練數學模型進行決策。而過往的人類行為很可能內含偏見與歧視，如何避免數學模型學到人類的歧視行為，是演算法公平性研究的一個重要問題。

這些隱含的偏見與歧視行為，不是把可能造成歧視問題的資料欄位去除或去識別化，就可以消除的。

Google Research Blog這篇文章就舉了一個例子：對於少數群體，很可能我們手上的dataset顯著地缺乏。而機器學習的準確度很大程度取決於訓練資料量的多少，因此「少數族群」就可能較容易被誤判為高風險，而受到不公平的對待。

如果人類社會本來就存在一些偏見與歧視，那麼歧視就不是機器才有的行為，為什麼機器學習領域還要特別關注這個問題呢？

因為機器與自動化可以放大隱含的偏見與歧視，而且放大的程度可能難以控制（參見《大數據的傲慢與偏見》一書），因此避免機器複製這些行為，對於擴大機器學習的運用與社會安定是重要的。

目前在這個主題上的研究，大部份在設計公平的分類演算法（classifier），方法通常是對「公平」這個概念提出一個數學定義，再找出一個可行的演算法或訓練方法。少部份研究如Skirpan et al（2017）[1]則試圖擴大公平性研究的範圍。

Skirpan等人認為「公平」的內涵會隨著討論的脈絡而改變，必須要看是關於誰？是什麼群體？在什麼時間？如何達成公平來考慮一個演算法是否公平。

因此與前述先確定一個公平的定義再進行討論的研究路線稍有不同。

以下先以Skirpan等人的分類說明一些研究方向的進展，「公平的定義與數學模型」一節再說明幾個常見的公平的數學定義與其研究進展。

公平性研究的範圍

Skirpan et al（2017）這篇論文，把機器學習的公平性研究分為3個大問題：

Fairness of a system問的是：建立一個X這樣的機器學習系統是否公平？例如Bird at el（2016）[2]就從實驗倫理的角度提出對於自動化實驗（autonomous experimentation）的疑慮，認為在建立某些機器學習自動化實驗系統之前，我們需要有機器學習實驗倫理與覆核機制，否則這可能本身是有問題的（類似於對人體進行某些實驗是有倫理問題的）。
Fairness of an approach問的是：要建立一個X這樣的機器學習系統，有沒有技術上公平的作法？這可能是目前最多研究著墨的問題，但Skirpan等人在這裡所列舉的成果，完整度似乎不若公平分類演算法設計的文獻。可參考下一節「公平的定義與數學模型」。
Fairness of a result問的是：建立了一個X這樣的機器學習系統之後，它產出的結果是公平的嗎？這相當於事後補救，用黑箱測試的方式檢驗機器學習系統需不需要修正。在美國，由於再犯預測模型（recidivism prediction system）的運用稍早，有不少相關研究。這部份的文獻量（可查詢recidivism prediction與disparity等關鍵詞）不少。

公平的定義與數學模型

這方面的研究常引用經濟學、哲學對於公平概念的操作型定義，討論的對象都是分類演算法。

概念上可以這樣看：集合X是所有要被分類的個體，A是X之中「被保護的」（可能會被歧視的）部份，x是一個任意的個體。那麼有幾種方式定義公平：

Fairness through unawareness：忽略個體x是不是在A之中。這等於演算法完全無視「x是否屬於A」這個條件，只用其它條件進行分類。這個方式可能很直觀，但可能反而對非A群體不公平，並且有redundant encoding的問題，因此目前研究上多不採用。
Demographic parity（也稱作statistical parity、group fairness）：A與非A兩個群體，被分類到各個類別的比例一樣。例如某個行業的從業人口男女比為1:2，那麼受僱用的男女比也應該接近1:2。這個作法可以完全避免redundant encoding，但Dwork et al（2012）[3]指出這可能造成整體看來公平但對個體而言不公平。例如在非A中的個體x可能條件比A之中入選的個體要好，但因為名額限制而沒有入選。
Individual fairness：Dwork et al（2012）提出這個想法來取代group fairness。概念上是用兩兩比較的方式，也就是「如果x跟y的條件很相近，那麼他們被分類的結果也要很相近」。這個作法要先取一個度量d(x, y) 來表示「x與y兩個個體的條件有多相近」，然後規定愈相近的個體，被分類到各類別的機率分佈要愈接近。這個作法容許Skirpan等人所提倡的不同脈絡下的公平定義，不同專業領域的公平條件可能不一樣。實作上，則可以看成是增加一個訓練時的fairness constraint條件。這個作法可以用linear programming加入優化演算法中。
Equal opportunity：Hardt et al（2016）[4]提出的想法，想法是保障機會均等，也就是「可以入選的人，不論身在A或非A之中，入選的機率都一樣」。這個作法只能保障對於「可以入選」的那部份人是公平的，所以適用於僱用、信用評分（入選的人才核發貸款）這些應用。實作上，Woodworth et al（2017）[5]認為Hardt等人原始論文的作法效用不好，再提出一個效用比較好的作法。Hardt等人的作法不需要重新訓練model，只需要事後修正；Woodworth等人的作法要修改訓練程序。
Avoid disparate mistreatment：Zafar et al（2017）[6]的想法，目標是讓不同群體的人被誤判的機會相近，所以訓練資料比較少，誤判機會相對高的群體就不會受到差別待遇。這個想法跟equal opportunity非常接近。

Google Research有個視覺化網站可以說明fairness through unawareness（即「group unaware」）、demographic parity與equal opportunity這些作法的差異。

參考文獻
1. M. Skirpan and M. Gorelick, “The Authority of ‘Fair’ in Machine Learning,” arXiv:1706.09976 [cs], Jun. 2017.
2. S. Bird, S. Barocas, K. Crawford, F. Diaz, and H. Wallach, “Exploring or Exploiting? Social and Ethical Implications of Autonomous Experimentation in AI,” Oct. 2016.
3. C. Dwork, M. Hardt, T. Pitassi, O. Reingold, and R. Zemel, “Fairness Through Awareness,” in Proceedings of the 3rd Innovations in Theoretical Computer Science Conference, New York, NY, USA, 2012, pp. 214–226.
4. M. Hardt, E. Price, and N. and Srebro, “Equality of Opportunity in Supervised Learning,” in Advances in Neural Information Processing Systems 29, D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, Eds. Barcelona, Spain: Curran Associates, Inc., 2016, pp. 3315–3323.
5. B. Woodworth, S. Gunasekar, M. I. Ohannessian, and N. Srebro, “Learning Non-Discriminatory Predictors,” arXiv:1702.06081 [cs], Feb. 2017.
6. M. B. Zafar, I. Valera, M. Gomez Rodriguez, and K. P. Gummadi, “Fairness Beyond Disparate Treatment & Disparate Impact: Learning Classification without Disparate Mistreatment,” 2017, pp. 1171–1180.

本文由Pomin Wu授權轉載自部落格Trustable AI — 機器學習公不公平?。

《數位時代》長期徵稿，針對時事科技議題，需要您的獨特觀點，歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw，文長至少800字，請附上個人100字內簡介，文章若採用將經編輯潤飾，如需改標會與您討論。

（觀點文章呈現多元意見，不代表《數位時代》的立場。）

大師兄林智勝引退賽　晶睿通訊員工、經銷夥伴同場見證榮耀時刻　

全球智慧安防領導品牌晶睿通訊成立 25 年穩健成長，來自員工全心投入與經銷夥伴支持。今年首辦大巨蛋家庭日，並舉行全球合作夥伴高峰會，，匯聚成長動能。

熱血不只在球場上沸騰！攜手員工與全球夥伴，共聚家庭日榮耀時刻展現「關懷」

晶睿通訊總經理廖禎祺表示：「在這個具有紀念意義的特別活動，很高興邀請員工與他們的家人，以及全球夥伴出席家庭日，共襄盛舉經典賽事，家庭是每位同仁最強大的後盾，透過難得時刻，凝聚團隊、展現熱情，攜手迎向下一個25年。引退賽主角林智勝對棒球夢的追求是堅持求勝，從不放棄，正如同晶睿通訊在安防領域堅持的專業承諾。同時，林智勝長年支持偏鄉原民棒球發展，亦與公司秉持的關懷、信賴等價值不謀而合，是公司實現社會共融的最佳詮釋。」

參與家庭日員工在輕鬆愉快氛圍中，與同事和家人留下難忘回憶。其中，永續單位員工Bob表示：「第一次到大巨蛋看比賽，就是看林智勝的引退賽，意義重大且讓人感動，感受到公司對員工在工作與生活平衡的重視，讓我更有動力迎接職場上的挑戰。」人資單位員工Ruth表示：「拿到公司特製的25週年毛巾，還有賽前與味全龍隊的啦啦隊員合照，充分感受到公司體貼和關懷。」

全球合作夥伴高峰會　聚焦AI雲端創新技術

安防產業正值 AI 核心驅動安防轉型的關鍵時刻，晶睿通訊同步舉辦全球合作夥伴高峰會，邀請來自美國、歐洲、紐澳、拉丁美洲等逾百位策略經銷夥伴齊聚台灣，體驗AI雲端安防應用成果，深化合作，透過技術展示與交流論壇，為未來營運成果注入成長動能，深化全球布局。

展示軟硬體及雲端研發實力　三箭齊發展現高效安防

高峰會期間，晶睿通訊舉辦多場策略與創新講座，並帶領夥伴見證公司的品質實力。同時，展示從軟硬體到 AI 雲端的完整研發力，協助夥伴洞察 AI 與雲端安防趨勢，三箭齊發邁向智慧安防新世代：

一、軟體端： 打造「優質合作夥伴入口網站」（VIVOTEK Premium Partner Portal），提供一站式操作體驗，讓經銷夥伴即時掌握客戶安防系統運作狀態，快速提供智慧解決方案，深化客戶關係與合作黏著度。

二、硬體端： 展出全新低照全彩攝影機，搭載大型感光元件與大光圈鏡頭，結合 AI 技術，在極低光環境下，也能呈現明亮、銳利的全彩影像，夜間畫質顯著提升，全天候守護每一個角落的安全。

三、雲端平台 VORTEX： 全新 AI-Hub 應用整合亞洲安防領先技術與視覺語言模型，提供自然語言搜尋（Think Search）、智慧事件洞察（Event Insight）及案例庫（Case Vault），讓使用者快速鎖定目標、精準掌握異常，並清楚整理搜尋結果，大幅提升安防效率。

晶睿通訊深耕安防領域，累積眾多夥伴與戰友，位於拉丁美洲、合作逾10年的經銷商執行長Christoper表示，晶睿通訊投入 AI 智慧發展，專注於人、車辨識，有效解決客戶所面臨的安全痛點，創造更安心居住的環境。另一位合作近20年的泰國經銷商執行長Yui指出，晶睿通訊除了以產品品質、AI技術取勝之外，還有對合作夥伴的關心與支持，滿足客戶需求，讓專案順利落地。

隨著全球AI浪潮推進，晶睿通訊以 AI與雲端創新為引擎，加速拓展市場版圖，掌握安防產業的剛性需求，積極布局智慧城市、智慧工廠、智慧交通與智慧零售等多元應用場景。展望下一個25年，公司將持續深化全球合作，攜手利害關係人，強化AI雲端智慧安防，守護世界安全。