[AI學術]機器學習公不公平?
[AI學術]機器學習公不公平?

演算法公平性(algorithmic fairness)是與大數據、機器學習相關的新興研究主題之一,大約從2015年開始受到媒體報導與關注

這個主題研究的是,當我們開始在醫療、保險、法律、金融或其它領域,運用資料與演算法進行某些傳統上由人進行的決策時,能不能確保演算法的結果符合這些領域應維繫的「公平原則」?

如何避免數學模型學到人類的歧視行為?

其中一個重要議題是反歧視(non-discrimination)。

運用機器學習技術的演算法,都會用到大量的人類活動歷史資料,訓練數學模型進行決策。而過往的人類行為很可能內含偏見與歧視,如何避免數學模型學到人類的歧視行為,是演算法公平性研究的一個重要問題。

這些隱含的偏見與歧視行為,不是把可能造成歧視問題的資料欄位去除或去識別化,就可以消除的。

Google Research Blog這篇文章就舉了一個例子:對於少數群體,很可能我們手上的dataset顯著地缺乏。而機器學習的準確度很大程度取決於訓練資料量的多少,因此「少數族群」就可能較容易被誤判為高風險,而受到不公平的對待。

如果人類社會本來就存在一些偏見與歧視,那麼歧視就不是機器才有的行為,為什麼機器學習領域還要特別關注這個問題呢?

因為機器與自動化可以放大隱含的偏見與歧視,而且放大的程度可能難以控制(參見《大數據的傲慢與偏見》一書),因此避免機器複製這些行為,對於擴大機器學習的運用與社會安定是重要的。

目前在這個主題上的研究,大部份在設計公平的分類演算法(classifier),方法通常是對「公平」這個概念提出一個數學定義,再找出一個可行的演算法或訓練方法。少部份研究如Skirpan et al(2017)[1]則試圖擴大公平性研究的範圍。

Skirpan等人認為「公平」的內涵會隨著討論的脈絡而改變,必須要看是關於誰?是什麼群體?在什麼時間?如何達成公平來考慮一個演算法是否公平。

因此與前述先確定一個公平的定義再進行討論的研究路線稍有不同。

以下先以Skirpan等人的分類說明一些研究方向的進展,「公平的定義與數學模型」一節再說明幾個常見的公平的數學定義與其研究進展。

公平性研究的範圍

Skirpan et al(2017)這篇論文,把機器學習的公平性研究分為3個大問題:

  1. Fairness of a system問的是:建立一個X這樣的機器學習系統是否公平?例如Bird at el(2016)[2]就從實驗倫理的角度提出對於自動化實驗(autonomous experimentation)的疑慮,認為在建立某些機器學習自動化實驗系統之前,我們需要有機器學習實驗倫理與覆核機制,否則這可能本身是有問題的(類似於對人體進行某些實驗是有倫理問題的)。

  2. Fairness of an approach問的是:要建立一個X這樣的機器學習系統,有沒有技術上公平的作法?這可能是目前最多研究著墨的問題,但Skirpan等人在這裡所列舉的成果,完整度似乎不若公平分類演算法設計的文獻。可參考下一節「公平的定義與數學模型」。

  3. Fairness of a result問的是:建立了一個X這樣的機器學習系統之後,它產出的結果是公平的嗎?這相當於事後補救,用黑箱測試的方式檢驗機器學習系統需不需要修正。在美國,由於再犯預測模型(recidivism prediction system)的運用稍早,有不少相關研究。這部份的文獻量(可查詢recidivism prediction與disparity等關鍵詞)不少。

公平的定義與數學模型

這方面的研究常引用經濟學、哲學對於公平概念的操作型定義,討論的對象都是分類演算法。

概念上可以這樣看:集合X是所有要被分類的個體,A是X之中「被保護的」(可能會被歧視的)部份,x是一個任意的個體。那麼有幾種方式定義公平:

  • Fairness through unawareness:忽略個體x是不是在A之中。這等於演算法完全無視「x是否屬於A」這個條件,只用其它條件進行分類。這個方式可能很直觀,但可能反而對非A群體不公平,並且有redundant encoding的問題,因此目前研究上多不採用。

  • Demographic parity(也稱作statistical parity、group fairness):A與非A兩個群體,被分類到各個類別的比例一樣。例如某個行業的從業人口男女比為1:2,那麼受僱用的男女比也應該接近1:2。這個作法可以完全避免redundant encoding,但Dwork et al(2012)[3]指出這可能造成整體看來公平但對個體而言不公平。例如在非A中的個體x可能條件比A之中入選的個體要好,但因為名額限制而沒有入選。

  • Individual fairnessDwork et al(2012)提出這個想法來取代group fairness。概念上是用兩兩比較的方式,也就是「如果x跟y的條件很相近,那麼他們被分類的結果也要很相近」。這個作法要先取一個度量d(x, y) 來表示「x與y兩個個體的條件有多相近」,然後規定愈相近的個體,被分類到各類別的機率分佈要愈接近。這個作法容許Skirpan等人所提倡的不同脈絡下的公平定義,不同專業領域的公平條件可能不一樣。實作上,則可以看成是增加一個訓練時的fairness constraint條件。這個作法可以用linear programming加入優化演算法中。

  • Equal opportunityHardt et al(2016)[4]提出的想法,想法是保障機會均等,也就是「可以入選的人,不論身在A或非A之中,入選的機率都一樣」。這個作法只能保障對於「可以入選」的那部份人是公平的,所以適用於僱用、信用評分(入選的人才核發貸款)這些應用。實作上,Woodworth et al(2017)[5]認為Hardt等人原始論文的作法效用不好,再提出一個效用比較好的作法。Hardt等人的作法不需要重新訓練model,只需要事後修正;Woodworth等人的作法要修改訓練程序。

  • Avoid disparate mistreatmentZafar et al(2017)[6]的想法,目標是讓不同群體的人被誤判的機會相近,所以訓練資料比較少,誤判機會相對高的群體就不會受到差別待遇。這個想法跟equal opportunity非常接近。

Google Research有個視覺化網站可以說明fairness through unawareness(即 「group unaware」)、demographic parity與equal opportunity這些作法的差異。

參考文獻
1. M. Skirpan and M. Gorelick, “The Authority of ‘Fair’ in Machine Learning,” arXiv:1706.09976 [cs], Jun. 2017.
2. S. Bird, S. Barocas, K. Crawford, F. Diaz, and H. Wallach, “Exploring or Exploiting? Social and Ethical Implications of Autonomous Experimentation in AI,” Oct. 2016.
3. C. Dwork, M. Hardt, T. Pitassi, O. Reingold, and R. Zemel, “Fairness Through Awareness,” in Proceedings of the 3rd Innovations in Theoretical Computer Science Conference, New York, NY, USA, 2012, pp. 214–226.
4. M. Hardt, E. Price, and N. and Srebro, “Equality of Opportunity in Supervised Learning,” in Advances in Neural Information Processing Systems 29, D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, Eds. Barcelona, Spain: Curran Associates, Inc., 2016, pp. 3315–3323.
5. B. Woodworth, S. Gunasekar, M. I. Ohannessian, and N. Srebro, “Learning Non-Discriminatory Predictors,” arXiv:1702.06081 [cs], Feb. 2017.
6. M. B. Zafar, I. Valera, M. Gomez Rodriguez, and K. P. Gummadi, “Fairness Beyond Disparate Treatment & Disparate Impact: Learning Classification without Disparate Mistreatment,” 2017, pp. 1171–1180.

本文由Pomin Wu授權轉載自部落格Trustable AI — 機器學習公不公平?

《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長至少800字,請附上個人100字內簡介,文章若採用將經編輯潤飾,如需改標會與您討論。

(觀點文章呈現多元意見,不代表《數位時代》的立場。)

往下滑看下一篇文章
從台流轉型到跨界共創,2025亞洲新媒體高峰會以「RESILIENCE:韌性 · 突圍」驅動產業續航
從台流轉型到跨界共創,2025亞洲新媒體高峰會以「RESILIENCE:韌性 · 突圍」驅動產業續航

全球影視娛樂正處在結構翻轉的臨界點。從串流平台的競合與權力再分配,到生成式AI引爆的創作革命,再到觀眾注意力被碎片化的內容浪潮瓜分,市場規則幾乎在一年之內重寫。

在這樣的動盪中,「如何永續成長」成為所有內容產業的共同焦慮。台灣擁有豐沛的創作能量,卻在規模化與國際化的路上,始終面臨結構性瓶頸。為了回應時代考驗,NMEA(新媒體暨影視音發展協會)以「RESILIENCE:韌性 · 突圍」為題,將於11月24日至25日舉行2025亞洲新媒體高峰會,邀請超過五十位國內外產業領袖對話,從組織、內容、技術與商業模式出發,探討如何讓台灣影視娛樂在不確定中,創造屬於自己的續航動能。

韌性,從衝擊中找到成長的可能

「Resilience」一詞原本源自工程學,指材料在受壓後能回彈的能力。NMEA理事長李芃君指出,當這個詞被用於產業時,它所代表的已不只是「抗壓」,而是「擁抱變化與永續成長」的能力——在巨變中快速重組關鍵資源、甚至藉由創新找到新的突破。

她觀察,全球產業變動的背後,主要受到三股力道的衝擊:地緣政治的風險、科技典範的轉移,以及氣候與疫情等帶來的自然挑戰。這些因素同樣影響著台灣文化內容產業。

以台灣一家全球背光模組大廠為例。近年隨著國際電子品牌紛紛在筆電與平板產品導入OLED顯示技術,傳統背光模組市場面臨挑戰;該企業在察覺趨勢轉向後,選擇主動調整策略,透過併購前沿技術快速推出新產品,切入車用、醫療與AR/VR顯示等新領域。李芃君指出,這樣的轉向即是韌性的展現——在技術更迭的浪潮中重新定位自己,讓企業從被動防守,轉為開創下一波成長曲線。

「這種思維放回影視娛樂也一樣。當市場被新技術和新平台顛覆,產業若仍困於單一市場、單一資金、單一合作關係,就難以應對下一次衝擊。」她強調,建立韌性不能停留在抽象的口號,必須要有具體行動,而關鍵就在「多角化」。

多角化的市場讓故事能走出台灣、觸及不同文化的觀眾;多角化的技術與人才,讓製作不再受限於傳統框架;而多角化的資金與夥伴結構,則能減少對補助與單一委製案的依賴,形成正向循環的產業體質。諸如日本《鬼滅之刃》透過IP延伸創造跨世代效應,或泰國在政府策略支持與國際平台Netflix合作,讓在地內容走向全球,都是多角化的案例。

高峰會四大主軸,挖掘韌性的潛力

「政策當然重要,但最終能否長出韌性,關鍵仍在產業本身的自覺與行動力。」李芃君表示,第七屆亞洲新媒體高峰會以「台流轉型、跨界共創、影視創新、商模躍進」四大主軸為核心,期望讓韌性不再停留於口號,而能轉化為具體實踐。不只是思考「如何生存」,更要推動產業主動探索「如何成長」。

在「台流轉型」議題中,論壇將從亞洲娛樂的整體格局出發,思考台灣內容如何在國際市場中建立辨識度與合作機制。面對串流平台競爭與區域內容崛起,產業要重新定義「台流」的價值,從單點創作走向跨國布局。

「跨界共創」則從電競、音樂、體育到AI應用,剖析影視娛樂如何走向一個多層次的體驗場域。透過多個實際案例,探討不同產業之間的協作經驗,助攻內容突破原有框架,創造新的商業能量。

「影視創新」主軸聚焦於新技術與內容形式的融合。如:短劇風潮、現象級作品及AI生成式內容等,正改變影視產業的創作邏輯。論壇將聚焦技術如何成為創意夥伴,推動人才與內容的再進化。

最後,「商模躍進」則回應內容永續與變現挑戰。當觀眾行為與平台策略不斷重組,內容不再只是作品,也是可延伸、可轉化的商業資產。論壇將引導產業思考,如何讓內容價值在不同階段持續發酵,打造可長可久的生態循環。

李芃君強調,高峰會的價值,在於讓這些不同維度的討論彼此交會;唯有當創作、技術與資本願意對話,產業的韌性才能真正落地。「我們希望產業能從危機思維轉向成長思維,在對話與合作中,激盪出新的想像與行動。」

韌性,新媒體暨影視音產業必備的DNA

自2017年成立以來,NMEA持續扮演政策倡議與產業整合的推動者。每一屆高峰會也都對應時代命題,映照產業進化軌跡。從2023年「EMPOWERING」的全面賦能、2024年「CONSOLIDATION」的整合共榮,到今年的「RESILIENCE」發揮韌性、尋求突圍,李芃君形容,這是一條從能力啟動、資源整合到體質調整的路徑,引領台灣影視娛樂邁向國際舞台。

NMEA
NMEA理監事集結產業代表,共思壯大台灣內容產業之道。
圖/ NMEA

她指出,高峰會結束後,NMEA也將以工作坊與共創計畫延續對話熱度,讓產業交流落地為實際行動。協會也積極拓展跨域合作,從企業交流、IP授權推動到媒體合作,串聯更多產業能量。

值得注意的是,自2022年起,高峰會同步啟動線上直播,三年累計已吸引超過20萬名觀眾參與,單屆觀看更突破8.1萬人次。李芃君認為,這不僅是數據表現,更代表台灣影視產業逐漸建立國際話語權。當產業以開放與創新的態度前行,才能在全球文化浪潮中,站上屬於台灣的舞台。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓