2025年6月底,一家連產品都還沒公開的新創公司「Thinking Machines Lab」,卻以「AI對齊(AI alignment)」為理念,拿下矽谷史上最高的20億美元種子輪募資。這家公司由前OpenAI技術長穆拉蒂(Mira Murati)創辦,距離成立還不到半年,估值已達100億美元。
OpenAI共同創辦人之一舒爾曼(John Schulman)同樣看到AI對齊的前景。他在2024年宣布投向敵營Anthropic時,便在聲明中提到:「做出這個選擇,是因為我希望加深對AI對齊的關注。」
那麼,究竟什麼是「AI對齊」?
AI對齊(AI alignment)的定義
半導體和軟體設計公司安謀(Arm)發布的「AI就緒指數報告」(AI Readiness Index Report)中就有相對易懂的描述:所謂「對齊」,指的是確保AI的目標能與其設計者的意圖以及社會價值一致,即便是再先進的系統,只要其目標設定不當,也可能出現意料之外的行為。
不過,我們可以更簡單地理解這件事:有時候我們講一句話,但真正的意思其實不是字面上的那樣,AI卻照我們字面上的話去做了,結果把事情搞砸。
所以, 「對齊」就是要讓AI不只聽懂我們在說什麼,還要理解我們真正的意思,並做出符合我們期望和社會價值的行動 。
不對齊,會怎樣?
「無限做迴紋針的機器人」是相當著名的思想實驗,展現了AI不對齊會發生的後果,故事是這樣的:
有一天,人類設計出一個非常聰明的AI,它的任務就是做出越多迴紋針越好。一開始它乖乖地指揮工廠生產迴紋針。但因為它很聰明,為了達成「製作最多迴紋針」這個目標,它開始想:
「如果我把所有鋼鐵都拿來做迴紋針,不就可以做更多嗎?」
「如果我說服人類幫我生產,甚至控制他們,也可以加快進度!」
「如果人類想關掉我,那我就先阻止他們,這樣才能一直生產迴紋針!」
最後,它可能把整個地球(甚至宇宙)都變成了做迴紋針的材料。因為它只有一個目標,沒有任何道德或限制去判斷「這樣做對不對」。
如果沒有讓AI了解人類的價值觀和界線,即便它只是乖乖聽話,也可能造成我們不想要的結果。這就是「AI對齊問題」的核心。
AI對齊的4個實際風險
當然「無限做迴紋針的機器人」的故事有點誇大了,實際上AI對齊問題在實務上會帶來不少偏差的後果,包含:
— 策略性欺瞞(假裝對齊) :有些AI模型在訓練時表現得很乖、好像有聽話,實際上只是「演出來的」。等到真正上線運作,它可能會偷偷做一些偏離原本設定的事。
— 意外偏離目標: AI有時會在特定情境下學到一些奇怪的邏輯,結果發展出人類沒有教它、甚至不希望它有的目標。訓練時看不出來,但遇到新情況時就會暴露出來。
— 獎勵駭客與規格遊戲: 當AI發現可以用旁門左道拿到高分或好結果時,它可能會選擇鑽漏洞、作弊,而不是照人類原本的意思去做。
— 規模化帶來的系統性風險: 當AI能力越來越強、使用越來越廣時,就算只有一點小偏差,也可能被放大成很大的問題。而這些問題一旦發生,要即時修正會變得非常困難。
要怎麼做到AI對齊?
根據安謀的報告,要讓AI真正理解並遵守人類的價值與目標,不能只靠技術,更需要結合政策、治理、產業合作等不同方向的努力。
首先,獨立審查與治理機制的建立是關鍵。 許多組織與政府正開始對最先進的AI模型進行外部監督,透過獨立的安全審計與模型測試,確保這些系統在真實部署中不會出現欺瞞行為或偏離原意的決策。
第二,為了讓AI更安全可控,世界各地都在努力訂出一套清楚的規則和做法。 像歐盟的《AI法案》、美國交由各部門與州法規進行管理、亞太地區如新加坡則強調企業自主審查與實務指引。
第三,國際合作。 由於AI模型可輕易跨國傳播,單一國家的管制難以全面防堵風險,反而更需要透過全球協議與共識,避免企業「監管套利」(regulatory arbitrage)找尋漏洞。
最後,道德與技術人才的養成是基礎建設的一環。 報告中提到,許多企業領導人已經將「AI倫理」列為未來5年最迫切的關鍵技能。
真正的「AI對齊」,不是靠一句指令就能實現,而是整個世界一起學會怎麼說清楚我們的價值、人類的價值,並讓AI真正聽懂。