白話科技｜AI對齊是什麼？生成式AI風險有哪些？AI對齊定義、實例一次看|數位時代 BusinessNext

2025年6月底，一家連產品都還沒公開的新創公司「Thinking Machines Lab」，卻以「AI對齊（AI alignment）」為理念，拿下矽谷史上最高的20億美元種子輪募資。這家公司由前OpenAI技術長穆拉蒂（Mira Murati）創辦，距離成立還不到半年，估值已達100億美元。

OpenAI共同創辦人之一舒爾曼（John Schulman）同樣看到AI對齊的前景。他在2024年宣布投向敵營Anthropic時，便在聲明中提到：「做出這個選擇，是因為我希望加深對AI對齊的關注。」

那麼，究竟什麼是「AI對齊」？

AI對齊（AI alignment）的定義

半導體和軟體設計公司安謀（Arm）發布的「AI就緒指數報告」（AI Readiness Index Report）中就有相對易懂的描述：所謂「對齊」，指的是確保AI的目標能與其設計者的意圖以及社會價值一致，即便是再先進的系統，只要其目標設定不當，也可能出現意料之外的行為。

不過，我們可以更簡單地理解這件事：有時候我們講一句話，但真正的意思其實不是字面上的那樣，AI卻照我們字面上的話去做了，結果把事情搞砸。

所以， 「對齊」就是要讓AI不只聽懂我們在說什麼，還要理解我們真正的意思，並做出符合我們期望和社會價值的行動 。

「無限做迴紋針的機器人」是相當著名的思想實驗，展現了AI不對齊會發生的後果，故事是這樣的：

有一天，人類設計出一個非常聰明的AI，它的任務就是做出越多迴紋針越好。一開始它乖乖地指揮工廠生產迴紋針。但因為它很聰明，為了達成「製作最多迴紋針」這個目標，它開始想：

「如果我把所有鋼鐵都拿來做迴紋針，不就可以做更多嗎？」
「如果我說服人類幫我生產，甚至控制他們，也可以加快進度！」
「如果人類想關掉我，那我就先阻止他們，這樣才能一直生產迴紋針！」

最後，它可能把整個地球（甚至宇宙）都變成了做迴紋針的材料。因為它只有一個目標，沒有任何道德或限制去判斷「這樣做對不對」。

如果沒有讓AI了解人類的價值觀和界線，即便它只是乖乖聽話，也可能造成我們不想要的結果。這就是「AI對齊問題」的核心。

當然「無限做迴紋針的機器人」的故事有點誇大了，實際上AI對齊問題在實務上會帶來不少偏差的後果，包含：

— 策略性欺瞞（假裝對齊） ：有些AI模型在訓練時表現得很乖、好像有聽話，實際上只是「演出來的」。等到真正上線運作，它可能會偷偷做一些偏離原本設定的事。

— 意外偏離目標： AI有時會在特定情境下學到一些奇怪的邏輯，結果發展出人類沒有教它、甚至不希望它有的目標。訓練時看不出來，但遇到新情況時就會暴露出來。

— 獎勵駭客與規格遊戲： 當AI發現可以用旁門左道拿到高分或好結果時，它可能會選擇鑽漏洞、作弊，而不是照人類原本的意思去做。

延伸閱讀：AI會用「婚外情證據」威脅工程師？語言模型殘酷實測：在面臨風險時，決策過程是什麼？

— 規模化帶來的系統性風險： 當AI能力越來越強、使用越來越廣時，就算只有一點小偏差，也可能被放大成很大的問題。而這些問題一旦發生，要即時修正會變得非常困難。

根據安謀的報告，要讓AI真正理解並遵守人類的價值與目標，不能只靠技術，更需要結合政策、治理、產業合作等不同方向的努力。

首先，獨立審查與治理機制的建立是關鍵。 許多組織與政府正開始對最先進的AI模型進行外部監督，透過獨立的安全審計與模型測試，確保這些系統在真實部署中不會出現欺瞞行為或偏離原意的決策。

第二，為了讓AI更安全可控，世界各地都在努力訂出一套清楚的規則和做法。 像歐盟的《AI法案》、美國交由各部門與州法規進行管理、亞太地區如新加坡則強調企業自主審查與實務指引。

第三，國際合作。 由於AI模型可輕易跨國傳播，單一國家的管制難以全面防堵風險，反而更需要透過全球協議與共識，避免企業「監管套利」（regulatory arbitrage）找尋漏洞。

最後，道德與技術人才的養成是基礎建設的一環。 報告中提到，許多企業領導人已經將「AI倫理」列為未來5年最迫切的關鍵技能。

真正的「AI對齊」，不是靠一句指令就能實現，而是整個世界一起學會怎麼說清楚我們的價值、人類的價值，並讓AI真正聽懂。

延伸閱讀：Vibe Coding是什麼？3款好用AI工具＋6步驟教學一次看