要讓GPT-4更安全，OpenAI找來50個「反派」狂攻擊？抓出了哪些問題？|數位時代 BusinessNext

據報導，在安德魯・懷特（Andrew White）獲得 GPT-4 的使用權之後，他使用這ChatGPT提出了一種全新的神經毒劑。

作為大學的化工教授，懷特是 OpenAI 去年聘請的 50 名專家學者之一。在 6 個月的時間裡，他身為「紅軍」的一員，對這GPT-4模型進行了「定性探索和對抗性測試」，簡單的說，就是想盡辦法去攻擊、破解它。

懷特表示，他使用 GPT-4 的建議，產生了一種可作為化學武器的化合物，並使用「外掛」為這個模型提供新的資訊源，例如給它學術論文和化學品製造商名錄。隨後，這個聊天機器人找到了一個方式來製造這種有毒的化合物。

他說：「我認為，ChatGPT將使每個人都獲得更快速、更準確地工具去從事化工行業。但這也使得人們會以更危險的方式去開展化學活動，給生活帶來了很大的風險。」

利用「紅軍」探索GPT-4的危險性

事實上，「紅軍」的目的就是探索並瞭解在社會上部署先進人工智慧系統會造成什麼樣的風險，解決公眾這方面的擔憂。他們在工作中負責提出探索性的或是危險的問題，以測試這個工具在回答問題時的詳細程度。

OpenAI 想要探索模型毒性、偏見和歧視等問題。因此，「紅軍」就謊言、語言操縱和危險的科學常識，對GPT-4進行了測試。他們還評估了模型協助和教唆剽竊的情況、金融犯罪和資訊安全攻擊等違法活動的可能性，以及模型可能會如何威脅國家安全和戰場通訊。

當然不是隨便什麼人都可以來當「紅軍」。他們是由一系列專業人士組成，包括學者、教師、律師、風險分析師和資訊安全研究員，主要來自美國和歐洲。

這些人的發現會回傳給 OpenAI，在更大規模向一般人推出 GPT-4 之前，「紅軍」提供的意見會被用於模型的重新訓練，以解決當下 GPT-4 的問題。

在幾個月的時間裡，專家們每人花了 10 到 40 個小時去測試這個模型。多名受訪者表示，他們的工作時薪約為 100 美元。

他們在OpenAI當「紅軍」整天攻擊GPT-4，發現了哪些問題？

紅軍發現了哪些問題？

在這些身為紅軍的許多人中，都對語言模型的快速發展提出了擔憂，尤其是通過外掛將語言模型與外部知識源連接在一起可能造成的風險。

GPT-4「紅軍」的成員、瓦倫西亞人工智慧研究所教授何塞・艾爾南德斯-奧拉洛（José Hernández-Orallo）表示：「今天我們把系統連線網路的能力拿掉，這意味著它不再學習，也不再有記憶。但如果我們讓系統繼續有機會去連接網際網路，那麼會怎樣？這可能會成為一個與世界相連的非常強大的系統。」

OpenAI 表示，該公司認真對待安全性問題，並在發佈前對外掛進行了測試，並將隨著使用者越來越多繼續定期更新 GPT-4。

技術研究員羅亞・帕克薩德（Roya Pakzad）使用英語和波斯語的輸入資訊對該模型進行了性別、種族偏見等測試，例如對於佩戴頭巾問題。

帕克薩德表示，這個工具對非英語母語人士能帶來幫助，但也顯示出AI對邊緣人群的刻板印象，即使隨後更新的版本也是如此。

她還發現，在用波斯語測試該模型時，聊天機器人用捏造的資訊做出回覆，即出現所謂「幻覺」的情況更糟糕。與英語相比，在波斯語回覆中捏造名字、數字和事件的比例更高。

她表示：「我擔心，語言多樣性和語言背後的文化會受到損害。」

來自奈洛比的律師、唯一一名非洲測試人員博魯・戈洛（Boru Gollo）也注意到了模型的歧視性語氣。

他說：「有一次，我在測試這個模型時，它表現得像個白人在跟我說話。在問到某個特定群體時，它會給一個有偏見的意見，或是在回答中出現歧視。」OpenAI 承認，GPT-4 仍有可能表現出偏見。

「紅軍」的成員還從國家安全的角度對模型進行了評估，但他們對於新模型的安全性有著不同的看法。美國外交關係委員會研究員勞倫・卡恩（Lauren Kahn）表示，當她開始研究，如何將這項技術用於對軍事系統的攻擊時，她表示「沒有想到模型的回答會如此詳細，以至於我只需要做一些微調即可」。

不過，卡恩和其他資訊安全測試者發現，隨著測試時間變長，模型回答的內容逐漸變得安全。OpenAI 表示，在推出 GPT-4 之前，曾訓練過這個模型拒絕回答惡意的資訊安全問題。

「紅軍」的許多成員表示，OpenAI 在發佈 GPT-4 之前已經進行了嚴格的安全評估。卡內基梅隆大學語言模型毒性專家馬爾滕・薩普（Maarten Sap）說：「他們在消除這些系統中的顯性毒性方面做得非常好。」

薩普研究了該模型對不同性別的描述，發現模型的偏見反映的是社會差異。但他也發現，OpenAI 做出了一些積極的選擇來對抗偏見。

公眾對GPT-4的擔憂

然而自推出 GPT-4 以來，OpenAI 一直面臨著廣泛的批評。例如，有技術倫理組織向美國聯邦貿易委員會（FTC）投訴，稱 GPT-4「有偏見和欺騙性，對隱私和公共安全構成風險」。

最近，該公司推出了一項名為 ChatGPT 外掛的功能。透過該功能，Expedia、OpenTable 和 Insta 等合作夥伴應用可以讓 ChatGPT 訪問它們的服務，允許 ChatGPT 代表使用者下單。

「紅軍」的人工智慧安全專家丹・亨德里克斯（Dan Hendrycks）表示，這些外掛可能會讓人類使用者「脫離整個網路」。

「如果聊天機器人可以在網上發表你的私人資訊，檢視你的銀行帳戶，或者派警察到你家裡去，那會怎麼樣？總體而言，在讓人工智慧掌握網路的力量之前，我們需要更有力的安全評估。」

受訪者還警告說，OpenAI 不能僅僅因為其軟體是線上的就停止安全測試。喬治城大學安全和新興技術中心的希瑟・佛雷斯（Heather Frase）測試了 GPT-4 協助犯罪的能力。她表示，隨著越來越多人使用這項技術，風險將繼續擴大。

她表示：「運行測試的原因是，一旦它們在真實環境中被使用，行為就會不同。」她認為，應該建立一個公共記錄本，報告由大型語言模型引發的事故。這類似於資訊安全或消費者欺詐報告系統。

勞工經濟學家及研究員薩拉・金斯利（Sara Kingsley）建議，最好的解決方案是清楚地宣傳這方面的危害和風險，「就像食品上的營養標籤」。

「關鍵是要形成一個框架，知道經常出現的問題是什麼。這樣你就可以有一個安全閥。這也是為什麼我認為，這項工作將會永久性的持續下去。」

本文授權轉載自：T客邦

責任編輯：傅珮晴、錢玉紘

為守護保戶資產，南山人壽集結客戶服務、數位、資訊三個部門的能量，自行研發「黃金眼 AI 防詐模型」，自 2024 年底完成開發後，截至今年 11 月已成功阻擋多起詐騙案件、攔阻金額累計逾新臺幣 900 萬元，並獲得 2025 數位金融獎等殊榮。

「黃金眼 AI 防詐」模型為什麼可以有效防詐、更好守護保戶資產？

南山人壽客戶服務資深副總經理李淑娟面帶微笑地解釋：「『黃金眼 AI 防詐』是透過龐大的保戶資料結合前線客服的實務經驗建構而成的模型，不僅克服了壽險業交易頻率低且詐欺樣本極度不平衡的挑戰，還能夠偵測在臨櫃辦理保單借款或解約的高風險個案，讓客服人員可以主動提醒與關懷，有效降低詐騙風險，守護客戶資產安全與信任。」

從詐保到詐財，壽險業面臨的風險加劇

過往，壽險業者面對的主要風險是保險詐欺，例如，透過偽造事故情節、虛構醫療紀錄等方式詐領保險理賠金，然而，隨著科技迭代與詐欺集團的組織化、專業化，這類手法已快速進化，從「偽造病歷、輕病久住、醫療共犯」等傳統模式，轉向結合數位科技與精準話術的跨領域詐財操作。

這一波詐欺風險不僅滲透力強、具備高迷惑性，也直接影響保戶資產安全。例如，詐欺集團利用假冒理賠諮詢等方式竊取保戶個資，再一步步誘導客戶辦理解約或申請保單借款，最後要求將資金匯到不明帳戶等，壽險業者面臨的風險範圍也從「詐領保險理賠」延伸到「詐騙保戶資產」。

李淑娟資深副總經理進一步指出，南山人壽每年要處理逾 35 萬件解約與借款案件，很難單憑人力在海量案件中精準辨識高風險個案。「為有效防堵詐欺事件，南山人壽除開發 AI 模型辨識詐保事件，更進一步研發黃金眼 AI 防詐模型，用前瞻科技主動攔截風險，強化保戶資產的安全防護。」

南山人壽以黃金眼 AI 防詐模型守護保戶資產

在打造黃金眼 AI 防詐模型時，南山人壽面臨兩個挑戰：首先是壽險的交易頻率低，導致資料稀缺；其次，是詐欺樣本比例高度失衡，導致 AI 很容易誤判。為化解這些挑戰，南山人壽整合保戶行為、保戶與保單側寫資訊與情境因素等多模態資訊進行模型訓練，爾後，透過集成學習（Ensemble Learning）整合多個不同觀點的「專家模型」共同判讀，提升模型判斷準確性。

南山人壽數位專案經理蔡其杭表示：「以多模態數據源跟集成學習的策略打造黃金眼 AI 防詐模型後，我們除了將模型串連至臨櫃客服系統，以直觀的「紅、黃、綠」三色燈號即時呈現保戶的風險等級，協助客服人員快速識別高風險個案，主動介入並阻斷詐騙，更透過『自適應演進』與『外部資源擴充』兩個機制，持續優化模型辨識精準度。」

「自適應演進」指的是，客服人員會依據模型亮起的燈號，結合系統提供的關懷提問表，向臨櫃辦理解約或借款的保戶進行關懷詢問，如資金用途、是否接獲可疑來電等，藉此釐清是否存在異常情況，並將相關結果回貼標籤，作為後續調校模型的關鍵訓練素材，讓黃金眼 AI 防詐模型越用越精準。

「外部資源擴充」則是透過更多元的外部數據強化模型的防詐能力。例如南山人壽與內政部警政署刑事警察局簽署反詐騙合作備忘錄（MOU），在合規架構下共享情資，協助核對保戶是否曾有詐欺通報紀錄。蔡其杭補充，南山人壽目前正與電信業者合作，將其超過 1,400 項特徵因子導入模型，有效提升模型燈號判斷的靈敏度與可靠度，使黃金眼 AI 防詐成為更全面的金融詐欺偵測引擎。

蔡其杭表示，詐騙的手法日新月異，AI 阻詐模型除了能準確識別可疑的高風險案例外，更重要的是具備與時俱進、持續調優模型能力和效果的機制；如同維持客戶服務的品質一樣，刻不容緩。

李淑娟表示：「隨著模型的持續優化，黃金眼 AI 防詐模型的應用範疇將從目前的『臨櫃防堵』延伸到『全通路、跨產業、事前預警』的防禦機制，以事前預警的方式防堵詐欺事件。」舉例來說，當保戶撥打電話詢問保單借款或解約時，系統就會開始運作、提前識別風險，針對透過手機 APP 或網路平台辦理業務的數位客群，系統也會即時偵測，當出現高風險行為時即會立即展開關懷提問。

不僅從科技著手，南山人壽以 SAFE 逐步提升防詐安全網

值得特別注意的是，南山人壽並未將防詐視為單一的科技工程，而是從 SAFE–Skilled（防詐訓練）、Awareness（全民防詐）、Fintech（科技運用）、Engagement（聯防合作）–四個構面打造更完整的防護機制。

在專業技能方面，南山人壽不僅協助相關人員熟悉黃金眼 AI 防詐模型的操作模式，也持續透過內部教育訓練，以及跟刑事警察局等單位合作舉辦的工作坊等方式，全面提升員工識詐、阻詐的能力，達到 AI 人機互動的阻詐聯防保護網。

在防詐意識宣導方面，南山人壽除於全台 18 個分公司櫃檯播放刑事警察局提供的反詐騙影片，並在櫃檯明顯位置放置防詐文宣，協助來訪保戶掌握最新詐騙趨勢；更主動走入偏鄉、校園與新住民社群，並針對聽語障人士製作友善素材，以多元形式推廣防詐知識，降低詐騙事件發生的可能性。

在公私協力方面，李淑娟表示，南山人壽積極培育、鼓勵每一位壽險業務員成為「防詐大使」，在拜訪客戶時主動觀察各種異常徵兆，例如可疑的投資文宣或陌生人的頻繁出入，並將這些現場蒐集到的「軟性數據」提供回公司，作為模型判斷的補強資訊，以提升事前預警效果。

為了更好的保護高齡與失智等高風險族群，南山人壽也積極推動「保單安心聯絡人」機制，鼓勵保戶指定第二聯絡人，在其申請保單借款或終止契約時，可以主動通知聯絡人介入確認，降低詐騙風險；此外，亦針對受詐保戶提供「喘息關懷服務」，以低利紓困貸款協助保戶在遭遇詐騙後仍能穩定度過財務壓力，將防詐保護從事中攔阻延伸到事前預警與事後援助兩個層面，樹立產業新標竿。