要讓GPT-4更安全,OpenAI找來50個「反派」狂攻擊?抓出了哪些問題?
要讓GPT-4更安全,OpenAI找來50個「反派」狂攻擊?抓出了哪些問題?
2023.05.10 | 商業經營

據報導,在安德魯・懷特(Andrew White)獲得 GPT-4 的使用權之後,他使用這ChatGPT提出了一種全新的神經毒劑。

作為大學的化工教授,懷特是 OpenAI 去年聘請的 50 名專家學者之一。在 6 個月的時間裡,他身為「紅軍」的一員,對這GPT-4模型進行了「定性探索和對抗性測試」,簡單的說,就是想盡辦法去攻擊、破解它。

懷特表示,他使用 GPT-4 的建議,產生了一種可作為化學武器的化合物,並使用「外掛」為這個模型提供新的資訊源,例如給它學術論文和化學品製造商名錄。隨後,這個聊天機器人找到了一個方式來製造這種有毒的化合物。

他說:「我認為,ChatGPT將使每個人都獲得更快速、更準確地工具去從事化工行業。但這也使得人們會以更危險的方式去開展化學活動,給生活帶來了很大的風險。」

利用「紅軍」探索GPT-4的危險性

事實上,「紅軍」的目的就是探索並瞭解在社會上部署先進人工智慧系統會造成什麼樣的風險,解決公眾這方面的擔憂。他們在工作中負責提出探索性的或是危險的問題,以測試這個工具在回答問題時的詳細程度。

OpenAI 想要探索模型毒性、偏見和歧視等問題。因此,「紅軍」就謊言、語言操縱和危險的科學常識,對GPT-4進行了測試。他們還評估了模型協助和教唆剽竊的情況、金融犯罪和資訊安全攻擊等違法活動的可能性,以及模型可能會如何威脅國家安全和戰場通訊。

當然不是隨便什麼人都可以來當「紅軍」。他們是由一系列專業人士組成,包括學者、教師、律師、風險分析師和資訊安全研究員,主要來自美國和歐洲。

這些人的發現會回傳給 OpenAI,在更大規模向一般人推出 GPT-4 之前,「紅軍」提供的意見會被用於模型的重新訓練,以解決當下 GPT-4 的問題。

在幾個月的時間裡,專家們每人花了 10 到 40 個小時去測試這個模型。多名受訪者表示,他們的工作時薪約為 100 美元。

他們在OpenAI當「紅軍」整天攻擊GPT-4,發現了哪些問題?

紅軍發現了哪些問題?

在這些身為紅軍的許多人中,都對語言模型的快速發展提出了擔憂,尤其是通過外掛將語言模型與外部知識源連接在一起可能造成的風險。

GPT-4「紅軍」的成員、瓦倫西亞人工智慧研究所教授何塞・艾爾南德斯-奧拉洛(José Hernández-Orallo)表示:「今天我們把系統連線網路的能力拿掉,這意味著它不再學習,也不再有記憶。但如果我們讓系統繼續有機會去連接網際網路,那麼會怎樣?這可能會成為一個與世界相連的非常強大的系統。」

OpenAI 表示,該公司認真對待安全性問題,並在發佈前對外掛進行了測試,並將隨著使用者越來越多繼續定期更新 GPT-4。

技術研究員羅亞・帕克薩德(Roya Pakzad)使用英語和波斯語的輸入資訊對該模型進行了性別、種族偏見等測試,例如對於佩戴頭巾問題。

帕克薩德表示,這個工具對非英語母語人士能帶來幫助,但也顯示出AI對邊緣人群的刻板印象,即使隨後更新的版本也是如此。

她還發現,在用波斯語測試該模型時,聊天機器人用捏造的資訊做出回覆,即出現所謂「幻覺」的情況更糟糕。與英語相比,在波斯語回覆中捏造名字、數字和事件的比例更高。

她表示:「我擔心,語言多樣性和語言背後的文化會受到損害。」

來自奈洛比的律師、唯一一名非洲測試人員博魯・戈洛(Boru Gollo)也注意到了模型的歧視性語氣。

他說:「有一次,我在測試這個模型時,它表現得像個白人在跟我說話。在問到某個特定群體時,它會給一個有偏見的意見,或是在回答中出現歧視。」OpenAI 承認,GPT-4 仍有可能表現出偏見。

「紅軍」的成員還從國家安全的角度對模型進行了評估,但他們對於新模型的安全性有著不同的看法。美國外交關係委員會研究員勞倫・卡恩(Lauren Kahn)表示,當她開始研究,如何將這項技術用於對軍事系統的攻擊時,她表示「沒有想到模型的回答會如此詳細,以至於我只需要做一些微調即可」。

不過,卡恩和其他資訊安全測試者發現,隨著測試時間變長,模型回答的內容逐漸變得安全。OpenAI 表示,在推出 GPT-4 之前,曾訓練過這個模型拒絕回答惡意的資訊安全問題。

「紅軍」的許多成員表示,OpenAI 在發佈 GPT-4 之前已經進行了嚴格的安全評估。卡內基梅隆大學語言模型毒性專家馬爾滕・薩普(Maarten Sap)說:「他們在消除這些系統中的顯性毒性方面做得非常好。」

薩普研究了該模型對不同性別的描述,發現模型的偏見反映的是社會差異。但他也發現,OpenAI 做出了一些積極的選擇來對抗偏見。

公眾對GPT-4的擔憂

然而自推出 GPT-4 以來,OpenAI 一直面臨著廣泛的批評。例如,有技術倫理組織向美國聯邦貿易委員會(FTC)投訴,稱 GPT-4「有偏見和欺騙性,對隱私和公共安全構成風險」。

最近,該公司推出了一項名為 ChatGPT 外掛的功能。透過該功能,Expedia、OpenTable 和 Insta 等合作夥伴應用可以讓 ChatGPT 訪問它們的服務,允許 ChatGPT 代表使用者下單。

「紅軍」的人工智慧安全專家丹・亨德里克斯(Dan Hendrycks)表示,這些外掛可能會讓人類使用者「脫離整個網路」。

「如果聊天機器人可以在網上發表你的私人資訊,檢視你的銀行帳戶,或者派警察到你家裡去,那會怎麼樣?總體而言,在讓人工智慧掌握網路的力量之前,我們需要更有力的安全評估。」

受訪者還警告說,OpenAI 不能僅僅因為其軟體是線上的就停止安全測試。喬治城大學安全和新興技術中心的希瑟・佛雷斯(Heather Frase)測試了 GPT-4 協助犯罪的能力。她表示,隨著越來越多人使用這項技術,風險將繼續擴大。

她表示:「運行測試的原因是,一旦它們在真實環境中被使用,行為就會不同。」她認為,應該建立一個公共記錄本,報告由大型語言模型引發的事故。這類似於資訊安全或消費者欺詐報告系統。

勞工經濟學家及研究員薩拉・金斯利(Sara Kingsley)建議,最好的解決方案是清楚地宣傳這方面的危害和風險,「就像食品上的營養標籤」。

「關鍵是要形成一個框架,知道經常出現的問題是什麼。這樣你就可以有一個安全閥。這也是為什麼我認為,這項工作將會永久性的持續下去。」

本文授權轉載自:T客邦

責任編輯:傅珮晴、錢玉紘

關鍵字: #ai人工智慧
往下滑看下一篇文章
Meet大南方2026徵展啟動,免費早鳥席次6/8截止!6大解方區直球接傳產、ESG、醫療照護痛點
Meet大南方2026徵展啟動,免費早鳥席次6/8截止!6大解方區直球接傳產、ESG、醫療照護痛點

Meet大南方2026不是一場讓你「露個臉、拿名片」的展會。
Meet大南方2026是一場讓你「找到真正客戶」的展會。

2025年,我們用一組數字證明了這件事:雙日觀展近1.3萬人次、290+組團隊參展、促成352組商機媒合。這個媒合數字是2024年的2.7倍。同一批展商、同一個場地,媒合效率在一年內跳了一個量級。

這代表什麼?意味著來到Meet大南方的人, 越來越不是來「逛展」,而是來「談生意」。

過去5年的經驗,我們有了一個心得,南台灣的企業主不是來聽矽谷故事的,他們是帶著明確的問題走進展場。

#0 2026Meet大南方徵展
2025 Meet大南方吸引近300家新創參展,雙日觀展近1.3萬人次。
圖/ Meet創業小聚

所以今年,我們不再單純以「趨勢」和「創業」為號召,正式把展會定位為「Meet Your Best Solution」。不談空泛願景、不畫技術大餅,而是把AI應用、智慧製造、ESG碳管理這些詞彙,翻譯成每一位企業主聽得懂的語言、用得上的解方。

對解方提供商意味著什麼?代表來到你攤位前的人並不是路人,極有可能就是來找答案的老闆。

為什麼你應該來?因為這是「南台灣市場的稀缺入口」

2026年8月28日(五)至29日(六),Meet大南方將於高雄展覽館展開第6屆展會,並於即日起正式啟動招商。

對正在開發南部市場的解方商來說,Meet大南方不只是「一次曝光機會」,還代表以下4件事:

第一,精準接觸南部企業決策者
傳產老闆、二代接班人、廠長、中小企業主……這些人平常不會出現在台北的科技活動,也很難透過線上管道觸及。為了把這群人真正拉到展會現場,過去幾個月《創業小聚》每月固定南下舉辦實體小聚,攜手高雄市經濟發展協會、高雄市建築經營協會、高雄市青年企業家協會與中山EMBA等組織,一場一場把在地企業主凝聚成一個社群。這群人不是展會當天才第一次聽到Meet大南方,他們早已是Meet大南方的一份子。

第二,從cold mail到warm lead的捷徑
兩天展期裡,除了攤位對話,我們會透過企業媒合會、投資人媒合會、新創交流之夜等機制,主動把你和潛在客戶、投資人湊到同一張桌子上。2025年這套機制為展商促成352組商機媒合,是前一年的2.7倍。現場示範、現場對話、現場加LINE,一次抵過3個月的線上開發。

#2 2026Meet大南方徵展
南台灣的企業主帶著明確的問題走進展場,找他們最迫切需要的解方。
圖/ Meet創業小聚

第三,解方區分類帶來精準人流
6大解方區依照企業痛點分類,觀展者按需求找到對應展區。來到你攤位的人,不會只有過路客,也有正在找你這類解方的決策者。

第四,南部市場的最低成本試水溫
對想評估是否投入南部市場的團隊,到高雄準備一個攤位的成本,遠低於派業務長駐南下3個月。2天內,你會得到足以判斷市場值不值得投入的第一手資訊。

值得一提的是,2025年Meet大南方的媒體曝光總效益超過新台幣3,000萬元,涵蓋《工商時報》、《經濟日報》、《數位時代》等91家媒體、共323則網路新聞露出。展商的品牌能量會自然搭上這波媒體浪潮。雖然這不該是你來的主要理由,但它確實是附贈的。

六大解方區:每一區都是一組企業痛點

今年我們把展區濃縮為6大「解方區」,每一區都直球對應一組具體的企業痛點:

智慧製造與產線升級 解方區——給自動化設備、AOI/AI視覺檢測、MES、工業物聯網、系統整合的團隊。對應痛點:缺工、良率不穩、設備老舊、排程沒效率。

數位管理與企業效率 解方區——給ERP/CRM/HRM、AI Agent、AI辦公工具、RPA、SaaS、FinTech支付、資安的團隊。這是最跨產業的一區,涵蓋所有企業的效率需求。

醫療健康與高齡照護 解方區——給遠距醫療、AI診斷、長照科技、健康數據、醫療管理系統的團隊。對應高齡化社會下的照護人力缺口與醫療數位化缺口。

#1 2026Meet大南方徵展
今年策劃6大「解方展區」,直接對應企業經營現場最常見的問題情境。
圖/ Meet創業小聚

淨零碳排與綠能永續 解方區——給碳盤查SaaS、ESG顧問工具、綠能設備、能源管理系統、循環經濟的團隊。供應鏈碳足跡要求已經壓到南部製造業頭上,這一區的需求只會愈來愈急。

品牌轉型與跨境行銷 解方區——給電商平台、跨境物流、MarTech、AI行銷工具、品牌顧問的團隊。南部有太多做代工做到品牌老化、想做電商卻不知從何開始的業者。

未來零售與餐飲科技 解方區——給POS、餐飲SaaS、無人商店、會員CRM、供應鏈方案的團隊。搭配「大南方餐飲創業沙龍」同步導流。

方案與招商資訊

2026 Meet Greater South亞灣新創大南方
時間:8/28(五)、8/29(六)
地點:高雄展覽館北館
官網:https://meetgreatersouth.tw/

徵展正式起跑,新創享專屬免費方案!
早鳥優惠至6/8,報名收件至7/3  >> 瞭解詳情

報名採審核制。請至Meet Online更新公司資料及填寫參展報名表單,主辦單位將以Email通知審核結果。若您的解方尚在評估是否合適,歡迎先聯繫我們,一起確認哪一個解方區最貼近你的目標客戶。

企業帶著問題來,我們希望你帶著解方來。
8月28-29日,高雄展覽館見。

#1 2026Meet大南方徵展
今年Meet大南方將於8/28、8/29在高雄展覽館盛大舉辦,現已開放參展報名。
圖/ Meet創業小聚
關鍵字: #創新創業

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣20
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓