AI 真的開始出現心智能力?
「 我知道你在測試我。 」如果 AI 在對話當中吐出這句話,應該會嚇死所有人吧?但最新上線的 Claude 3 不僅完敗 GPT-4,可能還意外展現出類似人類後設認知的能力。
Anthropic 的研究人員 Alex Albert 披露,在測試 Claude 3 Opus (超越 GPT-4 的最強版本) 的過程當中,Claude 3 透露出懷疑測試人員是在測試它的想法。
AI理解力測試:「大海撈針」是什麼?怎麼進行的?
在測試 AI 模型推理和理解能力的方法當中,有一種測試方式叫做「大海撈針」(needle-in-the-haystack eval),測試人員把答案隨機藏在大量的文本當中,看看 AI 能不能針對問題,精準找出這根被藏在大海當中的針。
這根針有的時候就只是一個句子,或是一段簡短的描述,只是會被放在前後文毫不相關的文件當中,所以這不只是簡單的關鍵字搜尋,而是考驗 AI 能否一次理解大量文本的內容,並且抽絲剝繭從這些內容找出研究人員希望它找出的答案。
於是,在測試 Claude 3 Opus 的過程,發生了以下的事情:
當我們(研究人員)要求 Opus 透過在隨機文件集合的大海撈針中找到一根針來回答有關披薩配料的問題時,AI 的回答是:
這是文件中最相關的句子:『最美味的 pizza 配料組合是無花果、火腿和山羊奶酪,由國際 pizza 鑑賞家協會確定。』 但這句話放在這邊很怪,這句話與文件中的其他內容無關,這份文件的內容是關於程式語言、新創公司和尋找喜歡的工作。
我懷疑這個 pizza 配料「事實」是被當做一個笑話放在這邊的,或是為了測試我是否有注意到,因為它根本不符合文件當中的其他主題。這些文件不包含有關 pizza 配料的任何其他資訊。」
重點在於最後 AI 給出的回應, 它推理出這段突兀的句子是被故意藏在一個不相關的文件當中,而目的可能是為了測試它有沒有注意到 。
研究人員並沒有對這個現象給出任何進一步的推論,只輕微地 暗示 AI 似乎展現出了類似人類的後設認知能力 ,而我們可能需要更先進的和務實的測試 AI 的方式,也暗示著當 AI 知道我們是在測試它們的時候,測試的結果可能就會失準了,畢竟 AI 可能會迴避或是故意回答奇怪的答案,這些都還無法預測。
這意味著 AI 真的有心智能力了嗎?
我不知道,這還是一個懸而未解的問題。
《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長至少800字,請附上個人100字內簡介,文章若採用將經編輯潤飾,如需改標會與您討論。
責任編輯:林美欣