【觀點】Claude 3曾吐:我知道你在測試我!AI真有心智能力嗎?從「大海撈針」測試看起
【觀點】Claude 3曾吐:我知道你在測試我!AI真有心智能力嗎?從「大海撈針」測試看起

AI 真的開始出現心智能力?

我知道你在測試我。 」如果 AI 在對話當中吐出這句話,應該會嚇死所有人吧?但最新上線的 Claude 3 不僅完敗 GPT-4,可能還意外展現出類似人類後設認知的能力。

Anthropic 的研究人員 Alex Albert 披露,在測試 Claude 3 Opus (超越 GPT-4 的最強版本) 的過程當中,Claude 3 透露出懷疑測試人員是在測試它的想法。

AI理解力測試:「大海撈針」是什麼?怎麼進行的?

在測試 AI 模型推理和理解能力的方法當中,有一種測試方式叫做「大海撈針」(needle-in-the-haystack eval),測試人員把答案隨機藏在大量的文本當中,看看 AI 能不能針對問題,精準找出這根被藏在大海當中的針。

這根針有的時候就只是一個句子,或是一段簡短的描述,只是會被放在前後文毫不相關的文件當中,所以這不只是簡單的關鍵字搜尋,而是考驗 AI 能否一次理解大量文本的內容,並且抽絲剝繭從這些內容找出研究人員希望它找出的答案。

於是,在測試 Claude 3 Opus 的過程,發生了以下的事情:

當我們(研究人員)要求 Opus 透過在隨機文件集合的大海撈針中找到一根針來回答有關披薩配料的問題時,AI 的回答是:

這是文件中最相關的句子:『最美味的 pizza 配料組合是無花果、火腿和山羊奶酪,由國際 pizza 鑑賞家協會確定。』 但這句話放在這邊很怪,這句話與文件中的其他內容無關,這份文件的內容是關於程式語言、新創公司和尋找喜歡的工作。

我懷疑這個 pizza 配料「事實」是被當做一個笑話放在這邊的,或是為了測試我是否有注意到,因為它根本不符合文件當中的其他主題。這些文件不包含有關 pizza 配料的任何其他資訊。」

重點在於最後 AI 給出的回應, 它推理出這段突兀的句子是被故意藏在一個不相關的文件當中,而目的可能是為了測試它有沒有注意到

Claude
Anthropic 的研究人員 Alex Albert 披露,在測試 Claude 3 Opus的過程當中,Claude 3 透露出懷疑測試人員是在測試它的想法。
圖/ Claude

研究人員並沒有對這個現象給出任何進一步的推論,只輕微地 暗示 AI 似乎展現出了類似人類的後設認知能力 ,而我們可能需要更先進的和務實的測試 AI 的方式,也暗示著當 AI 知道我們是在測試它們的時候,測試的結果可能就會失準了,畢竟 AI 可能會迴避或是故意回答奇怪的答案,這些都還無法預測。

這意味著 AI 真的有心智能力了嗎?

我不知道,這還是一個懸而未解的問題。

延伸閱讀:Claude 3 擠下 GPT-4,全球最強AI模型一夕換人!秒讀萬字、幻覺率大幅降低,強在哪?

《數位時代》長期徵稿,針對時事科技議題,需要您的獨特觀點,歡迎各類專業人士來稿一起交流。投稿請寄edit@bnext.com.tw,文長至少800字,請附上個人100字內簡介,文章若採用將經編輯潤飾,如需改標會與您討論。

責任編輯:林美欣

關鍵字: #AI
本網站內容未經允許,不得轉載。
往下滑看下一篇文章
全球最佳!中國附醫積極打造安全智慧醫院,亮眼表現獲 HIMSS肯定
全球最佳!中國附醫積極打造安全智慧醫院,亮眼表現獲 HIMSS肯定

為提供以病患為核心的醫療照護服務,中國醫藥大學附設醫院(以下簡稱中國附醫)早在數年前就展開智慧醫院布局,並獲得國內外獎項肯定、創下許多台灣第一。舉例來說,中國附醫不僅連續完成美國醫療資訊與管理系統學會(HIMSS)的 INFRAM Stage7認證、EMRAM Stage7認證、AMAM Stage6認證並獲得亞洲首座HIMSS Davies Award of Excellence大獎,更進一步獲得HIMSS「數位健康指標(Digital Health Indication,DHI)」全球最高成績殊榮。

中國附醫是如何辦到的?

中國醫藥大學附設醫院資訊副院長陳俊良面帶微笑的說:「在蔡長海董事長以及周德陽院長高瞻遠矚領導下,我們早在2021年就擘劃清楚的智慧醫療藍圖,還有專職單位負責各項工作,此外,還可以彈性因應業務需求敏捷展開跨部門合作。」舉例來說,在數據管理與應用這個領域,資訊室負責臨床醫療數據資料的蒐集,大數據中心則肩負巨量數據挖掘與應用,至於人工智慧中心則是將人工智慧技術應用到智慧醫療各個領域的關鍵推手。「在實踐智慧醫院這個旅程中,資訊室肩負數據治理重責,必須從(醫護)需求面、(數據)來源面、(安全/隱私)技術面等構面進行規劃與啟動相關實務。」

自由系統
圖/ 自由系統

從身分驗證管理到內部通訊,自由系統助中國附醫深化安全防護力

為發揮醫療數據的最大價值,中國附醫尤其重視資訊安全防禦,陳俊良表示:「第一前提是合規、因應資安法優化系統、數據、裝置設備與人員的安全性。」具體作法有二:首先是因應資安法以縱深防禦的方式持續強化對私有雲環境與設備的安全管理;其次是加強整體資安可視性與自由系統合作,由其協助導入微軟各項的解決方案,並提供資安監測與即時異常通報等服務,讓中國附醫可以更具效率與效能的方式過濾與發現異常事件。

中國醫藥大學附設醫院資訊室系統維護組組長李祥民進一步解釋:「資安威脅無所不在,過去幾年,勒索軟體威脅更是防不勝防,為了解決這個問題,光是保護數據資料還不夠,必須從身份、裝置、帳戶等多元角度切入,因此,微軟在2021年開始提供資安解決方案時,我們就開始評估有能力解決問題的廠商,決定合作廠商的原因有三:首先是原廠推薦,由原廠的角度評估廠商有解決問題的能力,其次是自由系統展現出的專業技術與符合客戶需求的服務;最後,同時也是最重要的是,他們可以提供即時監測並提供通報服務,極大程度緩解中國附醫在資安人力與能力的欠缺,讓我們可以更好的落實安全防護。」

因此,中國附醫順利在2022年導入微軟資安解決方案,而這,不僅提升了中國附醫的資安防護能力,例如分別在2022年跟2023年預先偵測異常事件並成功防堵來自外部的安全攻擊,也讓資訊同仁可以專注在核心業務上,極大化資訊與數據價值。良好的合作體驗也讓雙方合作關係進一步擴展到應用程式端的安全防護,例如,將地面郵件系統搬遷到微軟的雲端服務,藉此降低Email Server的維運成本與損壞風險,同時,優化帳戶登入管理等。

陳俊良表示:「過去幾年,資安威脅不減反增,但是,透過縱深防禦的強化並且經由合作廠商加強即時監控與協助行政通報等服務,我們可以逐步優化資訊安全防護能量,並成功讓異常事件的發生頻率下降,而這,也是中國附醫可以順利獲得HIMSS的INFRAM Stage7跟EMRAM Stage7等認證的關鍵原因之一,為此,後續將持續與合作夥伴共同努力、與時俱進的深化安全防護能力。」

自由系統
圖/ 自由系統

透過雲端身分驗證落實Single Sign On以提升縱深防禦能力

除了導入資安與雲端郵件之外,李祥民表示,中國附醫更於日前將雲端身分驗證跟院內簽核系統的登入機制彙整在一起,以優化登入安全。「接下來,我們會與自由系統合作,重新盤點、評估有哪些院級服務適合以Microsoft Azure AD進行單一登入與多因素驗證,藉此提升安全防護機制。」

自由系統業務經理許廷輔表示,資訊安全不可能一步到位,相反的,需要長期、動態的進行調整與優化,因此,需要組織上下齊心、一同落實安全防禦。「從2021年至今,我們發現,中國附醫不僅重視資訊安全,更身體力行、彈性敏捷的因應潛在威脅做出調整、改變,這是很難能可貴的地方,為進一步擴大成效,自由系統將針對中國附醫在(數據)資料安全與雲端服務等策略提供更多適合中國附醫的產品及服務。」

「智慧醫療、智慧醫院涉及的面向既廣且深,不可能單憑己力完成,需要專業的外部夥伴提供最佳支援與服務,我們很開心可以有自由系統這樣的夥伴,期待未來有更多合作火花,讓中國附醫可以一步一腳印的建構與完善安全智慧醫院布局。」關於中國附醫與自由系統的未來合作,陳俊良如是總結。

自由系統
圖/ 自由系統
本網站內容未經允許,不得轉載。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
台日半導體新局 全解讀
© 2024 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓