誰在打臉誰?蘋果研究稱AI會「放棄思考」,反遭研究員抓包:把輸出限制當成推理失敗
誰在打臉誰?蘋果研究稱AI會「放棄思考」,反遭研究員抓包:把輸出限制當成推理失敗

OpenAI執行長山姆.奧特曼(Sam Altman)一向是廣為人知的AI樂觀論者,他近期的部落格專文指出,AI發展已經進入「溫和奇點」,亦即超級AI即將帶領人類起飛,從生產力到社會結構都會出現飛越式的躍升。

有趣的是,才辦完年度WWDC大會的蘋果,卻在近期發布一份研究報告,其中對「AI擅長思考」的說法大潑冷水,直言AI面對高複雜度問題仍然有其缺陷,「甚至不知道自己在說些什麼。」

一邊是端出殺手級應用的ChatGPT之父,另一邊則是近20年開啟智慧型手機世代的巨頭,為何他們對當前AI發展的看法如此極端?

蘋果:大型LLM遇到難題會「放棄思考」

蘋果在WWDC開發者大會前發表的一份研究《思考的幻覺》(The Illusion of Thinking)中,點名大型推理模型,在遇到過於複雜的問題時會「放棄思考」,減少投入的思考資源,無論是OpenAI的o1/o3、DeepSeek R1,還是Google 的Gemini Flash Thinking都是如此。

蘋果研究人員在實驗中測試了「河內塔」、跳棋問題和渡河問題(狐狸、雞、豆子)等經典益智題目。河內塔的目標是在三根柱子中,將不同大小的圓盤從一根柱子移動到另一根,同時遵守不能將大盤子放在小盤子上的規則。

這些都是相當經典、有一定邏輯的益智問題,只要掌握背後脈絡即使增加題目規模,例如更多的圓盤,人類仍能輕易解答,但大型推理模型到一定程度後,就會開始「秀逗」,無法正常解開題目,即使研究人員給予提示,讓模型按照演算法處理,也無法提昇準確度。

chatgpt shutterstock_2237655785.jpg
蘋果研究人員發現,大型推理模型遇到太複雜問題是會反常地減少投入思考資源。
圖/ shutterstock_2237655785.jpg

蘋果提到,在面對簡單問題時,大型語言模型表現優於大型推理模型;而中等複雜度問題時,大型推理模型會反過來展現優勢;但面對高複雜度問題時,兩種模型都會崩潰。

整體而言,蘋果研究人員在報告中指出了幾個問題:

問題一:準確度崩潰

當大型推理模型處理超過一定複雜度的任務時,準確性會大幅下降,甚至展現出反常的限制,即在擁有足夠資源的情況下,面對複雜任務反而減少推理資源投入,顯示當面對複雜問題時,模型可能無法有效推理,進而導致生成錯誤或憑空捏造──也就是幻覺。

問題二:無法精確計算

大型推理模型在執行精確計算上有著巨大的侷限,並且無法在不同任務中一致運用邏輯推理,或者妥善利用演算法,這種問題可能導致模型生成不符合事實或邏輯的資訊。

問題三:自我修正效率低

面對較簡單的問題時,大型推理模型會「過度思考」,儘管確定了正確答案,仍會花費資源探索錯誤的替代答案,導致表現不如一般的大型語言模型,而超過一定複雜程度的問題,模型完全無法找到正確答案,顯示大型推理模型有限的自我修正能力。

蘋果還指出,目前的評量方法主要集中在最終答案的準確性上,這些方法無法深入了解大詳推理模型內部推理過程的品質和結構,而幻覺問題正是源於這些缺陷,這使得僅檢視最終輸出結果無法找出問題。

值得一提的是,近來有越來越多的聲音認為,目前常用來檢測AI能力的基準測試,已經無法準確反應模型真正的性能。OpenAI共同創辦人安德烈.卡帕斯(Andrej Karpathy)今年4月就表示,「我現在真的不知道該看什麼指標了。」指出過往很棒的基準測試,已經難以讓他正確評量現在的模型能力。

打臉蘋果論文!實驗設計缺陷,讓AI智商被低估

不過,並不是所有人都認同蘋果發布的這項研究結果。慈善機構Open Philanthropy研究人員艾力克斯.勞森(Alex Lawsen)發表了一篇反駁文章《思考幻覺的幻覺》(The Illusion of the Illusion of Thinking), 聲稱蘋果這聳動的研究結果,實際上混淆了實驗設計上的缺陷與推理能力的限制。 Open Philanthropy是OpenAI的早期資助者,曾提供3,000萬美元資金。

Claude
Open Philanthropy研究人員利用Claude Opus 4等模型實測,反駁蘋果對於大型推理模型面對高複雜度問題會秀逗的說法。
圖/ shutterstoc

該反駁文章提到,他認為蘋果在解釋模型「崩潰」時,忽略了Token輸出上限, 例如在解8層或以上的河內塔問題時,模型會明確表示為了節省Token而停止輸出,是受到輸出長度限制而非無法推理。

蘋果使用自動化的流程評估模型輸出結果,無法正確區分推理失敗?還是Token不夠只能輸出部份結果?這些都被歸類為完全失敗。

他也指出,只要改變回答條件,讓大型推理模型有辦法在Token範圍內輸出結果後,Claude、Gemini以及o3等模型,可以輕易解開15層河內塔問題。

另外,反駁文章還聲稱,蘋果的渡河測試中包含了無解的問題。「模型得到零分並非因為推理失敗,而是因為正確辨識出無解的問題。」文章中寫道。

這篇反駁文章顯示,大型推理模型或許確實無法處理需要大量Token的邏輯問題,但並不像蘋果研究所示的那麼脆弱。

但勞森也承認AI在將學習到的知識運用在前所未見的狀況時,能力仍然有所侷限,他這篇文並不是想辯駁AI模型有多聰明,而是在宣佈推理崩潰前,我們需要更合理的評估標準。

延伸閱讀:OpenAI翻臉!跟金主微軟喬不攏持股比例,擬檢舉「反壟斷」逼微軟就範

資料來源:Mashable9to5macApple

責任編輯:李先泰

關鍵字: #蘋果 #AI #openai
往下滑看下一篇文章
決策桌上的虛擬團員:臺大 EiMBA 如何將 AI 從「工具」升級為「共創夥伴」?
決策桌上的虛擬團員:臺大 EiMBA 如何將 AI 從「工具」升級為「共創夥伴」?
2025.12.09 | 創新創業

「過去我們教育教導學生如何從數據中找出標準答案,但在生成式AI的時代,標準答案往往是最廉價的。」臺大EiMBA執行長李家岩一語道破了這波商業典範轉移的核心。他認為,當資訊獲取邊際成本趨近於零,企業的競爭優勢已不再是單純的「掌握資訊」,而是「如何設計讓 AI 與人共同創造價值的流程」。這不只是一句口號,而是一場正在被驅動的轉型。從課程設計的邏輯重組,到學生創業專題的實戰演練,臺大EiMBA正將校園打造成一個允許失敗、快速驗證的「人機共創實驗場」。

告別標準答案,當教授變成「學習架構師」

「我們不再只是教導知識,而是設計學習。」李家岩指出,臺大EiMBA的課程正在經歷結構性的轉變。現在的教授角色更像是一位「學習架構師(Learning Architect)」,他們的任務不是單向輸出,而是設計出高強度的挑戰與情境,讓學生在解決問題的過程中,自然地將 AI 納入決策迴路 。

以今年新開設的「雙軸轉型與人工智慧」課程為例,這並非傳統的技術概論課,而是場關於商業邏輯的壓力測試。學生不再只是繳交一份靜態的商業計畫書,反而被要求運用生成式 AI 輔助設計商業模式畫布(Business Model Canvas),甚至利用Vibe Coding技術讓不懂程式語言的商管學生,也能透過自然語言與提示工程,快速生成互動式的原型與操作介面來模擬市場反應 。這項技術打破了傳統「文組企劃、理組執行」的藩籬,讓創意能即時轉化為可執行的程式碼。在這個過程中,AI 扮演的角色並非代筆的秘書,而是將概念具現化的加速器,以及最嚴厲的邏輯質疑者。

bn圖說女生.jpg
寵物百分百用戶體驗暨品牌行銷中心負責人鐘紫瀕
圖/ 數位時代

「這是我在課程中學到最深刻的一課,」臺大EiMBA二年級生、寵物百分百用戶體驗暨品牌行銷中心負責人鐘紫瀕分享道。身處近200人新創組織的高階主管,她坦言最初員工對 AI 充滿敬畏,甚至恐懼被取代。但在 EiMBA 的課堂上,她發現 AI 真正的價值在於「攻防」與「鏡像」。「老師設計了一種『沙漏式』的提問邏輯,迫使我們把策略餵給AI後,必須面對它無情的反問。」鐘紫瀕回憶,「這個市場假設有數據支持嗎?」、「你的競爭壁壘在哪裡?」這種高強度的追問,都是AI在對學員提出的挑戰,迫使她必須思考得比AI更深、更遠。「以前我們忙著找答案,現在我們學會如何設計出『連 AI 都沒想過的好問題』。AI就像一面鏡子,映照出我們思考邏輯上的盲點。」

數位孿生實戰,將「感覺」轉化為「數據決策」

除了策略層面的思維激盪,AI 在營運端的落地應用,更是讓許多直覺型創業者經歷了一場痛苦卻必要的轉型。臺大EiMBA一年級生、赤赤子設計師林宏諭對此感觸良多。

身處傳統服裝產業,過去他的經營模式多仰賴美感與經驗,「以前做決策就是憑感覺,甚至忙不過來時,連縫扣子這種小事我都自己跳下去做。」但在李家岩講授的「雙軸轉型與人工智慧」課堂上,他被迫面對冰冷的數據與流程,而這正是李家岩強調的「數位孿生(Digital Twin)」素養 。

台大EiMBA圖說一
赤赤子設計師林宏諭
圖/ 數位時代

在虛擬世界中建立一個與真實工廠或商業流程一模一樣的模型,利用AI進行模擬與預測,是現代智慧製造的核心。對林宏諭而言這意味著必須將腦中抽象的「職人經驗」轉化為AI讀得懂的 SOP。「那段過程就像是被老師架著刀子往前走,非常痛苦,」林宏諭形容,為了讓 AI 能協助優化流程,他必須把每一個步驟定義清楚,無法再用「大概」、「憑感覺」含糊帶過 。

雖然煎熬但成果是豐碩的。當感性的創意被裝進理性的數據框架後,林宏諭發現自己的決策不再是賭博,而是可被驗證的科學。「現在AI不僅幫我理清思緒,更像是團隊的外掛大腦。我開始能鼓勵員工使用AI釋放重複性勞動,讓大家能準時下班,去做更有價值的事。」這正是課程希望帶給學員的轉變,從「事必躬親的管理者」進化為「善用工具的跨域系統設計者」。

bn圖說二.jpg
臺大EiMBA執行長李家岩
圖/ 數位時代

跨域共創,打破同溫層的「破壁效應」

如果說AI是另一位虛擬組團員那麼課堂上原本的同學們,就是來自多重宇宙的戰友。這裡匯聚了醫師、網紅、工程師、律師與傳產二代,如此多元的背景在AI的催化下,產生奇妙的化學反應。

李家岩特別提到了榮獲霍特獎(Hult Prize)肯定的「RiiVERSE」團隊。這個由臺大管院 EiMBA 與 GMBA 學生組成的團隊,成員涵蓋了時尚、行銷與創新創業等不同領域。他們利用舊衣回收再製技術,打造出循環經濟的生態圈。「這就是我們強調的跨域共創。」李家岩解釋,在過去,不同領域的專業人士溝通成本極高,但現在,AI成為了通用的翻譯機與黏著劑。

「AI不僅降低了技術門檻,讓文組生也能做Prototype,更讓理組生也能懂得商業敘事。」在這樣的環境下,創新不再是單打獨鬥,而是像RiiVERSE團隊一樣,結合理性與感性,共同回應全球永續(ESG)的艱鉅挑戰。

為了內心的狂熱,動手去做

然而,隨著AI涉入決策越來越深,一個核心問題浮現:在演算法能預測趨勢、生成文案甚至編寫程式的時代,人類領導者的價值還剩下什麼?「我們教的不是被AI取代,而是擴增智慧。」李家岩眼神堅定地說。他強調,未來的領導者必須具備三項關鍵特質:AI素養、跨域系統設計能力,以及科技人文的反思力 。

其中最關鍵的,是懂得界定「自主邊界(Autonomous Boundary)」。領導者必須清楚判斷:哪些決策該放手讓 AI 自動化?哪些時刻必須保留人類的溫度與價值判斷?「例如在智慧工廠中,AI 可以預測機台何時需要維修保養,但『什麼樣的風險可以接受』、『我們要解決什麼社會問題』,這些涉及價值觀的決策,永遠需要人類來定奪。」李家岩補充道 。

bn圖說三.jpg
寵物百分百用戶體驗暨品牌行銷中心負責人鐘紫瀕(左)/臺大EiMBA執行長李家岩(右)
圖/ 數位時代

在李家岩眼中,真正的創新往往不是來自同類型人才的討論,而是從不同背景、不同世界觀的碰撞中誕生。「一個人能看到的只是片段,跨域合作才能讓問題完整。」他再次提到。對他而言,EiMBA 想培養的不是知道最多的人,而是能讓「各種智慧」一起工作的人。在AI與人類智慧並存的年代,領導者最重要的能力,不是掌握所有答案,而是打造一個能讓答案自然生成的組織環境。「未來需要的領導者是能整合技術與人、懂得跨域系統思考、也能『擇人(含機器人)而任勢』的人。」李家岩說,而這群充滿創業創新的管理者也將在未來商業戰場上奏出人機協作的新樂章。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓