「只懂古典物理的LLM，無法提出相對論！」學者解密AI思維鏈：為何光寫提示詞，配不上「工程」兩字？|數位時代 BusinessNext

大型語言模型（LLM）究竟只是懂得模仿人類說話的「隨機鸚鵡」，還是通往通用人工智慧（AGI）的基石？這個問題在科技界引發了無數討論與猜想。當我們驚嘆於 ChatGPT 或 Claude 的強大能力時，也難免對其運作的黑盒子感到困惑：它們究竟如何「思考」？能力邊界又在哪裡？

最近，在 a16z Podcast 節目中，美國哥倫比亞大學電腦科學與電機工程學系教授 Vishal Misra 提出了一套極具洞察力的理論框架，幫助我們理解 LLM 的運作方式、能力邊界及未來發展。

見解一：LLM 的「思考」模式，其實與人類驚人地相似

Misra 的核心觀點是，LLM 會將這個複雜、高維度的世界資訊壓縮成較低維度的「幾何流形」（geometric manifold）。這個流形本質上是模型從海量訓練資料中學到的一張「知識地圖」，而它沿著這張地圖推理的過程，是一種基於訓練數據的「貝氏推論」（Bayesian reasoning）。

用比喻來說：當 LLM 生成內容時，它就像沿著這張已知的「知識地圖」行走。只要走在既有的路徑上，產出的內容就會自信且合乎邏輯；然而，一旦「偏離了流形」（veers away from the manifold），就會開始「產生幻覺」，用同樣自信的語氣說出看似合理卻完全錯誤的內容。

Misra 指出：「一旦偏離了流形，AI 就開始產生幻覺，開始胡說八道。」因此，模型的「自信」程度與其內部地圖上路徑的清晰度直接相關：路徑越明確，回答就越自信。

那麼，模型的「幻覺」（hallucination）是什麼？沿用上述比喻，幻覺就是 LLM 偏離地圖上的已知路徑，進入未知領域。

這個觀點有趣之處在於，它恰好反映了人類的推理方式： 人類同樣會將複雜世界簡化為內心的認知模型，並在這個模型內進行思考與推理。

a16z 合夥人 Martin Casado 在節目中巧妙總結了這個想法：「我們將這個極其複雜、充滿隨機性的宇宙，簡化為某種幾何流形；當我們推理時，我們只是沿著這個流形移動。」

見解二：「思維鏈」之所以有效，關鍵在於找到地圖上的安全路徑

要讓 LLM 產生更可預測、更準確的輸出，關鍵在於理解兩個概念：「資訊熵」（information entropy）和「預測熵」（prediction entropy）。前者關乎你的提示（prompt），後者關乎模型的輸出。

Misra 用了幾個例子說明：

低資訊提示 ：「我要出去吃晚餐。」這句話非常普遍（資訊熵低），因此可能的後續發展非常多（預測熵高），模型可能會接「去麥當勞」、「和朋友一起」或「在今晚」。
高資訊提示 ：「我要和 Martin Casado 共進晚餐。」這句話非常具體且罕見（資訊熵高）。模型會利用這個充滿資訊的上下文，大幅縮小可能性的範圍（例如，傾向米其林星級餐廳而非麥當勞），從而降低預測熵。

Misra 接著以「769 × 1025」的乘法為例：直接要求 LLM 給出答案，是一個「高熵」任務，等同於在地圖上進行一次不可能的長距離跳躍，難以準確到達目的地。

但如果引導 AI 像人類一樣分解為筆算的步驟（先算 5×9、再算 5×6……），每一步都是「低熵」且明確的任務。這就像找到一條鋪設完善、眾所周知的安全路徑，每一步都清晰可見，最終可自信抵達正確答案。

這正是「思維鏈」（Chain of Thought）提示法的核心原理：把複雜的高熵問題，轉化為一系列模型熟悉的低熵小步驟，幫助模型在地圖上找到穩妥的前行路徑，大幅提高準確率。

對一般用戶而言，啟示很清楚： 在提示中提供越具體、資訊越豐富的上下文，或把任務分解得越細，就越能把 LLM 約束在其流形上的低熵路徑（更可預測、更準確）。

見解三：LLM 是優秀的探索者，但無法發現新大陸

如果 LLM 是精通現有地圖的導航者，那麼 AGI 應該是什麼？

Misra 提出了一個極高標準：AGI 的能力是「創造新的流形」，也就是繪製全新的地圖，而不僅是在已知地圖上導航。這意味著 AGI 必須能創造出全新的科學理論、數學分支或思想範式。

他進一步指出，LLM 的所有產出，都是其訓練資料的「歸納閉包」（inductive closure）——本文中所謂「知識地圖」邊界的正式名稱。亦即，LLM 極擅長連接地圖上已知的知識點、找出最佳路徑，但無法創造出地圖之外的全新知識點。

為了強化這個觀點，Misra 舉了愛因斯坦的例子：

「任何一個在 1915 年前的物理學資料上訓練的 LLM，永遠不可能提出相對論。愛因斯坦必須否定牛頓物理學，提出時空連續體的概念，他完全重寫了規則。當我們能夠創造新科學、新成果、新數學時，AGI 才會出現。」

總結來說，當前的 LLM 無法透過遞迴式自我改進來產生真正的新知識，因為資訊從未離開過最初由訓練資料所劃定的地圖邊界。它們或許能解出極其困難的數學競賽題目，但不會發明全新的數學分支。

Misra 強調： 「一個只學習了古典物理學的 LLM，永遠不可能想出量子力學。」

見解四：AI 進展正在趨緩，單靠更多資料無法通往 AGI

許多人認為，只要不斷投入更多資料和算力，LLM 最終就能進化成 AGI。但 Misra 提出反對意見。他指出，LLM 的發展好比 iPhone 的迭代：「第一代 iPhone 的問世是革命性的……近年更新多半是相機更好、記憶體更大等漸進式改良，核心能力並未根本改變。」

為何「更多資料與算力」並非萬靈丹？依據流形理論，增加資料只會讓現有的「知識地圖」更平滑、更精細、解析度更高，但終究無法幫助模型發現一個全新的、不在地圖上的大陸。

Misra 與 Casado 進一步闡述，即便賦予 LLM「眼睛與耳朵」，讓它從現實世界持續學習，也無法改變上述本質。因為用來訓練初始模型的資料量過於天文，任何後續的增量數據都只是滄海一粟，無法演化或創造出全新的流形。

這個觀點為當前 AI 發展的「規模論」提供了重要反思（編按：即認為只要不斷擴大模型規模、訓練資料與運算能力，就能實現 AGI 的主張）。

Misra 的意思是，要達到 AGI，所需的可能不是規模的無限擴張，而是一場「架構上的躍進」（architectural leap），例如讓 AI 真正模擬人類思考，而不僅僅是語言處理。

見解五：鑽研 Prompt 稱不上是一種工程

此外，Misra 在訪談中表示，認為鑽研 Prompt 稱不上是一種工程。他主張「提示工程」（prompt engineering）這個術語是誤稱，因為「工程」一詞在過去代表極高標準的成就——工程學曾意味著把人類送上月球。

而所謂的提示工程，其實只是東改西改的「提示撥弄」（prompt twiddling）：針對提示詞進行調整或修改，以觀察模型輸出（推論）的變化。

他直言，目前的 AI 社群中存在過多的經驗主義（empiricism），而「提示工程」正是其體現。現在有數百篇論文以不同方式改變 Prompt、進行實驗，然後寫下觀察結果。由於人們不理解 LLM 系統如何運作，只能不斷測量與試驗，導致大量此類經驗性工作（empirical work）的產生。

因此，在他看來，這種缺乏嚴謹理論與模型支撐、僅依靠反覆試驗來調整輸入以改變輸出的做法，不應被冠以「工程」之名。

結論：AI 現階段仍是昂貴的知識骰子機，AGI 還早

總結來說，Misra 的觀點提供了一個清晰且統一的框架：LLM 是基於龐大訓練資料進行貝氏推論的強大工具，是知識的導航者，能在人類已知的知識地圖上高效探索與連接；但其能力有由「歸納閉包」所定義的明確邊界，並非直通 AGI 的康莊大道。

需要強調的是，這並非貶低 LLM 的價值——它們正以前所未有的方式提升生產力。但理解其根本限制，能幫助我們更理性地看待 AI 的未來。

延伸閱讀：Gemini、ChatGPT、Perplexity免費版哪個好用？5大常用AI工具特色、適用情境完整整理
 可以瑟瑟！OpenAI將開放「成人版ChatGPT」解禁鹹濕對話，最快12月上線對尬Grok

資料來源：a16z

本文初稿為AI編撰，整理．編輯/ 李先泰