在人工智慧的狂熱浪潮中,為何許多看似驚人的突破,距離實際應用仍然遙遠?
前特斯拉 AI 總監、OpenAI 科學家 Andrej Karpathy 具備深厚的工程經驗,也是「氛圍編碼」(Vibe Coding)一詞的提出者,他近期在一場 Podcast 訪談中吐露「大實話」。
Karpathy 直言,當前 AI 產業瀰漫過度樂觀的情緒,甚至可以說在進展上「跨出太大一步」,試圖假裝 AI 代理人技術已經非常厲害,但實際上仍有許多不足,而業界卻不願正視這些缺陷, 「其中很大一部分,老實說,就是為了融資。」
他指出, 許多對 AI 爆炸性發展的預測(例如 AI 將迅速自動化 AI 工程與研究)正是基於對 Vibe Coding/Agents 能力的過度高估。 他認為,若要編寫實際的生產級(production-grade)程式碼,錯誤所帶來的風險極高(例如自動駕駛),因此需要經歷「九」的艱辛行軍(a march of nines),不斷提升可靠性。
舉例而言,台灣近期發生一位 Vibe Coding 講師在備課時未妥善保護 API key,導致在 Google AI Studio 發生超額扣款的翻車事件;這凸顯 Vibe Coding 的低門檻容易忽略「帳務控管、資安、程式邏輯審核」等基本防線,也揭示了當前 AI 的能力仍有清晰可見的天花板。
以下將逐一解析 Karpathy 在 Dwarkesh Patel 的 Podcast 節目中所提到的 AI 產業洞見:究竟目前業界頻頻高喊的「生產力 10 倍」、「AI First」等口號,是真金白銀,還是畫大餅?
洞見1:我們正處於「AI代理人10年」,而非「元年」
Karpathy 指出,當前 AI 領域普遍瀰漫對「代理
人元年」(the year of agents)的興奮情緒,認為能夠自主執行任務的 AI 代理人已近在眼前。然而,他所謂的「代理人的十年」(the decade of agents),正是對此種過度樂觀預測的直接回應。
他認為,打造一個能像人類實習生一樣工作的 AI「智慧體」(agent),是一項長達十年的艱鉅任務,絕非一年內可以實現。他將一個真正有用的智慧體定義為:可以像聘請實習生或員工一樣僱用的對象。
而當前的 AI,仍無法放心地將重要工作交給它們,因為其智慧、多模態感知能力都遠遠不足,更缺乏在現實世界中穩定執行任務的可靠性。你無法只告訴它們一件事,就期望它們永遠記得(缺乏持續學習能力)。
Karpathy 更提出犀利反問: 「如果 AI 已經可以取代人類,那麼你(指公司)今天為什麼不這麼做?原因就是它(指 AI 取代人類)根本行不通!」
洞見2:我們在召喚「幽靈」,而非打造「動物」
AI 的發展常被類比為生物演化,但 Karpathy 提出更深刻也更奇特的比喻:我們並不是透過物理演化打造一種類似斑馬(出生幾分鐘就能奔跑)的「動物」,因為動物的許多能力是深植於硬體中的天賦。相反地,我們是在「召喚幽靈」。
他解釋,AI 是一種完全數位的「精神實體」,其智慧並非源自物理世界的演化壓力,而是透過模仿網路上龐大的人類數據而生。這意味著 AI 的智慧本質是一種模仿——人類思想與行為模式的數位倒影。這種差異決定了 AI 的能力與侷限。
「我們實際上不是在打造動物,我們在打造幽靈。這些像是飄渺的精神實體,因為它們完全是數位的,並且有點像在模仿人類,這是一種不同類型的智慧。」Karpathy 說。
這種「幽靈」的本質也從根本上影響了 AI 的學習方式,使其與人類學習有著天壤之別。這個區別告誡我們,不應將 AI 的學習與動物或人類的學習直接類比。AI 智慧的發展規則與路徑,可能完全超乎人類想像。
洞見3:現行的強化學習「非常糟糕」
自 AlphaGo 擊敗世界棋王後,強化學習(Reinforcement Learning, RL)被許多人視為通往更高等智慧的關鍵路徑。然而,Karpathy 直言,現行的 RL 方法「非常糟糕」。但他隨即補充:「只是剛好我們以前擁有的一切都比它糟糕得多。」
他將 RL 的學習過程比喻為「透過吸管吸取監督訊號」(sucking supervision through a straw)。這個比喻精準描繪了 RL 的核心缺陷:假設一個模型要解決數學問題,它會嘗試數百種不同路徑。最終,RL 只會根據答案是否正確(單一獎勵訊號),來獎勵或懲罰整個行為序列中的每一步。
這種方法充滿雜訊且效率低落,因為即便在最終成功的路徑上,許多錯誤步驟與繞遠路,也都會因為最後的好結果而被錯誤強化。 相比之下,人類在解題後會覆盤反思,分析哪些步驟是關鍵、哪些是多餘的,而不是像 RL 那樣盲目增強整個路徑。
洞見4:AI真正的目標是「認知核心」,而非知識本身
人們普遍認為,大型語言模型的力量來自其從網路上學到的龐大知識庫。但 Karpathy 提出反直覺的觀點:在預訓練過程中,模型同時學到了兩件事: (1)來自網路的「知識」,以及(2)解決問題的演算法與策略,他稱之為「認知核心」(cognitive core)。
他認為,龐大「知識」反而是一種負擔。它讓模型過度依賴記憶,難以處理超出訓練數據範圍的新問題,就像一個只會背誦課本的學生,卻無法應對靈活考題。這種依賴不僅阻礙泛化能力,也使模型輸出重複、缺乏創意,進而導致「模型崩潰」的關鍵。
理想的未來方向是,找到方法剝離具體知識,只保留純粹、可用於解題的「認知核心」,讓模型學會「如何思考」,而不是「記得什麼」。然而,要將這個理想的「認知核心」與能在現實世界運作的產品連結,則揭示了另一個殘酷的工程現實。
洞見5:有了 AI 後,可能只是「一切照舊」
科技圈常見的現象是,一個驚豔的展示(demo)往往引發過度樂觀的預期。Karpathy 在特斯拉自動駕駛的經驗,為整個 AI 產業提供了一課。他提出「九」的艱辛行軍(march of nines),揭示從展示到可靠產品之間的巨大鴻溝。
他解釋,將系統成功率從 90% 提升到 99%,再到 99.9%,每推進一個「9」,所需付出都相同甚至更大。這條「最後的百分之一」的道路,往往不是最後一步,而是占據整個專案一半以上的時間與資源。
因此,許多人預期通用人工智慧(AGI)將帶來經濟的「奇點」或爆炸性增長,但 Karpathy 認為,AI 只是數百年來計算與自動化趨勢的自然延伸,而非全新的斷裂式事件。
他指出,我們早已身處一場「智慧爆炸」(intelligence explosion)之中,AI 只是這條長期指數曲線上的一部分。因此,我們無法在 GDP 數據中找到由「AI」引發的突變點,就像我們找不到「電腦」或「網路」的突變點一樣。技術的擴散多是緩慢且漸進,最終融入經濟的平滑增長曲線。
關於 AI 領域會出現遞迴式自我改進(recursively self-improvement)的說法,Karpathy 認為這也是「一切照舊」。工程師使用 LLM 更有效率地建構下一代 LLM,與工程師使用 Google 搜尋或 IDE 提升效率沒有本質不同,都只是加速了整體進程。
他批判業界對 AI 發展的過度預測,尤其是不切實際的快速時間表。他對「不連續的跳躍」(discrete jump)的假設表示懷疑。
洞見6:Vibe Coding被高估,當前AI在「原創」沒太大幫助
儘管 AI 在編寫樣板程式碼(boilerplate code)上表現出色,但 Karpathy 在建構 nanochat 這個高度原創的專案時,卻發現 AI 代理人的幫助非常有限。原因在於 AI 傾向遵循網路上最常見的模式,無法理解其專案中的獨特架構與假設。
例如,當他為 nanochat 撰寫客製化的梯度同步程序時,AI 不斷強迫他使用標準的 PyTorch DDP 容器,只因為那是網路上最常見的模式,完全無法理解他客製化方案背後的深層意圖。此外,AI 還會過度防禦,添加不必要的複雜程式碼,並常常誤解開發者的策略。
Karpathy 認為,對於高度原創、智力密集的任務,目前 AI 的最佳定位是「自動完成」(autocomplete),而非「專案代理人」(agent)。同時,人類架構師的角色依然重要,要負責定義問題、設計藍圖。
Karpathy的結論是,雖然 Vibe Coding 在某些特定、非關鍵的任務中(如生成報告或使用不熟悉的語言)是有用的工具,但整體而言,業界對其取代複雜、智慧密集型程式設計的能力是被高估了。
洞見7:「模型崩潰」的風險
AI 領域對使用「合成數據」(AI 生成的數據)來訓練下一代模型抱持樂觀期待。但 Karpathy 提出嚴峻警告:模型的輸出正「默默地崩潰」(silently collapsed)。例如,試著請 ChatGPT 說個笑話,你會發現它反覆只產生少數常見類型,這就是一個絕佳例子。
這意味著 AI 生成的內容雖然看似合理,但在統計上極度缺乏多樣性,只佔所有可能輸出的極小空間。若持續用這種貧乏的數據進行訓練,模型會越來越同質化,最終導致能力衰退,陷入自我迴圈。
Karpathy 指出,這類似人類隨著年齡增長,思想會變得僵化;而兒童之所以充滿創造力,正因其思維尚未「崩潰」。因此,如何讓 AI 在學習時保持彈性,是解決模型崩潰的根本挑戰。
結語:與其FOMO,不如專注眼前挑戰
最後,Karpathy 並非 AI 悲觀論者,而是植根於工程現實的「務實樂觀主義者」。正如他所說:「我其實很樂觀,我認為這行得通……而我聽起來悲觀,只是因為當我打開我的 Twitter 時,常常看到一些毫無意義的東西。」
他的論述是:與其追逐 AI 熱潮與焦慮(FOMO),不如將精力集中在當前的實際挑戰與紮實基礎工作上。像工程師那樣,專注於克服技術缺陷,透過親手編寫程式碼來獲取真正的知識。
資料來源:Dwarkesh Patel
本文初稿為AI編撰,整理.編輯/ 李先泰