1953 年,一個名叫 Henry Molaison 的年輕人在美國康乃狄克州接受一場手術。為了治療嚴重的癲癇,外科醫生切除了他大腦中一個叫做「海馬迴」的區域。手術後,Henry 的癲癇確實改善了,但他卻永遠失去了形成新長期記憶的能力。他可以記得手術前的往事,可以進行正常對話,但只要你離開房間五分鐘再回來,他會完全不記得剛才才見過你。
每天早上,Henry 醒來時都不記得昨天發生了什麼。他的醫生每次來訪,對 Henry 來說都像是第一次見面。他能順暢地談論童年往事,能記得 1950 年以前的一切,但手術之後的世界對他來說永遠是陌生的。神經科學家稱這種症狀為「前向失憶症(Anteragrade Amnesia)」:你能保留舊記憶,卻無法鞏固新記憶。
名導演 Christopher Nolan 在 2000 年時拍過一部非常有名的電影「記憶拼圖 (Memento)」,就是受了 Henry 這個案例的啟發,電影中的主角 Leonard 因為腦部受傷,患有嚴重的前向失憶症。他記得受傷前自己是保險調查員,記得妻子被殺,但他無法記住受傷後發生的任何新事物。為了復仇,他必須依賴拍立得照片、字條,甚至將關鍵線索刺在自己身上,因為每天醒來他的人生就像是重啟一樣,完全不記得昨天的任何事情。
而在 Henry 被切除海馬迴的 70 多年後的現在,Google 的研究人員在觀察大型語言模型時,發現現在的 AI 也有同樣的毛病。而且因此在 AI 的發展上找到一個非常有機會帶來巨大突破的新方向「Nested Learning (嵌套學習)」,目的是為了讓 AI 不再遺忘剛剛發生過的事情,並且發表了一篇最近相當受矚目的論文。
你可能馬上會說:「等等,我每天用 ChatGPT 和 Gemini,它們明明記得我的偏好啊!上次我說我吃素,今天它推薦餐廳時就會避開肉食選項。這不就是記憶嗎?」
沒錯,但這裡有一個主要的差異,也是這篇論文想要解決的主要問題。
AI的記憶功能有什麼問題?
現在 AI 產品的「記憶功能」,本質上是一種外掛的筆記本系統、借助外力。當你告訴 Gemini 你吃素,系統會把這個資訊寫在一個外部的資料庫裡。下次你開啟對話,系統會先去翻閱這個筆記本,把相關資訊塞進對話的開頭,讓模型「裝熟」記得你,但模型本身其實根本什麼都沒學會。
這就像是你有一個不誠懇的朋友,並不想跟你變熟,他每次跟你碰面前都會先看一遍你們以前的聊天記錄,然後假裝記得你們的對話。從你的角度看,他「記得」你們的互動沒錯,但從他大腦的角度看,他每次見你都好像是第一次,只是他很擅長快速翻閱筆記本罷了。
真正的學習應該是什麼?是你的神經連結改變了,你的大腦物理結構因為這段經歷而重組了。下次遇到類似情況,你不需要「回想」當時的對話,你的直覺反應本身就已經改變了,不用去翻筆記本。
這就是論文標題所說的「錯覺」:我們以為深度學習模型在「學習」,但預訓練完成後,模型的參數就凍結了。它不再學習,只是在執行。所有看起來像「記憶」的功能,都是透過外部系統在對話開始時餵給它的提示文字。這就像一個失憶症患者依賴紙條來提醒自己,而不是真的記得。
論文作者指出,大型語言模型有兩種截然不同的記憶系統。一種是「長期記憶」,儲存在訓練時學到的數十億個參數中,這些知識穩定但幾乎不可能更新(除非重新訓練整個模型)。另一種是「短期記憶」,也就是現在對話的上下文視窗,這些資訊靈活但會在對話結束後消失(或者被儲存到外部筆記本系統,但不會改變模型本身)。
所以,模型無法把短期記憶「鞏固」成長期記憶,無法從經驗中真正學習並改變自己的行為模式。
就跟一個圖書館員一樣,他對館裡的每一本書都瞭若指掌(長期記憶),也能記住你剛才提到的書名(短期記憶),甚至他會有一本筆記本記錄著「這個讀者喜歡科幻小說」(外掛記憶系統)。
但他永遠無法真正理解你的品味如何演變,無法內化你們多次互動中逐漸形成的默契。每一次的對話,對這個圖書館員來說都沒有留下任何痕跡。
這個問題始終無法獲得真正解決。如果想讓模型真正「學習」新知識,就必須重新訓練,而重新訓練是非常昂貴的一件事情。
有些懂一點 AI 技術的讀者可能馬上會說:「等等,我聽說過 LoRA 這種技術,不就是可以只更新一小部分參數,成本不是很低嗎?」
的確,LoRA(Low-Rank Adaptation)和其他類似的參數微調方法(像 QLoRA、Adapter)確實大幅降低了微調的成本。你不需要更新整個模型的數十億參數,只需要訓練幾百萬個額外的參數就能讓模型適應新任務。從技術角度來說,這真的是有幫助。
但 LoRA 解決的是「如何更便宜地進行一次性更新」,而不是如何「持續學習」,簡單來說就是整件事情沒有辦法高度自動化。你仍然需要手動收集一批訓練數據,決定什麼時候進行微調,執行微調流程,但一旦微調完成後,參數又再次凍結了。
所以,LoRA 並沒有解決 AI 遺忘的問題。而且,當你用新數據微調模型時,它可能會忘記部分舊知識。研究人員需要小心設計微調策略,在學習新知識和保留舊知識之間找到一個平衡。
Nested Learning (嵌套學習)是什麼?為什麼可以解決AI的問題?
Nested Learning 想要挑戰的是完全不同的東西:一個在運作時就能不斷自我優化的系統。不需要你手動收集數據、不需要你決定何時微調、不需要暫停服務來更新模型。AI 就在與你對話的過程中,自然逐漸地調整自己的內部結構,就像人腦在每一次對話互動之後都在微調腦袋中的神經連結。
這就是為什麼論文說現有的深度學習模型就像是 Henry,即使有了 LoRA 這樣的工具,模型仍然無法在日常運作中自動鞏固記憶。它們需要外部的干預來更新,而不是自己完成記憶鞏固的過程。
神經科學家老早就發現,人類的記憶鞏固是一個非常巧妙的多階段過程。你學習新資訊時,海馬迴會快速記錄下來,這個過程發生在你清醒的狀態下,可能只需要幾秒鐘,被稱為「突觸鞏固」。之後在你睡覺時,海馬迴會重播白天的經歷,這些記憶痕跡慢慢轉移到大腦皮層,變成更穩定的長期記憶,這個過程叫「系統鞏固」。
而這個過程不是單一頻率。腦電波的研究顯示,大腦中存在著多個時間尺度的節奏:Delta 波(0.5-4 Hz)非常緩慢,出現在深度睡眠時;Alpha 波(8-13 Hz)出現在放鬆狀態;Gamma 波(30-100 Hz)則極為快速,與注意力和意識相關。這些不同頻率的腦波相互協調,共同完成複雜的認知任務。所以不好好睡覺,是真的會變笨。
Google 的研究團隊從這個觀察中得到靈感。他們提出了一個類比人腦的想法:如果我們把 AI 的類神經網路設計成一個這樣多層級的、一層套一層的學習系統,每個層級有自己的更新頻率,就像大腦中的不同腦波,會怎麼樣?
這就是 Nested Learning (嵌套學習)。
這篇論文提出的技術,就是按照這樣子的想法來設計 AI 系統,總之就是模擬人腦的運作方式來設計 AI 的記憶系統。
但這篇論文,還提出了一些更為深入的對於既有深度學習的看法,指出當我們以人腦的運作去類比和研究現有大家已經用到爛的類神經網路架構時,我們對 AI 基礎架構的理解其實還停留在相當膚淺的階段,類神經網路和現在大家慣用的 AI 訓練演算法當中,竟然藏了不少我們之前沒發現到的事情。
這個洞察相當有可能在未來實現通用型人工智慧(AGI)的路上,開出一條嶄新的道路。不過這篇文章下半部的內容稍微燒腦一點,還請大家耐心閱讀,對技術沒這麼有興趣的讀者,這次我就不阻止你左轉了。你也可以直接跳到結論就好,完全省略以下的部分。
我們談論深度學習時,腦海中浮現的畫面通常是這樣:資訊從輸入層進入,經過一層層類神經網路的轉換,每一層提取更抽象的特徵,最後在輸出層得到結果。這整個過程是線性而且單向,就像一道水流經過一系列的濾網一樣。
但論文的作者說:這其實是一種錯覺。或者更準確地說,是一種過度簡化的視角。
這裡我能想到最好的比喻,就是交響樂。
你欣賞一場交響樂演出時,傳統的「深度學習」視角就像是只看樂譜上的音符排列。你知道有第一小提琴、第二小提琴、中提琴、大提琴,它們按順序出現在樂譜上。但真實的演奏並不是一個樂器接著一個樂器輪流演奏,不然整場表演還能聽嗎?真實的演奏是所有樂器彼此交織的結構:小提琴每秒演奏數十個音符;而定音鼓幾分鐘才打一次,它們的「更新頻率」完全不同,但卻協調出美妙的和聲。
Nested Learning 指出類神經網路內部也存在這樣的「多頻率協調」。一個看似簡單的「層」,其實內部隱藏著多個以不同速度運作的學習系統。這些系統不但是平行處理資訊,它們之間其實還存在嵌套的關係。像是快速系統的輸出是慢速系統的輸入,慢速系統的參數又影響著快速系統的行為,他們交織在一起,不是你先我後、不是上到下、也不是左到右這種簡單的線性關係。
類神經網路運作的秘密
這就是我們過去幾十年來的 AI 研究都完全忽略的地方,但沒想到它一直都在我們眼前。
舉個具體的例子。我們用「梯度下降法」訓練一個類神經網路時,傳統的理解是:算出誤差,算出梯度,更新權重,周而復始。但如果加上「動量」(momentum)這個技巧(這是幾乎所有現代優化器都使用的標準配置),事情就變得微妙了。
動量機制會記住過去幾步的梯度方向,讓參數更新更平滑。論文作者發現:這個「動量項」本身就是一個學習系統!它在「學習」如何壓縮和記憶梯度資訊。更具體地說,動量項是一個「關聯記憶」模組,它試圖找到一種方式,把複雜的梯度序列壓縮成一個簡潔的表示。
這表示什麼?當你用「帶動量的梯度下降」訓練模型時,你實際上在解一個兩層的嵌套優化問題:外層優化模型的權重,內層優化動量項本身。而且這兩層的「時間尺度」不同。動量項在每個訓練步都更新(快),而模型權重的更新受到動量的調節(相對慢)。
如果我們使用更複雜的優化器,比如 Adam,嵌套的層級會更深。Adam 不僅有動量,還有「自適應學習率」機制,它會記住每個參數過去梯度的平方和,這又是另一個學習系統。論文證明,Adam 其實是一個三層嵌套的優化過程。
但故事還沒結束。如果我們不只看優化器,還看模型架構本身,嵌套會變得更加複雜。
Transformer 模型的核心是「注意力機制」(Attention),這個機制讓 AI 能夠在處理一個詞時,參考句子中的其他詞。但沒想到,注意力機制本身也可以被理解為一個學習系統。
論文中有一個很漂亮的數學推導:線性注意力(Linear Attention)的更新過程,在數學上等價於用梯度下降法優化一個「關聯記憶」問題。具體來說,當模型讀到一個新的 token 時,它是在更新一個記憶矩陣 M,這個更新過程可以寫成:
「找到一個新的 M,使得 M 能夠把現在的 key 映射到對應的 value,同時不要偏離之前的 M 太多」
這正是梯度下降的邏輯!而且這個更新在每個 token 都發生,所以它的頻率極高。
到了這邊,我們把之前談到的所有部分組合起來:一個用 Adam 優化器訓練的 Transformer 模型,內部至少有四個嵌套的學習系統,它們以不同的頻率更新。最快的是注意力機制的記憶矩陣(每個 token);然後是 Adam 的一階動量(每個訓練步);再然後是 Adam 的二階動量(每個訓練步,但用不同的時間尺度);最慢的是模型的權重矩陣(在預訓練時更新,部署之後就幾乎凍結了)。
這個嵌套結構,才是深度學習真正的「深度」所在。不是網路層的堆疊深度,而是學習系統的嵌套深度。
這個洞察等於很大程度解開了類神經網路到底為什麼這麼有用的祕密,否則一直以來,我們只知道深度學習有用,但真的不太知道為什麼這麼有用。
讓AI擁有長記憶力的三個優化實驗
得到這個洞察後,研究團隊開始思考:如果深度學習的本質是多時間尺度的嵌套學習系統,那我們能不能有意識地設計更強大的嵌套結構?他們提出了三個具體的創新,每一個都像是在交響樂團中加入新的樂器,讓整體的和聲更加豐富。
讓動量項能更活、捕捉更複雜的梯度演化模式
第一個實驗是改善 AI 的其中一個優化步驟:既然動量項本質上是在學習如何壓縮梯度資訊,那為什麼要把它限制為簡單的線性函數?
傳統的動量就像一個學生用螢光筆畫重點。他只能在書上畫線,標記「這裡重要」、「那裡重要」。但研究團隊提出:為什麼不讓這個學生寫筆記本?不只是畫線,還能寫下「為什麼重要」、「和前面哪個概念有關」、「上次也遇到類似的問題」。
具體來說,他們用一個多層類神經網路取代了傳統的動量項。這個「深度動量」(Deep Momentum)能夠捕捉更複雜的梯度演化模式。更進一步,他們還改進了內部的學習目標,從簡單的點積(dot product)相似度改為更強大的 L2 迴歸損失,這讓動量項能夠更精確地記住梯度序列,而不是只記住一個大致的方向。
利用「元學習器」,讓模型學會自我調整
第二個實驗是讓模型學會自我調整:傳統的類神經網路有固定的「投影矩陣」,但這些矩陣在預訓練 AI 時學習,到了部署後就凍結了。
這就像是你在和不同的人對話時,能夠動態調整你的溝通方式。和老闆說話時用正式的語氣,和朋友聊天時更隨意,和小孩解釋時用更簡單的詞彙。這不是事先學會了「對老闆的說話方式」、「對朋友的說話方式」這些固定模板,而是你有一種能力,能夠根據當下的對話氛圍,即時調整你的表達策略。
論文提出的「Self-Modifying Titans」就是要賦予模型這種能力。模型不設定固定的投影矩陣,而是用一個「元學習器(meta learning)」,它根據現在的輸入序列,即時生出最適合的投影矩陣。
具體的場景就是當你在用 AI 助手處理工作郵件。早上你寫的是給客戶的正式提案,措辭嚴謹、邏輯清晰。下午你在給團隊成員發 Slack 訊息,語氣輕鬆、直接了當。傳統的 AI 需要你明確告訴它「現在用正式語氣」或「現在用輕鬆語氣」。但有了 Self-Modifying Titans,AI 能從你正在寫的內容中,自動判斷現在的溝通情境,並調整自己的「理解方式」和「回應風格」。
而且這種自我調整不僅僅發生在語氣層面。如果你在和 AI 討論一個技術問題,連續幾輪對話都涉及深度學習,AI 會逐漸「進入狀態」,開始用更專業的術語,預期你想要更深入的技術細節。但如果對話突然轉向日常話題,AI 也能快速「切換頻道」。
這種「自我修改」的能力證實是有效的,模型獲得了更強的上下文學習能力。除了能夠記住上下文中的資訊,還能學會「如何更好地記住」這些資訊。這是一種展現後設認知的適應能力,非常像是人類一種高級技巧。
提出「連續記憶系統」,內化新知識
第三個實驗是破除對於記憶二分法的迷思,這是我認為最醍醐灌頂的一個突破,它挑戰了我們對「記憶」的傳統二分法。
我們習慣把記憶分為「長期」和「短期」,就像把音樂分為「快」和「慢」。但實際上,音樂有無數的速度(Largo、Andante、Allegro、Presto),每一種都傳達不同的情感。記憶也應該是一個連續的頻譜。
研究團隊因此提出「Continuum Memory System (連續記憶系統)」,包含多個不同的層,每層負責不同的時間尺度。
假設你正在學日文好了,當你看到一個新單詞,比如「ありがとう(謝謝)」,你的大腦在不同的時間尺度上是怎麼分層次處理這個資訊呢:
在幾秒內,你的工作記憶記住了這個詞的發音(這對應 HOPE 中每個 token 都更新的那一層)。
在幾分鐘內,你開始把它和其他禮貌用語聯繫起來,理解它在對話中的使用場景(這對應每 16 個 token 更新一次的那一層)。
在幾小時內,你可能用這個詞造了幾個句子,開始內化它的語感(這對應每 128 個 token 更新一次的那一層)。
在幾天內,這個詞已經成為你日語詞彙庫的一部分,你不需要刻意回想就能使用(這對應在整個訓練過程中緩慢更新的那一層)。
每個時間尺度都在做同一件事:壓縮資訊,找到模式,更新特徵參數。但它們以不同的節奏進行,最終交織出持續學習的能力。
HOPE 模型就是整合了這三個創新的成果。在語言建模的基準測試中,760M 參數的 HOPE 達到了 46.90% 的平均準確率,而 1.3B 參數版本則達到 57.23%。
你可能會問:這些數字到底代表什麼?
這樣解釋好了,這些測試包含了常識推理任務,比如「如果你把冰塊放在熱湯裡會發生什麼?」準確率從 48% 提升到 57%,意味著模型在回答這類需要常識判斷的問題時,錯誤率下降了約 20%。對於使用者來說,這表示你會更少遇到 AI 給你荒謬答案的情況。
但這裡最重要的是,實驗顯示 HOPE 展現出了初步的持續學習能力。模型能夠在推理時繼續優化自己,而不會忘記預訓練的知識。
而這,就是真的開始解決 AI 的遺忘問題了。
擴展定律告訴我們:要提升模型能力,就要增加參數量、加深網路層數、擴大訓練數據。這個方式超級成功,一直到 GPT-4 為止,每一次暴力的參數擴展都讓 AI 的能力有大進步。
但這個方式已經撞牆:計算成本呈指數增長,訓練時間越來越長,而性能提升的邊際收益卻在遞減。更根本的問題是,單純的 scaling 無法賦予模型「持續學習」的能力。
而 Nested Learning 提出了一個新的方法:不是讓模型更大,而是讓模型有更多「層級」的學習能力。
生物進化史上有一個關鍵轉折點。大約 6 億年前,地球上的生命從單細胞生物進化到多細胞生物。這個轉變的關鍵不在於細胞變大(事實上,大多數多細胞生物的單個細胞並不比單細胞生物的細胞大多少),而在於細胞開始分化,形成組織、器官和系統。
每個系統以不同的時間尺度運作。你的心臟每秒跳動一次,肺部每幾秒呼吸一次,消化系統需要幾小時處理食物,而皮膚細胞的更新週期是幾週。這些不同速度的系統並不是各自為政,而是精密協調。心跳加快時,呼吸也會加快;消化時,血液會更多地流向腸道;運動時,所有系統都會調整到一個新的平衡點。
這種多時間尺度的協調,讓多細胞生物能夠應對複雜多變的環境,能夠在保持穩定的同時靈活適應,能夠從經驗中學習並演化出越來越複雜的行為。
Nested Learning 提出的正是類似的架構:不同層級的學習系統以不同的頻率運作,快速系統負責適應當下,慢速系統負責保持穩定;快速系統提供靈活性,慢速系統提供一致性。它們的張力與協調,正是學習與記憶的本質。
這個視角也得到了神經科學的背書。論文在附錄中詳細討論了大腦皮層的層級結構、不同腦部區域的專門化、多時間尺度的振盪模式,這些都可以在 Nested Learning 框架下獲得統一的解釋。
這不是說 AI 應該簡單地模仿大腦(我們已經知道那不是唯一的智慧形式),而是說,Nested Learning 可能觸及了智慧系統的某種普遍原理,這真的非常令人興奮。
這也是為什麼我個人認為,這個方向相當有可能為接下來的 AI 帶來重大突破,因為整個技術是師法自然。也或許,既然 Google 都把這麼重要的論文放出來了,表示 Gemini 3 已經在採用這個技術、早已經取得了更多領先的進展了也說不定。
不過,寫在最後,Nested Learning 的確開啟了許多新的可能性,但也留下了許多未解的問題。
計算效率是最直接的挑戰。多層嵌套意味著更多的計算圖需要追踪,更多的梯度需要回傳。雖然論文展示了 HOPE 模型的實用性,但在極大規模(比如千億參數)上的可行性仍是未知數。
搞不好我們需要新的硬體架構來支持這種多時間尺度的平行運算。不過換個角度想,如此一來我們 AI 硬體的滋潤生意又可以延續得更久更久了,好像也沒什麼不好?
背後更深的理論也是一個待解的問題。在什麼條件下,增加嵌套層級一定會提升性能?是否存在一個最優的層級數?不同層級之間應該如何分配計算資源?這些問題需要更嚴格的數學分析。
AI 可能很快不再當你是每次對話都需要重新介紹自己的陌生人,而是一個真正「認識」你的夥伴。不是因為它作弊偷查了關於你的基本資料,而是因為你們的每一次互動都會逐漸改變它理解你的方式,AI 真的在自己更新腦袋中的參數來認識你。
它會記得你在討論某個話題時喜歡的深度,會學會你的思考節奏,甚至能預測你接下來可能想探討的方向。這種理解不是儲存在某個「記憶欄位」裡的標籤,而是滲透在它處理你每一句話的方式中。
而且這個 AI 會持續成長,今天你教它一個新概念,明天它不僅記得這個概念,還會在相關的情境中主動運用,甚至發展出新的見解,這就真的很像是人類的學習方式了:舉一反三、觸類旁通。
在擴展定律已經撞牆的現在,AI 的未來幾乎確定不是繼續用力增加模型參數量,而是要打造出能夠在多個時間尺度上自我組織、自我優化、自我進化的學習系統,現在我們終於在這個方向上邁出第一步了。
已經離開 OpenAI 的共同創辦人 Ilya Sutskever 在去年就已經很有遠見提出:擴展定律已死,人類接下來必須回歸到 AI 的基礎研究,找出新的突破方式,現在回頭看真的相當有遠見,而 Google 似乎又很快拔得頭籌了。
回到本文開頭的 Henry。他人生的悲劇在於海馬迴被摘除,切斷了意識經驗與長期記憶之間的橋樑。他永遠活在當下,無法從經驗中累積智慧。
而今天的 AI,其實也面臨類似的困境。它們有強大的「當下處理能力」(推理能力),也有豐富的「舊記憶」(預訓練知識),甚至有外掛的系統來模擬跨對話記憶,但缺少真正連接兩者的機制,那個真的能讓短期經驗逐漸滲透、改變、重塑長期知識結構的機制。
Nested Learning 最重要的進展,就是指出這個連接機制並不是單一的「開關」,而是一種多層的會自我調節的系統。從快速的工作記憶到緩慢的概念學習,從即時的適應到長期的知識整合,每個層級都在做同一件事:壓縮上下文,找出模式,更新特徵參數。但它們是以不同的節奏、在不同的抽象層次上進行,最終就這樣交織出「持續學習」的能力。
不是暴力增加參數量,粗暴的方式大可不必,而是回歸到師法自然,重製一次自然界造出我們人類的巧思。
也許,這就是我們要的 AGI 了。
本文授權轉載自程世嘉Facebook
