華為旗下的盤古大模型近日捲入一場震撼中國AI業界的抄襲爭議。2025年6月底,華為正式開源其盤古AI模型,聲稱為完全自主研發, 但隨即遭到匿名研究團隊HonestAGI指控涉嫌抄襲阿里巴巴的通義千問模型。
這起事件不僅引發技術層面的激烈辯論,更有華為內部員工匿名爆料,揭露模型開發過程中的「套殼」行為,並發布「不自殺聲明」,將爭議推向高峰。
而被指控抄襲的華為「諾亞方舟實驗室」,則於7月5日下午迅速發布聲明,強調盤古Pro MoE開源模型是基於昇騰硬體平台開發、訓練的基礎大模型,並非基於其他廠商模型增量訓練而來。
這場席捲中國AI界的抄襲事件,究竟有何來龍去脈?
HonestAGI的報告說了什麼?
2025年7月4日,一個名為HonestAGI的匿名研究團隊在GitHub發布技術報告,使用「模型指紋」技術分析華為盤古Pro MoE模型與阿里巴巴通義千問Qwen-2.5 14B模型的相似度。 該研究發現,兩個模型在注意力參數分布上的平均相關性高達0.927,遠超業界認為正常的0.7閾值。
HonestAGI團隊指出,深度學習模型的訓練具有高度隨機性,涉及複雜的數據採樣、權重初始化及優化路徑, 兩個模型在眾多注意力參數上呈現近乎一致的分布,其自然發生的概率極低。 更令人質疑的是,研究人員在盤古模型的開源代碼中發現了標注「Copyright 2024 The Qwen team, Alibaba Group」的版權聲明。
根據《新浪財經》報導,HonestAGI提出的「模型指紋」是一種通過分析各層注意力參數(Q、K、V、O投影矩陣)的標準差形成特徵簽名的技術。該方法具備三個特徵: 穩健性(Robustness,能在大量持續訓練後保留)、內在性(由模型架構自然產生)、以及簡單性(僅需對參數矩陣使用torch.std()計算)。
研究結果顯示,盤古模型與Qwen2.5-14B在QKV偏置分析中呈現幾乎相同的模式,早期層出現特徵性峰值後收斂,而這個設計被認為是Qwen 1-2.5代獨有的特色。
若要用比喻解釋「特徵性峰值後收斂」的意思, 這就像是兩個人的心電圖顯示出幾乎一模一樣的波形模式,幾乎不太可能。而如果兩種模型都出現這種特色,可合理懷疑是否有抄襲的情況。
注意力參數(Q、K、V)是什麼?
在深度學習中,特別是Transformer架構的AI模型裡,有一個叫做「注意力機制」的關鍵技術。這個機制使用三個重要組件:
- Q(Query,查詢):就像你在搜尋引擎中輸入的關鍵字。
- K(Key,鍵值):就像資料庫中用來匹配的索引。
- V(Value,數值):就像搜尋後得到的實際內容。
用一個簡單的比喻: 當你在網路上搜尋「晚餐食譜」時,「晚餐食譜」就是Q(你的查詢),網站上各種菜單的標籤就是K(鍵值),而實際的食譜內容就是V(數值)。
一篇6000字長文附「不自殺聲明」,讓抄襲說延燒全網
2025年7月6日凌晨,一名自稱華為諾亞方舟實驗室員工的匿名人士在GitHub發表題為《盤古之殤:華為諾亞盤古大模型研發歷程的心酸與黑暗》的6000多字長文。這位爆料者詳細披露了盤古大模型開發過程中的內部問題。
爆料者指出,當華為盤古與千問等國內競爭對手的差距越來越大時,由於內部質疑聲和領導壓力增大,團隊狀態幾乎陷入絕境。在這種情況下, 實驗室主任王雲鶴出手,通過「套殼」方式瞬間將各項指標平均提升了10個點左右。
根據原文,王云鶴及其小模型實驗室聲稱,盤古大模型135B V2是基於舊有的135B參數進行改造,並通過少量數據訓練,實現了指標的大幅提升。 然而,內部分析發現,實際上這個模型是以Qwen 1.5 110B為基礎進行續訓,並在此基礎上加層、擴展FFN維度,並加入盤古論文中的部分機制,最終湊足了135B的參數規模。
此外,這個新模型的層數、配置與舊版135B並不一致,且訓練完成後的參數分布與Qwen 110B極為相似,甚至連模型代碼的類名都未更改,仍為Qwen。這個所謂的135B V2模型後來還被提供給多個下游部門及外部客戶。
整體來看,文章揭示了華為內部在模型研發過程中存在將外部開源模型「套殼」後對外宣稱為自研成果的現象。
這位匿名爆料者在文末發布了引人注目的「不自殺聲明」,寫道:「寫了這麼多,某些人一定想把我找出來,抹殺掉。公司搞不好也想讓我噤聲乃至追責。如果真的這樣,我,甚至我的家人的人身乃至生命安全可能都會受到威脅。」
爆料者表示:「如果我消失了,就當是我為了真理和理想,為了華為乃至中國能夠更好地發展算力和AI而犧牲了吧」,並承諾會每日對外報平安以此自保。
華為官方回應:堅決否認抄襲指控
面對洶湧的質疑聲浪,華為旗下負責盤古大模型研發的諾亞方舟實驗室於7月5日下午迅速發布聲明。聲明強調盤古Pro MoE開源模型是基於昇騰硬體平台開發、訓練的基礎大模型,並非基於其他廠商模型增量訓練而來。
華為方面指出,盤古Pro MoE在架構設計、技術特性等方面做了關鍵創新,是全球首個面向昇騰硬體平台設計的同規格混合專家模型,創新性地提出了分組混合專家模型(MoGE)架構。實驗室還強調,開發團隊嚴格遵守開源許可證要求,在源代碼文件中清晰標註開源代碼的版權聲明。
華為方面質疑HonestAGI的「模型指紋」方法過於簡單粗暴,存在選擇性挑選數據的空間,且使用參數標準差來判定模型相似度並不科學。華為認為,相同參數量的MoE模型可能因架構約束產生相似曲線,不能僅憑相似曲線判定抄襲。
此外,華為強調該公司有足夠算力重新訓練大模型,沒必要套用Qwen的參數,並指出HonestAGI的研究缺乏大規模基準測試,核心假設缺乏權威文獻支撐。
資料來源:新浪財經、盘古之殇、HonestyAGI、諾亞方舟實驗室
責任編輯:李先泰