不同語言不同價,AI鴻溝出現了?英文訓練成本最便宜,中文費用要貴2倍!
不同語言不同價,AI鴻溝出現了?英文訓練成本最便宜,中文費用要貴2倍!

如今的大型語言模型(LLM)可以理解世界上很多語言,甚至是一些記載較少的語言。不過,大型模型處理不同語言之間時,其性能上存在很大的差異,這是由於模型成本與其所訓練的語言緊密掛鉤。

牛津大學最近進行的一項研究顯示,從諸多語言模型的計費方式看,英語的輸入和輸出比其他語言的輸入和輸出要便宜得多。例如,西班牙語的成本約為英語的1.5倍,簡體中文的價格約為2倍以上,緬甸撣語在15倍以上。

標記化導致成本差異,漢語輸出費用為英語2倍

成本的差異也間接導致英語使用者和世界其他語言使用者之間形成AI鴻溝。

成本差異主要是因數據標記化所帶來的。標記化就是將訓練文本分解成更小的單元,這個更小的單元就是標記(Token)。這是一個人工智慧(AI)公司將用戶輸入轉換為計算成本的過程。

研究顯示,使用英語以外的語言訪問和訓練模型的成本都更高。例如中文,無論是在語法上還是在字符數量上,都有更複雜的結構,從而導致更高的標記化(Token)率。

英語成本效益最高

舉例來看,基於OpenAI公司的GPT2模型,對於「國家不同,所得稅的結構是不同的,稅率和稅率等級也有很大的差異」這句話來看,在簡體中文處理中運用到了66個Token,在英語處理中僅用到了24個Token,而在撣語處理中使用到了468個Token。

就每次輸出所需的費用而言,漢語的成本是英語的兩倍。所以在AI相關的費用中,英語的成本效益是最高的。

當涉及到語言模型時,設計者的主要目標是實現低成本和高效功能之間的平衡。隨著AI領域的不斷發展,科技公司必須仔細考慮語言選擇對成本和可訪問性的影響。

這種成本差異促使中國、印度等國家紛紛開發自己的母語LLM項目。

本文授權轉載自:網易科技

責任編輯:蘇祐萱

關鍵字: #AI

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓