DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局
DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局

2025年開年沒多久,中國AI公司DeepSeek(深度求索)發布低成本AI模型DeepSeek,讓全世界都嚇了不小一跳:在受到美國牽制的背景下,這家神秘AI公司究竟是如何利用有限的資源,做出性能不輸OpenAI的AI模型?本篇文章回顧DeepSeek從成立到發布DeepSeek R1的553天,究竟經歷了什麼?

1月13日,彭博資訊(Bloomberg)專欄作家、美國喬治梅森大學經濟學教授柯恩(Tyler Cowen)發表一篇文章,談及中國在拜登政府嚴格禁止AI晶片隊中國出口的環境下,仍然能夠創造出與知名的ChatGPT、Claude等模型不相上下的大語言模型。

柯恩在文章提及「DeepSeek V3」,經過他使用好幾天後,認為這是幾年來他用過的眾多大語言模型(LLM)中,可以名列前茅的LLM。

DeepSeek V3速度快、好用,而且有免費版。雖然在對於精深或困難問題的回應,DeepSeek V3還比不上美國的頂尖LLM,不過柯恩仍然把它列入第一流,包括一些測試人員,很多人也都認為DeepSeek V3表現傑出。

DeepSeek_shutterstock_2577325425.jpg
圖/ shutterstock

DeepSeek-V3這款參數高達6,710億的大語言模型,在預訓練階段(pre-training,指在一個較小的、特定任務的數據集上進行微調fine-tuning之前,先在一個大數據集上訓練模型的過程)只用了55天,使用2048張H800 GPU叢集,費用僅557.6萬美元。這對動輒必須耗資數十億美元訓練大語言模型的美國先進AI公司而言,無異是敲出一記警鐘。

以往開發大語言模型需要龐大的資源,必須購買數量龐大的AI伺服器,建立人數眾多的研發團隊,因此投入資金從數十億美元起跳。

如今大語言模型投入的資源可大幅降低,這將會有更多的公司投入大語言模型的開發,尋求新的商機。

柯恩這篇專欄發表後,市場淡然處之,不知之後「風暴」將起。

DeepSeek開源、便宜、性能佳,讓全球瘋狂下載

1月20日川普就任美國總統,DeepSeek於同一天發布他的推理模型「DeepSeek R1」,這個模型與Open AI的o1的性能相距不遠,互有高下。

DeepSeek R1的使用價格較o1便宜很多,每百萬輸入Token為0.14至0.55美元,而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元,o1每百萬輸出Token為60美元。

DeepSeek R1 與 OpenAI o1成本比較

模型 輸入價格 (每百萬Token) 輸出價格 (每百萬Token)
DeepSeek R1 0.14-0.55美元 2.19美元
o1 7-15美元 60美元

DeepSeek R1開始在全球廣受注意,在很多地區AI類App的下載次數名列前茅,短短數星期,目前累積下載次數超過1,800萬次。

DeepSeek R1、V3皆是開源模型,使用者可自由下載模型,然後安裝在自己的終端設備上,個人電腦加裝高階的圖形顯示卡後,即可將DeepSeek R1或DeepSeek V3安裝在電腦上自己運作。

DeepSeek創辦人「洞燭先機」,3年前就開始研發LLM及採購輝達GPU

DeepSeek是中國AI公司DeepSeek(深度求索)推出的AI模型,背後是一家利用AI進行投資的對沖基金「幻方量化」(High-Flyer)所設立。該公司積極研發機器學習、深度學習等建立AI進行金融操作,共同創辦人是現年40歲的梁文鋒與其2位浙江大學同窗。

幻方量化的AI模型非常成功,因此能在金融市場獲得豐碩的報酬,2022年ChatGPT問世後,梁文鋒應該注意到AI新時代來臨,推想他應該已經在幻方量化公司內開始研發大語言模型,並且採購輝達的GPU。

延伸閱讀:
黃仁勳是DeepSeek暴紅推手?為何輝達寧可「便宜AI」崛起,也不願放棄中國市場?

DeepSeek 553天關鍵布局

2023年7月17日,幻方量化成立DeepSeek,招募100多位博士生、碩士生、大學剛畢業、或畢業一兩年的青年。重點是這些員工是成績名列前茅,並且有在國外知名期刊發表過論文的紀錄。

2023年10月28日,DeepSeek成立僅3個多月,旋即發表DeepSeek-Coder,這是DeepSeek的第一個大語言模型。

1個月後、也就是11月29日,DeepSeek發表DeepSeek-LLM。

2023年12月15日,DeepSeek發表DreamCraft3D,這是一個3D生成模型。

成立短短5個多月,DeepSeek發表4個大語言模型,成就相當驚人。

進入2024年,DeepSeek在技術更加精進,發表出性能更佳的大語言模型。

2024年1月11日,DeepSeek發布DeepSeek-MoE,這是個「混合專家模型」,效能超越Llama 2-7B,且計算量降低60%。

2024年2月5日,DeepSeek發布DeepSeekMath,DeepSeekMath在競賽級「MATH基準」測試中取得了51.7%的優異成績,效能接近Gemini-Ultra和GPT-4的水準。

2024年3月11日,DeepSeek發布DeepSeek-VL。

2024年5月,DeepSeek發布MoE大模型DeepSeek-V2,該模型為開源,不僅公開技術內容,並且可讓大家自由下載模型。DeepSeek-V2的API定價為每百萬Tokens輸入人民幣1元、輸出人民幣2元,價格僅為GPT-4 Turbo的百分之一。

2024年6月17日,DeepSeek發表DeepSeek-Coder-V2。DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。

2024年8月16日,DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。

2024年9月5日,DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。

2024年11月20日,DeepSeek 發布 DeepSeek-R1-Lite,這是DeepSeek第一個推理模型,是DeepSeek-R1的先行版。

2024年12月13日,DeepSeek發布用於高級「多模態理解的專家混合視覺語言模型」DeepSeek-VL2。

2024年12月26日,DeepSeek發布DeepSeek-V3,這也是開源模型。DeepSeek-V3的評測成績超越Qwen2.5-72B和LLaMA 3.1-405B等開源模型。與GPT-4o、Claude 3.5-Sonnet等閉源模型性能相抗衡。

2025年1月20日,發布DeepSeek-R1開源模型,在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

2025年1月27日,發布多模態大模型Janus-Pro

DeepSeek「無懼禁令」,俄羅斯、伊朗也能循DeepSeek模式?

DeepSeek的模型能夠受到西方世界的注意及使用,主要是直接可在線上透過App或網站下載,不像其他中國開發的大語言模型必須與微信等綁定。

DeepSeek在2024年共發布10個大語言模型,最後發表的DeepSeek-V3獲得美國AI產業界的重視,讓大家見識到運算資源受限的中國,也能用相對較少的資金,開發出性能優越的大語言模型。

其他受美國管制AI晶片出口的國家(如俄羅斯、伊朗、巴基斯坦等),或許也能夠循此模式,開發出類似的大語言模型。

DeepSeek.jpg
DeepSeek是由中國對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司,對此獨立科技新聞記者高燦鳴(Tim Culpan)指出,Deepseek的突破性進展,「可歸功於其獨特的量化背景。」
圖/ shutterstock

進入2025年,DeepSeek於1月20日發布DeepSeek-R1模型,這也是開源模型。DeepSeek-R1在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

DeepSeek-R1發布後效應擴大,讓許多人懷疑,將來建立大語言模型時不需要像之前一樣部署大量的GPU,導致1月28日輝達股價大跌17%。

2025年1月27日,DeepSeek發布多模態大模型Janus-Pro。

最後我們談DeepSeek-V3最後一次預訓練僅用55天、2048塊H800 GPU叢集,耗資557.6萬美元。這是DeepSeek-V3最後一次預訓練所使用的資源,實際上DeepSeek的算力資源遠大於此。

根據SemiAnalysis網站的資料,DeepSeek可運用的算力資源有A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU應該是幻方量化在2021年起就開始購買的,推測A100是禁令前購買,H800、H20應該是合法購買,因它們是為中國市場生產的降規版GPU。

這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元,因此DeepSeek雖然開發成本遠低於OpenAI等大咖,但是仍須25.73億美元,可見開發大語言模型是資金與腦力密集的投資。

延伸閱讀:DeepSeek解析2|輝達高階GPU成長因它放緩,「邊緣AI」將加速成長

關鍵字: #AI
往下滑看下一篇文章
影音體驗成行動網路新戰場!Opensignal 揭台灣大哥大奪「雙料冠軍」,連網穩定撐起高負載影音與 AI 協作
影音體驗成行動網路新戰場!Opensignal 揭台灣大哥大奪「雙料冠軍」,連網穩定撐起高負載影音與 AI 協作

現代人手機不離手,通勤時滑短影音、午休追串流影劇、下午開視訊會議,網路影音應用成為工作與生活的普遍情境。然而,一旦畫面卡頓、畫質不穩,或聲畫不同步,使用體驗立刻打折,甚至影響工作效率與專業判斷。

也因此,網路品質不再只是「快不快」的問題,更關乎能否在高使用量的日常情境下,維持穩定、連續的表現;對此,第三方評測也採用更貼近使用者情境的方式衡量網路體感。而 Opensignal 最新報告指出,台灣大哥大在影音體驗相關項目是業界唯一同時拿下「影音體驗」與「5G 影音體驗」雙項獎項的電信商,其中,關鍵的差異是什麼?

為何「影音體驗」是網路品質的關鍵指標?

愈來愈多消費者入手旗艦機,追求的不只是硬體規格,還有流暢的 AI 應用與多工協作。然而,無論是視訊即時翻譯或雲端會議,這些高階功能都有一個共同前提:網路必須穩定。一旦網路品質不佳導致畫質下降或音畫不同步,旗艦級的 AI 功能將形同虛設。

這也意味著,檢驗網路價值的標準已經改變。如今,不能只看單點測速的瞬間峰值,更重要的是高負載情境下的耐力表現。因此,比起單點測速,影音體驗會是更完整的測試標準,直接挑戰了網路在室內深處、移動途中或人潮聚集時的網路實力;而唯有在長時間串流下依然不卡頓、不降畫質,才稱得上是高品質的連線。

換言之,隱身在硬體背後的電信商,才是發揮旗艦機性能的關鍵;唯有透過最佳網路品質,才能讓手中的旗艦機既是規格領先、也是體驗領先。

唯一影音體驗雙料冠軍,Opensignal 權威認證的有感體驗

雖然相較於測速數據,影音體驗更貼近日常使用,但也更難量化。對此,國際權威認證 Opensignal 的「影音體驗分數」,依循 ITU 國際標準,透過真實用戶裝置在行動網路上進行影音串流的實測數據,觀察不同電信網路在實際使用情境下的表現。

簡單來說,評測聚焦三項核心指標:影片載入時間、播放期間的卡頓率,以及畫質(解析度)是否能穩定維持。使用者從開始播放到持續觀看的整體品質,分數以 0–100 呈現,分數愈高,代表在三項指標的表現愈佳。相較於單點測速,這類評測更能呈現長時間、高使用量下的網路品質。

人流情境不降速.jpg
圖/ 數位時代

而在今年最新公布的 Opensignal 評測中,台灣大哥大獲得「影音體驗」獎項唯一雙料冠軍。其中,「整體影音體驗」為全台獨得第一名,「5G 影音體驗」則與遠傳並列第一。

之所以能在影音體驗拔得頭籌,關鍵在於台灣大哥大目前是全台唯一整合 3.5GHz 頻段 60MHz 與 40MHz、形成 100MHz 總頻寬的電信業者,亦是現階段全台最大 5G 黃金頻寬配置。頻寬愈寬,代表單位時間內可傳輸的資料量愈大;在大量使用者同時進行影音串流、視訊互動的狀態下,更能維持穩定傳輸、減少壅塞發生機率。

台灣大獲權威認證,NRCA技術撐起穩定基礎

除了頻寬帶來的流量優勢,台灣大哥大也採用「NRCA 高低頻整合技術」,也就是透過高低頻協作,讓 3.5GHz 負責高速傳輸、700MHz 補強覆蓋與室內連線,改善室內深處與移動情境的訊號落差,提升連線連續性。

同時,為了讓住家、通勤動線、商圈與觀光熱點等高使用場域維持穩定表現,台灣大哥大已在全台超過213個住宅、觀光及商圈熱點完成 100MHz 布建,提升人流密集區的網路覆蓋率。

5G高速(小).jpg
圖/ dreamstime

值得注意的是,在今年的 Opensignal 評比中,台灣大哥大還拿下了「5G 語音體驗」與「網路可用率」兩項第 1 名,累計獲得 4 項獎項。這意味著不僅具備影音體驗優勢,在語音互動與連線率等關乎用戶日常應用的基礎指標,皆有亮眼成績。

尤其,隨著影音與即時互動成為新世代的工作常態,網路品質的重要性只會持續上升。無論是遠距協作所仰賴的視訊與畫面共享即時同步,內容創作對直播與即時上傳連續性的要求,或是 AI 視訊互動、即時翻譯與會議摘要等新應用,都高度依賴低延遲與穩定的資料傳輸。網路品質因此不再只是連線條件,更是支撐內容生產、協作效率與新應用落地的基礎能力,甚至直接牽動競爭力。

而台灣大哥大經 Opensignal 認證、於多項關鍵指標領先業界,不僅將成為 AI 時代的重要後盾,也讓使用者能更充分發揮高階手機的效能,把「快、穩、滑順」落實在每天的工作與生活中。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓