DeepSeek解析1｜神秘AI公司掀起全球AI風暴，一篇看懂553天關鍵布局|數位時代 BusinessNext

2025年開年沒多久，中國AI公司DeepSeek（深度求索）發布低成本AI模型DeepSeek，讓全世界都嚇了不小一跳：在受到美國牽制的背景下，這家神秘AI公司究竟是如何利用有限的資源，做出性能不輸OpenAI的AI模型？本篇文章回顧DeepSeek從成立到發布DeepSeek R1的553天，究竟經歷了什麼？

1月13日，彭博資訊（Bloomberg）專欄作家、美國喬治梅森大學經濟學教授柯恩（Tyler Cowen）發表一篇文章，談及中國在拜登政府嚴格禁止AI晶片隊中國出口的環境下，仍然能夠創造出與知名的ChatGPT、Claude等模型不相上下的大語言模型。

柯恩在文章提及「DeepSeek V3」，經過他使用好幾天後，認為這是幾年來他用過的眾多大語言模型（LLM）中，可以名列前茅的LLM。

DeepSeek V3速度快、好用，而且有免費版。雖然在對於精深或困難問題的回應，DeepSeek V3還比不上美國的頂尖LLM，不過柯恩仍然把它列入第一流，包括一些測試人員，很多人也都認為DeepSeek V3表現傑出。

DeepSeek-V3這款參數高達6,710億的大語言模型，在預訓練階段（pre-training，指在一個較小的、特定任務的數據集上進行微調fine-tuning之前，先在一個大數據集上訓練模型的過程）只用了55天，使用2048張H800 GPU叢集，費用僅557.6萬美元。這對動輒必須耗資數十億美元訓練大語言模型的美國先進AI公司而言，無異是敲出一記警鐘。

以往開發大語言模型需要龐大的資源，必須購買數量龐大的AI伺服器，建立人數眾多的研發團隊，因此投入資金從數十億美元起跳。

如今大語言模型投入的資源可大幅降低，這將會有更多的公司投入大語言模型的開發，尋求新的商機。

柯恩這篇專欄發表後，市場淡然處之，不知之後「風暴」將起。

DeepSeek開源、便宜、性能佳，讓全球瘋狂下載

1月20日川普就任美國總統，DeepSeek於同一天發布他的推理模型「DeepSeek R1」，這個模型與Open AI的o1的性能相距不遠，互有高下。

DeepSeek R1的使用價格較o1便宜很多，每百萬輸入Token為0.14至0.55美元，而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元，o1每百萬輸出Token為60美元。

DeepSeek R1 與 OpenAI o1成本比較

模型	輸入價格 (每百萬Token)	輸出價格 (每百萬Token)
DeepSeek R1	0.14-0.55美元	2.19美元
o1	7-15美元	60美元

DeepSeek R1開始在全球廣受注意，在很多地區AI類App的下載次數名列前茅，短短數星期，目前累積下載次數超過1,800萬次。

DeepSeek R1、V3皆是開源模型，使用者可自由下載模型，然後安裝在自己的終端設備上，個人電腦加裝高階的圖形顯示卡後，即可將DeepSeek R1或DeepSeek V3安裝在電腦上自己運作。

DeepSeek創辦人「洞燭先機」，3年前就開始研發LLM及採購輝達GPU

DeepSeek是中國AI公司DeepSeek（深度求索）推出的AI模型，背後是一家利用AI進行投資的對沖基金「幻方量化」（High-Flyer）所設立。該公司積極研發機器學習、深度學習等建立AI進行金融操作，共同創辦人是現年40歲的梁文鋒與其2位浙江大學同窗。

幻方量化的AI模型非常成功，因此能在金融市場獲得豐碩的報酬，2022年ChatGPT問世後，梁文鋒應該注意到AI新時代來臨，推想他應該已經在幻方量化公司內開始研發大語言模型，並且採購輝達的GPU。

延伸閱讀：
黃仁勳是DeepSeek暴紅推手？為何輝達寧可「便宜AI」崛起，也不願放棄中國市場？

DeepSeek 553天關鍵布局

2023年7月17日，幻方量化成立DeepSeek，招募100多位博士生、碩士生、大學剛畢業、或畢業一兩年的青年。重點是這些員工是成績名列前茅，並且有在國外知名期刊發表過論文的紀錄。

2023年10月28日，DeepSeek成立僅3個多月，旋即發表DeepSeek-Coder，這是DeepSeek的第一個大語言模型。

1個月後、也就是11月29日，DeepSeek發表DeepSeek-LLM。

2023年12月15日，DeepSeek發表DreamCraft3D，這是一個3D生成模型。

成立短短5個多月，DeepSeek發表4個大語言模型，成就相當驚人。

進入2024年，DeepSeek在技術更加精進，發表出性能更佳的大語言模型。

2024年1月11日，DeepSeek發布DeepSeek-MoE，這是個「混合專家模型」，效能超越Llama 2-7B，且計算量降低60%。

2024年2月5日，DeepSeek發布DeepSeekMath，DeepSeekMath在競賽級「MATH基準」測試中取得了51.7%的優異成績，效能接近Gemini-Ultra和GPT-4的水準。

2024年3月11日，DeepSeek發布DeepSeek-VL。

2024年5月，DeepSeek發布MoE大模型DeepSeek-V2，該模型為開源，不僅公開技術內容，並且可讓大家自由下載模型。DeepSeek-V2的API定價為每百萬Tokens輸入人民幣1元、輸出人民幣2元，價格僅為GPT-4 Turbo的百分之一。

2024年6月17日，DeepSeek發表DeepSeek-Coder-V2。DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異，超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。

2024年8月16日，DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。

2024年9月5日，DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型，升級推出全新的 DeepSeek V2.5 新模型。

2024年11月20日，DeepSeek 發布 DeepSeek-R1-Lite，這是DeepSeek第一個推理模型，是DeepSeek-R1的先行版。

2024年12月13日，DeepSeek發布用於高級「多模態理解的專家混合視覺語言模型」DeepSeek-VL2。

2024年12月26日，DeepSeek發布DeepSeek-V3，這也是開源模型。DeepSeek-V3的評測成績超越Qwen2.5-72B和LLaMA 3.1-405B等開源模型。與GPT-4o、Claude 3.5-Sonnet等閉源模型性能相抗衡。

2025年1月20日，發布DeepSeek-R1開源模型，在數學、代碼、自然語言推理等任務上，效能與OpenAI o1正式版相當。

2025年1月27日，發布多模態大模型Janus-Pro

DeepSeek「無懼禁令」，俄羅斯、伊朗也能循DeepSeek模式？

DeepSeek的模型能夠受到西方世界的注意及使用，主要是直接可在線上透過App或網站下載，不像其他中國開發的大語言模型必須與微信等綁定。

DeepSeek在2024年共發布10個大語言模型，最後發表的DeepSeek-V3獲得美國AI產業界的重視，讓大家見識到運算資源受限的中國，也能用相對較少的資金，開發出性能優越的大語言模型。

其他受美國管制AI晶片出口的國家（如俄羅斯、伊朗、巴基斯坦等），或許也能夠循此模式，開發出類似的大語言模型。

DeepSeek是由中國對沖基金「幻方量化」（High-Flyer）於2023年成立的新創公司，對此獨立科技新聞記者高燦鳴（Tim Culpan）指出，Deepseek的突破性進展，「可歸功於其獨特的量化背景。」

圖／ shutterstock

進入2025年，DeepSeek於1月20日發布DeepSeek-R1模型，這也是開源模型。DeepSeek-R1在數學、代碼、自然語言推理等任務上，效能與OpenAI o1正式版相當。

DeepSeek-R1發布後效應擴大，讓許多人懷疑，將來建立大語言模型時不需要像之前一樣部署大量的GPU，導致1月28日輝達股價大跌17%。

2025年1月27日，DeepSeek發布多模態大模型Janus-Pro。

最後我們談DeepSeek-V3最後一次預訓練僅用55天、2048塊H800 GPU叢集，耗資557.6萬美元。這是DeepSeek-V3最後一次預訓練所使用的資源，實際上DeepSeek的算力資源遠大於此。

根據SemiAnalysis網站的資料，DeepSeek可運用的算力資源有A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU應該是幻方量化在2021年起就開始購買的，推測A100是禁令前購買，H800、H20應該是合法購買，因它們是為中國市場生產的降規版GPU。

這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元，因此DeepSeek雖然開發成本遠低於OpenAI等大咖，但是仍須25.73億美元，可見開發大語言模型是資金與腦力密集的投資。

延伸閱讀：DeepSeek解析2｜輝達高階GPU成長因它放緩，「邊緣AI」將加速成長

在全球數位浪潮席捲下，網路基礎建設已成為國家競爭力與社會進步的關鍵指標。中華電信HiNet於1995年服務正式商用營運以來，便以台灣數位發展的堅實後盾為目標，持續完善台灣的網路建設。如今正值HiNet服務屆滿30週年之際，中華電信特別舉辦「HiNet 30週年研討會」，以「迎接高速上網邁向AI智慧科技新世代」為主題，邀請數位發展部次長葉寧、國家通訊傳播委員會委員王怡惠及產官學研各界菁英，共同回顧台灣網路演進軌跡，並聚焦全光網路、AI應用與智慧生活等關鍵議題，勾勒未來智慧時代的網路藍圖。

中華電信HiNet三十週年研討會，聚集齊聚產官學界(由左至右分別為：中華電信個人家庭分公司總經理胡學海、台灣諾基亞通信公司總經理劉明達、國科會科技政策諮詢專家室主任蔡志宏、國家通訊傳播委員會委員王怡惠、中華電信董事長簡志誠、數位發展部次長葉寧、中華電信總經理林榮賜、DIGITIMES副總經理黃逸平、中華電信網路技術分公司總經理賈仲雍)

圖／數位時代

回顧30年歷程，看HiNet網路服務發展的3個10

中華電信董事長簡志誠以3個10來概括HiNet從過去到現在的發展。第一個10是指「30年如一日」的服務理念，從撥接網路時代開始至今，中華電信始終堅持提供最快速度、最好品質與最大涵蓋率的網路服務。

第二個10意味著「十足韌性」，透過整合海纜、光纖、行動網路、微波及低中高軌衛星，打造出海地星空的綿密網路架構，同時全力投入全光網路發展，確保個人、家戶與企業在各種環境下或面對外在各種變化時，皆能享有穩定連網服務。

第三個10則象徵「十分智慧」，中華電信以穩定可靠的網路建設為根基，積極拓展AI應用領域，推出Hami Video、防駭防詐等創新服務，為民眾生活與企業營運注入智慧動能，創造更便捷高效的數位體驗。

HiNet 30年，驅動台灣數位服務新未來

中華電信總經理林榮賜以「HiNet 30年：驅動台灣數位服務新未來」為主題進行報告，內容涵蓋HiNet三十年來的發展歷程、技術演進、網路韌性、數位應用推動、資安防護與前瞻佈局。

首先他回顧HiNet連網技術的發展歷程，從市話撥接、ADSL/VDSL寬頻上網、光纖到樓、光纖到府到目前發展中的全光網路，不僅讓骨幹頻寬成長150倍、連外頻寬增加了200倍，更有效縮減城鄉間的數位落差，使山區、偏鄉皆能享有完善的網路服務。這些關鍵建設讓台灣可以緊密連結全球，在數位競爭力與科技整備度等國際評比中始終名列前茅。

在推動台灣網路普及與高速化的過程中，中華電信也不忘與產業共榮共生的理念，藉由在地採購策略及終端設備領域優先選用台灣品牌的做法，讓本土設備商得以藉此機會測試與國際設備的互連能力，累積搶占國際市場的產品競爭力，進而加速台灣資通訊產業的蓬勃發展。

不斷強化網路韌性，提供不中斷的連網服務

除了完善網路基礎建設，中華電信近年來亦積極打造海地星空的網路架構，並導入雲端技術去強化網路韌性，以便更從容的因應極端氣候與地緣政治風險。

林榮賜說明，中華電信在「海地星空」網路架構的布局上不遺餘力，已投資超過30條國際海纜、於偏遠地區建置微波通訊系統，並與One Web、Astranis 等國際衛星通訊業者合作等，透過異質網路架構打造具強大韌性的通訊網路。在雲端技術應用上，中華電信導入網路功能虛擬化（NFV）的機制，將網路服務從硬體中抽離，達到快速延展、隨需部署及異地災備的目標，確保在各種情況下，網路服務仍能維持不中斷，全面強化台灣數位基礎建設的韌性與可靠度。

推動數位應用與智慧生活，引領智慧未來

中華電信以穩定可靠的網路建設為基礎，推動HiNet加值應用服務，包括MOD、OTT影音（如Hami Video）、數位音樂（KKBOX）、消費資安、Google One雲端空間及智慧醫療、智慧交通、智慧農業等企客應用，形塑全方位智慧生活生態圈。同時，中華電信也積極投入影視投資與元宇宙應用，推動文化創新，並協助企業數位轉型，例如透過多雲交換平台 CMCX無縫串接三大國際公有雲與中華電信雲平台hicloud，再結合資安、數據等專業顧問服務，協助企業上雲，目前雲與IDC部門已成為中華電信首個營收突破百億元的業務單位。

資安防護與數位信任

面對日益嚴峻的資安威脅及詐騙風險，中華電信建構7x24資安防護體系，不只推出相對應解決方案，從防駭守門員、偵測偽冒網站與國際詐騙電話，到建立多層防線與資安監控機制，全方位守護個人與企業的數位安全，更運用AI阻擋惡意連線、詐騙簡訊與駭客攻擊，2024年成功攔阻威脅數達數十億次，現更推動後量子密碼技術，強化數位信任與資料主權。

國科會科技政策諮詢專家室主任蔡志宏認為，中華電信提供從連網、雲服務、AI應用到資安的完整解決方案，使其在台灣AI發展上扮演著多元且關鍵的角色，加速從政府部門的公共服務AI化到百工百業的AI轉型。

未來10年，把握，6G、AI和全光網路3大重點

中華電信網路技術分公司總經理賈仲雍於高峰對談時展望未來，他表示6G、全光網路和AI是中華電信的3大發展重心，尤其全光網路高速傳輸的特性，讓企業可以把敏感資料留在地端，同時仍可運用遠端資料中心的GPU進行運算，這種資料與算力資源分離的架構，有效降低企業對資料安全的疑慮，進而提高導入AI的意願。

中華電信獨立董事杜奕瑾則從另一角度闡述全光網路的價值，他指出此技術讓AI不需直接存取原始資料，就能進行跨國、跨企業間的聯邦式學習，大幅提升AI系統的智慧化程度。

台灣諾基亞通信公司總經理劉明達亦建議，中華電信可攜手產業發展垂直產業的AI應用，並積極拓展國際市場，有效掌握未來AI時代的龐大商機。

賈仲雍總經理最終以「穩」、「韌」、「新」、「安」四字精闢總結HiNet未來10年的發展方向，也就是確保網路服務穩定可靠、提升網路韌性、持續引進創新技術及強化上網安全，期望能繼續為台灣寬頻網路建設而努力，讓台灣網路產業在全球數位經濟浪潮中持續發光發熱，共創智慧台灣的美好未來。

走進HiNet時光隧道，體驗AI智慧生活新境界

本次研討會場外精心規劃「HiNet 30週年回顧」與「AI智慧家庭新世代」兩大展區。前者帶領參觀者重溫HiNet三十年來的輝煌歷程，後者為智慧家庭創造無限可能，展區除攜手全球電信設備領導廠商Nokia，率先於國內完成 50G PON高速光纖接取技術及Wi-Fi容器化架構服務驗證，可全面提升家庭網路的速度、穩定性與延展性。展區同時展示智慧家庭應用與消費性資安解決方案，並設有互動問答與導覽模擬體驗，讓參與者能親身感受未來智慧生活的全貌。透過實體展示與沉浸式互動，中華電信不僅彰顯其於網路建設及 AI 應用領域的創新實力，更強化與大眾的溝通連結，展現推動數位轉型的決心與執行力。