DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局
DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局

2025年開年沒多久,中國AI公司DeepSeek(深度求索)發布低成本AI模型DeepSeek,讓全世界都嚇了不小一跳:在受到美國牽制的背景下,這家神秘AI公司究竟是如何利用有限的資源,做出性能不輸OpenAI的AI模型?本篇文章回顧DeepSeek從成立到發布DeepSeek R1的553天,究竟經歷了什麼?

1月13日,彭博資訊(Bloomberg)專欄作家、美國喬治梅森大學經濟學教授柯恩(Tyler Cowen)發表一篇文章,談及中國在拜登政府嚴格禁止AI晶片隊中國出口的環境下,仍然能夠創造出與知名的ChatGPT、Claude等模型不相上下的大語言模型。

柯恩在文章提及「DeepSeek V3」,經過他使用好幾天後,認為這是幾年來他用過的眾多大語言模型(LLM)中,可以名列前茅的LLM。

DeepSeek V3速度快、好用,而且有免費版。雖然在對於精深或困難問題的回應,DeepSeek V3還比不上美國的頂尖LLM,不過柯恩仍然把它列入第一流,包括一些測試人員,很多人也都認為DeepSeek V3表現傑出。

掌握最新AI、半導體、數位趨勢!訂閱《數位時代》日報及社群活動訊息

DeepSeek_shutterstock_2577325425.jpg
圖/ shutterstock

DeepSeek-V3這款參數高達6,710億的大語言模型,在預訓練階段(pre-training,指在一個較小的、特定任務的數據集上進行微調fine-tuning之前,先在一個大數據集上訓練模型的過程)只用了55天,使用2048張H800 GPU叢集,費用僅557.6萬美元。這對動輒必須耗資數十億美元訓練大語言模型的美國先進AI公司而言,無異是敲出一記警鐘。

以往開發大語言模型需要龐大的資源,必須購買數量龐大的AI伺服器,建立人數眾多的研發團隊,因此投入資金從數十億美元起跳。

如今大語言模型投入的資源可大幅降低,這將會有更多的公司投入大語言模型的開發,尋求新的商機。

柯恩這篇專欄發表後,市場淡然處之,不知之後「風暴」將起。

DeepSeek開源、便宜、性能佳,讓全球瘋狂下載

1月20日川普就任美國總統,DeepSeek於同一天發布他的推理模型「DeepSeek R1」,這個模型與Open AI的o1的性能相距不遠,互有高下。

DeepSeek R1的使用價格較o1便宜很多,每百萬輸入Token為0.14至0.55美元,而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元,o1每百萬輸出Token為60美元。

DeepSeek R1 與 OpenAI o1成本比較

模型 輸入價格 (每百萬Token) 輸出價格 (每百萬Token)
DeepSeek R1 0.14-0.55美元 2.19美元
o1 7-15美元 60美元

DeepSeek R1開始在全球廣受注意,在很多地區AI類App的下載次數名列前茅,短短數星期,目前累積下載次數超過1,800萬次。

DeepSeek R1、V3皆是開源模型,使用者可自由下載模型,然後安裝在自己的終端設備上,個人電腦加裝高階的圖形顯示卡後,即可將DeepSeek R1或DeepSeek V3安裝在電腦上自己運作。

DeepSeek創辦人「洞燭先機」,3年前就開始研發LLM及採購輝達GPU

DeepSeek是中國AI公司DeepSeek(深度求索)推出的AI模型,背後是一家利用AI進行投資的對沖基金「幻方量化」(High-Flyer)所設立。該公司積極研發機器學習、深度學習等建立AI進行金融操作,共同創辦人是現年40歲的梁文鋒與其2位浙江大學同窗。

幻方量化的AI模型非常成功,因此能在金融市場獲得豐碩的報酬,2022年ChatGPT問世後,梁文鋒應該注意到AI新時代來臨,推想他應該已經在幻方量化公司內開始研發大語言模型,並且採購輝達的GPU。

延伸閱讀:
黃仁勳是DeepSeek暴紅推手?為何輝達寧可「便宜AI」崛起,也不願放棄中國市場?

DeepSeek 553天關鍵布局

2023年7月17日,幻方量化成立DeepSeek,招募100多位博士生、碩士生、大學剛畢業、或畢業一兩年的青年。重點是這些員工是成績名列前茅,並且有在國外知名期刊發表過論文的紀錄。

2023年10月28日,DeepSeek成立僅3個多月,旋即發表DeepSeek-Coder,這是DeepSeek的第一個大語言模型。

1個月後、也就是11月29日,DeepSeek發表DeepSeek-LLM。

2023年12月15日,DeepSeek發表DreamCraft3D,這是一個3D生成模型。

成立短短5個多月,DeepSeek發表4個大語言模型,成就相當驚人。

進入2024年,DeepSeek在技術更加精進,發表出性能更佳的大語言模型。

2024年1月11日,DeepSeek發布DeepSeek-MoE,這是個「混合專家模型」,效能超越Llama 2-7B,且計算量降低60%。

2024年2月5日,DeepSeek發布DeepSeekMath,DeepSeekMath在競賽級「MATH基準」測試中取得了51.7%的優異成績,效能接近Gemini-Ultra和GPT-4的水準。

2024年3月11日,DeepSeek發布DeepSeek-VL。

2024年5月,DeepSeek發布MoE大模型DeepSeek-V2,該模型為開源,不僅公開技術內容,並且可讓大家自由下載模型。DeepSeek-V2的API定價為每百萬Tokens輸入人民幣1元、輸出人民幣2元,價格僅為GPT-4 Turbo的百分之一。

2024年6月17日,DeepSeek發表DeepSeek-Coder-V2。DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。

2024年8月16日,DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。

2024年9月5日,DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。

2024年11月20日,DeepSeek 發布 DeepSeek-R1-Lite,這是DeepSeek第一個推理模型,是DeepSeek-R1的先行版。

2024年12月13日,DeepSeek發布用於高級「多模態理解的專家混合視覺語言模型」DeepSeek-VL2。

2024年12月26日,DeepSeek發布DeepSeek-V3,這也是開源模型。DeepSeek-V3的評測成績超越Qwen2.5-72B和LLaMA 3.1-405B等開源模型。與GPT-4o、Claude 3.5-Sonnet等閉源模型性能相抗衡。

2025年1月20日,發布DeepSeek-R1開源模型,在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

2025年1月27日,發布多模態大模型Janus-Pro

DeepSeek「無懼禁令」,俄羅斯、伊朗也能循DeepSeek模式?

DeepSeek的模型能夠受到西方世界的注意及使用,主要是直接可在線上透過App或網站下載,不像其他中國開發的大語言模型必須與微信等綁定。

DeepSeek在2024年共發布10個大語言模型,最後發表的DeepSeek-V3獲得美國AI產業界的重視,讓大家見識到運算資源受限的中國,也能用相對較少的資金,開發出性能優越的大語言模型。

其他受美國管制AI晶片出口的國家(如俄羅斯、伊朗、巴基斯坦等),或許也能夠循此模式,開發出類似的大語言模型。

DeepSeek.jpg
DeepSeek是由中國對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司,對此獨立科技新聞記者高燦鳴(Tim Culpan)指出,Deepseek的突破性進展,「可歸功於其獨特的量化背景。」
圖/ shutterstock

進入2025年,DeepSeek於1月20日發布DeepSeek-R1模型,這也是開源模型。DeepSeek-R1在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

DeepSeek-R1發布後效應擴大,讓許多人懷疑,將來建立大語言模型時不需要像之前一樣部署大量的GPU,導致1月28日輝達股價大跌17%。

2025年1月27日,DeepSeek發布多模態大模型Janus-Pro。

最後我們談DeepSeek-V3最後一次預訓練僅用55天、2048塊H800 GPU叢集,耗資557.6萬美元。這是DeepSeek-V3最後一次預訓練所使用的資源,實際上DeepSeek的算力資源遠大於此。

根據SemiAnalysis網站的資料,DeepSeek可運用的算力資源有A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU應該是幻方量化在2021年起就開始購買的,推測A100是禁令前購買,H800、H20應該是合法購買,因它們是為中國市場生產的降規版GPU。

這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元,因此DeepSeek雖然開發成本遠低於OpenAI等大咖,但是仍須25.73億美元,可見開發大語言模型是資金與腦力密集的投資。

延伸閱讀:DeepSeek解析2|輝達高階GPU成長因它放緩,「邊緣AI」將加速成長

關鍵字: #AI
往下滑看下一篇文章
HiNet 30週年:以 3 個 10 引領台灣數位進化,打造智慧網路未來
HiNet 30週年:以 3 個 10 引領台灣數位進化,打造智慧網路未來

在全球數位浪潮席捲下,網路基礎建設已成為國家競爭力與社會進步的關鍵指標。中華電信HiNet於1995年服務正式商用營運以來,便以台灣數位發展的堅實後盾為目標,持續完善台灣的網路建設。如今正值HiNet服務屆滿30週年之際,中華電信特別舉辦「HiNet 30週年研討會」,以「迎接高速上網 邁向AI智慧科技新世代」為主題,邀請數位發展部次長葉寧、國家通訊傳播委員會委員王怡惠及產官學研各界菁英,共同回顧台灣網路演進軌跡,並聚焦全光網路、AI應用與智慧生活等關鍵議題,勾勒未來智慧時代的網路藍圖。

中華電信HiNet三十週年研討會,聚集齊聚產官學界(由左至右分別為,:中華電信個人家庭分公司總經理胡
中華電信HiNet三十週年研討會,聚集齊聚產官學界(由左至右分別為:中華電信個人家庭分公司總經理胡學海、台灣諾基亞通信公司總經理劉明達、國科會科技政策諮詢專家室主任蔡志宏、國家通訊傳播委員會委員王怡惠、中華電信董事長簡志誠、數位發展部次長葉寧、中華電信總經理林榮賜、DIGITIMES副總經理黃逸平、中華電信網路技術分公司總經理賈仲雍)
圖/ 數位時代

回顧30年歷程,看HiNet網路服務發展的3個10

中華電信董事長簡志誠以3個10來概括HiNet從過去到現在的發展。第一個10是指「30年如一日」的服務理念,從撥接網路時代開始至今,中華電信始終堅持提供最快速度、最好品質與最大涵蓋率的網路服務。

第二個10意味著「十足韌性」,透過整合海纜、光纖、行動網路、微波及低中高軌衛星,打造出海地星空的綿密網路架構,同時全力投入全光網路發展,確保個人、家戶與企業在各種環境下或面對外在各種變化時,皆能享有穩定連網服務。

第三個10則象徵「十分智慧」,中華電信以穩定可靠的網路建設為根基,積極拓展AI應用領域,推出Hami Video、防駭防詐等創新服務,為民眾生活與企業營運注入智慧動能,創造更便捷高效的數位體驗。

中華電信董事長 簡志誠
中華電信董事長 簡志誠
圖/ 數位時代

HiNet 30年,驅動台灣數位服務新未來

中華電信總經理林榮賜以「HiNet 30年:驅動台灣數位服務新未來」為主題進行報告,內容涵蓋HiNet三十年來的發展歷程、技術演進、網路韌性、數位應用推動、資安防護與前瞻佈局。

首先他回顧HiNet連網技術的發展歷程,從市話撥接、ADSL/VDSL寬頻上網、光纖到樓、光纖到府到目前發展中的全光網路,不僅讓骨幹頻寬成長150倍、連外頻寬增加了200倍,更有效縮減城鄉間的數位落差,使山區、偏鄉皆能享有完善的網路服務。這些關鍵建設讓台灣可以緊密連結全球,在數位競爭力與科技整備度等國際評比中始終名列前茅。

在推動台灣網路普及與高速化的過程中,中華電信也不忘與產業共榮共生的理念,藉由在地採購策略及終端設備領域優先選用台灣品牌的做法,讓本土設備商得以藉此機會測試與國際設備的互連能力,累積搶占國際市場的產品競爭力,進而加速台灣資通訊產業的蓬勃發展。

不斷強化網路韌性,提供不中斷的連網服務

除了完善網路基礎建設,中華電信近年來亦積極打造海地星空的網路架構,並導入雲端技術去強化網路韌性,以便更從容的因應極端氣候與地緣政治風險。

林榮賜說明,中華電信在「海地星空」網路架構的布局上不遺餘力,已投資超過30條國際海纜、於偏遠地區建置微波通訊系統,並與One Web、Astranis 等國際衛星通訊業者合作等,透過異質網路架構打造具強大韌性的通訊網路。在雲端技術應用上,中華電信導入網路功能虛擬化(NFV)的機制,將網路服務從硬體中抽離,達到快速延展、隨需部署及異地災備的目標,確保在各種情況下,網路服務仍能維持不中斷,全面強化台灣數位基礎建設的韌性與可靠度。

中華電信總經理 林榮賜
中華電信總經理 林榮賜
圖/ 數位時代

推動數位應用與智慧生活,引領智慧未來

中華電信以穩定可靠的網路建設為基礎,推動HiNet加值應用服務,包括MOD、OTT影音(如Hami Video)、數位音樂(KKBOX)、消費資安、Google One雲端空間及智慧醫療、智慧交通、智慧農業等企客應用,形塑全方位智慧生活生態圈。同時,中華電信也積極投入影視投資與元宇宙應用,推動文化創新,並協助企業數位轉型,例如透過多雲交換平台 CMCX無縫串接三大國際公有雲與中華電信雲平台hicloud,再結合資安、數據等專業顧問服務,協助企業上雲,目前雲與IDC部門已成為中華電信首個營收突破百億元的業務單位。

資安防護與數位信任

面對日益嚴峻的資安威脅及詐騙風險,中華電信建構7x24資安防護體系,不只推出相對應解決方案,從防駭守門員、偵測偽冒網站與國際詐騙電話,到建立多層防線與資安監控機制,全方位守護個人與企業的數位安全,更運用AI阻擋惡意連線、詐騙簡訊與駭客攻擊,2024年成功攔阻威脅數達數十億次,現更推動後量子密碼技術,強化數位信任與資料主權。

國科會科技政策諮詢專家室主任蔡志宏認為,中華電信提供從連網、雲服務、AI應用到資安的完整解決方案,使其在台灣AI發展上扮演著多元且關鍵的角色,加速從政府部門的公共服務AI化到百工百業的AI轉型。

國科會科技政策諮詢專家室主任 蔡志宏
國科會科技政策諮詢專家室主任 蔡志宏
圖/ 數位時代

未來10年,把握,6G、AI和全光網路3大重點

中華電信網路技術分公司總經理賈仲雍於高峰對談時展望未來,他表示6G、全光網路和AI是中華電信的3大發展重心,尤其全光網路高速傳輸的特性,讓企業可以把敏感資料留在地端,同時仍可運用遠端資料中心的GPU進行運算,這種資料與算力資源分離的架構,有效降低企業對資料安全的疑慮,進而提高導入AI的意願。

中華電信獨立董事杜奕瑾則從另一角度闡述全光網路的價值,他指出此技術讓AI不需直接存取原始資料,就能進行跨國、跨企業間的聯邦式學習,大幅提升AI系統的智慧化程度。

台灣諾基亞通信公司總經理劉明達亦建議,中華電信可攜手產業發展垂直產業的AI應用,並積極拓展國際市場,有效掌握未來AI時代的龐大商機。

賈仲雍總經理最終以「穩」、「韌」、「新」、「安」四字精闢總結HiNet未來10年的發展方向,也就是確保網路服務穩定可靠、提升網路韌性、持續引進創新技術及強化上網安全,期望能繼續為台灣寬頻網路建設而努力,讓台灣網路產業在全球數位經濟浪潮中持續發光發熱,共創智慧台灣的美好未來。

走進HiNet時光隧道,體驗AI智慧生活新境界

本次研討會場外精心規劃「HiNet 30週年回顧」與「AI智慧家庭新世代」兩大展區。前者帶領參觀者重溫HiNet三十年來的輝煌歷程,後者為智慧家庭創造無限可能,展區除攜手全球電信設備領導廠商Nokia,率先於國內完成 50G PON高速光纖接取技術及Wi-Fi容器化架構服務驗證,可全面提升家庭網路的速度、穩定性與延展性。展區同時展示智慧家庭應用與消費性資安解決方案,並設有互動問答與導覽模擬體驗,讓參與者能親身感受未來智慧生活的全貌。透過實體展示與沉浸式互動,中華電信不僅彰顯其於網路建設及 AI 應用領域的創新實力,更強化與大眾的溝通連結,展現推動數位轉型的決心與執行力。

HiNet 連網技術不斷追求新的突破,從市話撥接、ADSL/VDSL寬頻上網、光纖到樓、光纖到府到目
HiNet 連網技術不斷追求新的突破,從市話撥接、ADSL/VDSL寬頻上網、光纖到樓、光纖到府到目前發展中的全光網路,強化台灣在國際上的數位競爭力。
圖/ 數位時代

立即收看:《HiNet 30為愛前行的光》主題影片

追蹤我們
電商終局戰
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓