DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局
DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局

2025年開年沒多久,中國AI公司DeepSeek(深度求索)發布低成本AI模型DeepSeek,讓全世界都嚇了不小一跳:在受到美國牽制的背景下,這家神秘AI公司究竟是如何利用有限的資源,做出性能不輸OpenAI的AI模型?本篇文章回顧DeepSeek從成立到發布DeepSeek R1的553天,究竟經歷了什麼?

1月13日,彭博資訊(Bloomberg)專欄作家、美國喬治梅森大學經濟學教授柯恩(Tyler Cowen)發表一篇文章,談及中國在拜登政府嚴格禁止AI晶片隊中國出口的環境下,仍然能夠創造出與知名的ChatGPT、Claude等模型不相上下的大語言模型。

柯恩在文章提及「DeepSeek V3」,經過他使用好幾天後,認為這是幾年來他用過的眾多大語言模型(LLM)中,可以名列前茅的LLM。

DeepSeek V3速度快、好用,而且有免費版。雖然在對於精深或困難問題的回應,DeepSeek V3還比不上美國的頂尖LLM,不過柯恩仍然把它列入第一流,包括一些測試人員,很多人也都認為DeepSeek V3表現傑出。

掌握最新AI、半導體、數位趨勢!訂閱《數位時代》日報及社群活動訊息

DeepSeek_shutterstock_2577325425.jpg
圖/ shutterstock

DeepSeek-V3這款參數高達6,710億的大語言模型,在預訓練階段(pre-training,指在一個較小的、特定任務的數據集上進行微調fine-tuning之前,先在一個大數據集上訓練模型的過程)只用了55天,使用2048張H800 GPU叢集,費用僅557.6萬美元。這對動輒必須耗資數十億美元訓練大語言模型的美國先進AI公司而言,無異是敲出一記警鐘。

以往開發大語言模型需要龐大的資源,必須購買數量龐大的AI伺服器,建立人數眾多的研發團隊,因此投入資金從數十億美元起跳。

如今大語言模型投入的資源可大幅降低,這將會有更多的公司投入大語言模型的開發,尋求新的商機。

柯恩這篇專欄發表後,市場淡然處之,不知之後「風暴」將起。

DeepSeek開源、便宜、性能佳,讓全球瘋狂下載

1月20日川普就任美國總統,DeepSeek於同一天發布他的推理模型「DeepSeek R1」,這個模型與Open AI的o1的性能相距不遠,互有高下。

DeepSeek R1的使用價格較o1便宜很多,每百萬輸入Token為0.14至0.55美元,而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元,o1每百萬輸出Token為60美元。

DeepSeek R1 與 OpenAI o1成本比較

模型 輸入價格 (每百萬Token) 輸出價格 (每百萬Token)
DeepSeek R1 0.14-0.55美元 2.19美元
o1 7-15美元 60美元

DeepSeek R1開始在全球廣受注意,在很多地區AI類App的下載次數名列前茅,短短數星期,目前累積下載次數超過1,800萬次。

DeepSeek R1、V3皆是開源模型,使用者可自由下載模型,然後安裝在自己的終端設備上,個人電腦加裝高階的圖形顯示卡後,即可將DeepSeek R1或DeepSeek V3安裝在電腦上自己運作。

DeepSeek創辦人「洞燭先機」,3年前就開始研發LLM及採購輝達GPU

DeepSeek是中國AI公司DeepSeek(深度求索)推出的AI模型,背後是一家利用AI進行投資的對沖基金「幻方量化」(High-Flyer)所設立。該公司積極研發機器學習、深度學習等建立AI進行金融操作,共同創辦人是現年40歲的梁文鋒與其2位浙江大學同窗。

幻方量化的AI模型非常成功,因此能在金融市場獲得豐碩的報酬,2022年ChatGPT問世後,梁文鋒應該注意到AI新時代來臨,推想他應該已經在幻方量化公司內開始研發大語言模型,並且採購輝達的GPU。

延伸閱讀:
黃仁勳是DeepSeek暴紅推手?為何輝達寧可「便宜AI」崛起,也不願放棄中國市場?

DeepSeek 553天關鍵布局

2023年7月17日,幻方量化成立DeepSeek,招募100多位博士生、碩士生、大學剛畢業、或畢業一兩年的青年。重點是這些員工是成績名列前茅,並且有在國外知名期刊發表過論文的紀錄。

2023年10月28日,DeepSeek成立僅3個多月,旋即發表DeepSeek-Coder,這是DeepSeek的第一個大語言模型。

1個月後、也就是11月29日,DeepSeek發表DeepSeek-LLM。

2023年12月15日,DeepSeek發表DreamCraft3D,這是一個3D生成模型。

成立短短5個多月,DeepSeek發表4個大語言模型,成就相當驚人。

進入2024年,DeepSeek在技術更加精進,發表出性能更佳的大語言模型。

2024年1月11日,DeepSeek發布DeepSeek-MoE,這是個「混合專家模型」,效能超越Llama 2-7B,且計算量降低60%。

2024年2月5日,DeepSeek發布DeepSeekMath,DeepSeekMath在競賽級「MATH基準」測試中取得了51.7%的優異成績,效能接近Gemini-Ultra和GPT-4的水準。

2024年3月11日,DeepSeek發布DeepSeek-VL。

2024年5月,DeepSeek發布MoE大模型DeepSeek-V2,該模型為開源,不僅公開技術內容,並且可讓大家自由下載模型。DeepSeek-V2的API定價為每百萬Tokens輸入人民幣1元、輸出人民幣2元,價格僅為GPT-4 Turbo的百分之一。

2024年6月17日,DeepSeek發表DeepSeek-Coder-V2。DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。

2024年8月16日,DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。

2024年9月5日,DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。

2024年11月20日,DeepSeek 發布 DeepSeek-R1-Lite,這是DeepSeek第一個推理模型,是DeepSeek-R1的先行版。

2024年12月13日,DeepSeek發布用於高級「多模態理解的專家混合視覺語言模型」DeepSeek-VL2。

2024年12月26日,DeepSeek發布DeepSeek-V3,這也是開源模型。DeepSeek-V3的評測成績超越Qwen2.5-72B和LLaMA 3.1-405B等開源模型。與GPT-4o、Claude 3.5-Sonnet等閉源模型性能相抗衡。

2025年1月20日,發布DeepSeek-R1開源模型,在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

2025年1月27日,發布多模態大模型Janus-Pro

DeepSeek「無懼禁令」,俄羅斯、伊朗也能循DeepSeek模式?

DeepSeek的模型能夠受到西方世界的注意及使用,主要是直接可在線上透過App或網站下載,不像其他中國開發的大語言模型必須與微信等綁定。

DeepSeek在2024年共發布10個大語言模型,最後發表的DeepSeek-V3獲得美國AI產業界的重視,讓大家見識到運算資源受限的中國,也能用相對較少的資金,開發出性能優越的大語言模型。

其他受美國管制AI晶片出口的國家(如俄羅斯、伊朗、巴基斯坦等),或許也能夠循此模式,開發出類似的大語言模型。

DeepSeek.jpg
DeepSeek是由中國對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司,對此獨立科技新聞記者高燦鳴(Tim Culpan)指出,Deepseek的突破性進展,「可歸功於其獨特的量化背景。」
圖/ shutterstock

進入2025年,DeepSeek於1月20日發布DeepSeek-R1模型,這也是開源模型。DeepSeek-R1在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

DeepSeek-R1發布後效應擴大,讓許多人懷疑,將來建立大語言模型時不需要像之前一樣部署大量的GPU,導致1月28日輝達股價大跌17%。

2025年1月27日,DeepSeek發布多模態大模型Janus-Pro。

最後我們談DeepSeek-V3最後一次預訓練僅用55天、2048塊H800 GPU叢集,耗資557.6萬美元。這是DeepSeek-V3最後一次預訓練所使用的資源,實際上DeepSeek的算力資源遠大於此。

根據SemiAnalysis網站的資料,DeepSeek可運用的算力資源有A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU應該是幻方量化在2021年起就開始購買的,推測A100是禁令前購買,H800、H20應該是合法購買,因它們是為中國市場生產的降規版GPU。

這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元,因此DeepSeek雖然開發成本遠低於OpenAI等大咖,但是仍須25.73億美元,可見開發大語言模型是資金與腦力密集的投資。

延伸閱讀:DeepSeek解析2|輝達高階GPU成長因它放緩,「邊緣AI」將加速成長

關鍵字: #AI
往下滑看下一篇文章
科技業也瘋地球日?晶睿通訊25週年特企 × 6品牌 × 7對談,打造永續新體驗!
科技業也瘋地球日?晶睿通訊25週年特企 × 6品牌 × 7對談,打造永續新體驗!

2025年地球日,全球智慧安防領導品牌晶睿通訊(3454-TW)以嶄新姿態迎接25週年里程碑,並以實際行動展現永續承諾。延續去年首度舉辦即廣獲好評的熱潮,今年再度攜手好食好事基金會,盛大舉辦第二屆地球日,並響應全球地球日主題「Our Power, Our Planet」。活動集結六大品牌共同參與,七場精彩講座輪番登場,200份限量消費券短時間內搶兌一空,更吸引逾千名員工與中和遠東科技園區夥伴熱情參與,展現晶睿通訊凝聚綠色行動力的決心。

迎接25週年未來專注永續發展,持續擴大社會影響力

迎接25週年未來專注永續發展,持續擴大社會影響力
晶睿通訊發言人暨全球行銷處長謝邦彥於講座開幕致詞,分享企業25週年願景
圖/ 晶睿通訊

晶睿通訊發言人暨全球行銷處處長謝邦彥表示:「今年適逢晶睿通訊 25 週年,我們推出地球日企劃,與週年限定口號 『MAKE TOMORROW EASIER, TODAY!』傳遞的理念相呼應。我們深信,真正的改變來自團隊力量——跨部門協作與內外部夥伴的共同投入,從結合科技與社區安全的安全地圖專案、推動全球員工參與的減碳競走賽,到節能產品的規劃與導入,我們積極將永續精神融入日常營運與生活實踐之中。我們也榮獲台灣企業永續獎肯定,展現永續行動的具體成果,更體現企業對永續未來的長期承諾。」

好食好事基金會攜手推動,讓永續走進日常

好食好事基金會攜手推動,讓永續走進日常
好食好事基金會副執行長林薇真分享理念,闡述永續飲食與日常生活的關聯
圖/ 晶睿通訊

此次活動,晶睿通訊與秉持永續理念的好食好事基金會攜手合作,集結六大永續品牌,將永續從理念落實到日常行動。好食好事基金會副執行長林薇真表示:「地球日提醒我們,每個人與每個組織都是推動永續的重要力量。很高興能再次與晶睿通訊合作,攜手六大理念契合的永續品牌,讓永續走進每個人的日常生活。」

綠色市集匯聚六大永續品牌,體驗友善的綠色生活

地球日_新聞稿_1200x628_02.jpg
綠色市集現場人潮湧躍,員工與攤商相互交流,人潮絡繹不絕,展現熱情的行動力
圖/ 晶睿通訊

以環保為核心設計,「綠色市集」從可回收木料搭建攤位,到鼓勵自備購物袋,處處體現永續概念。超過千人次參與,限量消費券更於數小時兌換一空,展現參與者對綠色生活的熱情支持。

六大永續品牌各具特色,從友善畜牧、支持小農、到減少碳足跡,共同呈現永續食農的多樣選擇:
- 乙木羊鮮羊奶:秉持友善畜牧理念,提供無污染鮮奶產品,兼顧動物福利。
- 天香羊肉爐:支持小農生產,減少食物里程,提供環保餐飲體驗。
- 阿瑋米香:選用台灣稻米製作天然點心,保留傳統風味,同時減少碳足跡。
- 長城食堂:融合傳統飲食智慧與減廢理念,推動食材溯源與惜食文化。
- 泉發研茶:秉持有機耕作與公平貿易理念,保護生態環境,呈現永續茶業的完整生態系統。
- 順成油廠:傳承傳統工藝,支持永續農業,落實零廢棄,為參與者呈現永續脈絡。

七場永續對話,激發行動靈感

地球日_新聞稿_1200x628_05.jpg
品牌代表分享永續經營理念,現場聽眾認真聆聽並熱烈回應
圖/ 晶睿通訊

除市集之外,七場「永續對話」講座同樣吸引目光。來自好食好事基金會與六大品牌的代表在150分鐘內接力分享,從在地農食、循環經濟到企業永續實踐,激發現場創新思維,引發熱烈討論。透過現場互動,參與者不僅獲得實踐靈感,也反思自身日常消費對環境的長遠影響。

晶睿通訊持續以行動為地球發聲、為永續貢獻力量

晶睿通訊持續以行動為地球發聲、為永續貢獻力量
參與者與品牌視覺合影,展現25週年永續承諾
圖/ 晶睿通訊

晶睿通訊長期致力於推動永續行動,並倡議集團2030年RE100的再生能源目標,持續將永續理念深度融入日常營運、技術研發與品牌策略。正值25週年之際,晶睿通訊地球日是一項重要的活動里程碑,不僅記錄企業推廣食農理念的足跡,並以具體行動彰顯對永續發展的承諾,將攜手利害關係人邁向更永續的未來。

了解更多關於晶睿通訊品牌創新與永續發聲作為:
◼︎ 晶睿通訊品牌成功秘笈:員工就是品牌的共創者|數位時代 BusinessNext
◼︎ AI科技守護歷史聚落 晶睿安防小隊打造花蓮「安全地圖」|數位時代 BusinessNext
◼︎ 這樣做提高ESG品牌影響力!晶睿通訊跨界合作好食好事基金會打造綠色市集 動員千人齊聚為永續發聲|數位時代 BusinessNext
◼︎ ESG品牌創新大揭密,晶睿通訊公開品牌升級與實作秘訣|數位時代 BusinessNext

追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓