DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局
DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局

2025年開年沒多久,中國AI公司DeepSeek(深度求索)發布低成本AI模型DeepSeek,讓全世界都嚇了不小一跳:在受到美國牽制的背景下,這家神秘AI公司究竟是如何利用有限的資源,做出性能不輸OpenAI的AI模型?本篇文章回顧DeepSeek從成立到發布DeepSeek R1的553天,究竟經歷了什麼?

1月13日,彭博資訊(Bloomberg)專欄作家、美國喬治梅森大學經濟學教授柯恩(Tyler Cowen)發表一篇文章,談及中國在拜登政府嚴格禁止AI晶片隊中國出口的環境下,仍然能夠創造出與知名的ChatGPT、Claude等模型不相上下的大語言模型。

柯恩在文章提及「DeepSeek V3」,經過他使用好幾天後,認為這是幾年來他用過的眾多大語言模型(LLM)中,可以名列前茅的LLM。

DeepSeek V3速度快、好用,而且有免費版。雖然在對於精深或困難問題的回應,DeepSeek V3還比不上美國的頂尖LLM,不過柯恩仍然把它列入第一流,包括一些測試人員,很多人也都認為DeepSeek V3表現傑出。

DeepSeek_shutterstock_2577325425.jpg
圖/ shutterstock

DeepSeek-V3這款參數高達6,710億的大語言模型,在預訓練階段(pre-training,指在一個較小的、特定任務的數據集上進行微調fine-tuning之前,先在一個大數據集上訓練模型的過程)只用了55天,使用2048張H800 GPU叢集,費用僅557.6萬美元。這對動輒必須耗資數十億美元訓練大語言模型的美國先進AI公司而言,無異是敲出一記警鐘。

以往開發大語言模型需要龐大的資源,必須購買數量龐大的AI伺服器,建立人數眾多的研發團隊,因此投入資金從數十億美元起跳。

如今大語言模型投入的資源可大幅降低,這將會有更多的公司投入大語言模型的開發,尋求新的商機。

柯恩這篇專欄發表後,市場淡然處之,不知之後「風暴」將起。

DeepSeek開源、便宜、性能佳,讓全球瘋狂下載

1月20日川普就任美國總統,DeepSeek於同一天發布他的推理模型「DeepSeek R1」,這個模型與Open AI的o1的性能相距不遠,互有高下。

DeepSeek R1的使用價格較o1便宜很多,每百萬輸入Token為0.14至0.55美元,而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元,o1每百萬輸出Token為60美元。

DeepSeek R1 與 OpenAI o1成本比較

模型 輸入價格 (每百萬Token) 輸出價格 (每百萬Token)
DeepSeek R1 0.14-0.55美元 2.19美元
o1 7-15美元 60美元

DeepSeek R1開始在全球廣受注意,在很多地區AI類App的下載次數名列前茅,短短數星期,目前累積下載次數超過1,800萬次。

DeepSeek R1、V3皆是開源模型,使用者可自由下載模型,然後安裝在自己的終端設備上,個人電腦加裝高階的圖形顯示卡後,即可將DeepSeek R1或DeepSeek V3安裝在電腦上自己運作。

DeepSeek創辦人「洞燭先機」,3年前就開始研發LLM及採購輝達GPU

DeepSeek是中國AI公司DeepSeek(深度求索)推出的AI模型,背後是一家利用AI進行投資的對沖基金「幻方量化」(High-Flyer)所設立。該公司積極研發機器學習、深度學習等建立AI進行金融操作,共同創辦人是現年40歲的梁文鋒與其2位浙江大學同窗。

幻方量化的AI模型非常成功,因此能在金融市場獲得豐碩的報酬,2022年ChatGPT問世後,梁文鋒應該注意到AI新時代來臨,推想他應該已經在幻方量化公司內開始研發大語言模型,並且採購輝達的GPU。

延伸閱讀:
黃仁勳是DeepSeek暴紅推手?為何輝達寧可「便宜AI」崛起,也不願放棄中國市場?

DeepSeek 553天關鍵布局

2023年7月17日,幻方量化成立DeepSeek,招募100多位博士生、碩士生、大學剛畢業、或畢業一兩年的青年。重點是這些員工是成績名列前茅,並且有在國外知名期刊發表過論文的紀錄。

2023年10月28日,DeepSeek成立僅3個多月,旋即發表DeepSeek-Coder,這是DeepSeek的第一個大語言模型。

1個月後、也就是11月29日,DeepSeek發表DeepSeek-LLM。

2023年12月15日,DeepSeek發表DreamCraft3D,這是一個3D生成模型。

成立短短5個多月,DeepSeek發表4個大語言模型,成就相當驚人。

進入2024年,DeepSeek在技術更加精進,發表出性能更佳的大語言模型。

2024年1月11日,DeepSeek發布DeepSeek-MoE,這是個「混合專家模型」,效能超越Llama 2-7B,且計算量降低60%。

2024年2月5日,DeepSeek發布DeepSeekMath,DeepSeekMath在競賽級「MATH基準」測試中取得了51.7%的優異成績,效能接近Gemini-Ultra和GPT-4的水準。

2024年3月11日,DeepSeek發布DeepSeek-VL。

2024年5月,DeepSeek發布MoE大模型DeepSeek-V2,該模型為開源,不僅公開技術內容,並且可讓大家自由下載模型。DeepSeek-V2的API定價為每百萬Tokens輸入人民幣1元、輸出人民幣2元,價格僅為GPT-4 Turbo的百分之一。

2024年6月17日,DeepSeek發表DeepSeek-Coder-V2。DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。

2024年8月16日,DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。

2024年9月5日,DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。

2024年11月20日,DeepSeek 發布 DeepSeek-R1-Lite,這是DeepSeek第一個推理模型,是DeepSeek-R1的先行版。

2024年12月13日,DeepSeek發布用於高級「多模態理解的專家混合視覺語言模型」DeepSeek-VL2。

2024年12月26日,DeepSeek發布DeepSeek-V3,這也是開源模型。DeepSeek-V3的評測成績超越Qwen2.5-72B和LLaMA 3.1-405B等開源模型。與GPT-4o、Claude 3.5-Sonnet等閉源模型性能相抗衡。

2025年1月20日,發布DeepSeek-R1開源模型,在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

2025年1月27日,發布多模態大模型Janus-Pro

DeepSeek「無懼禁令」,俄羅斯、伊朗也能循DeepSeek模式?

DeepSeek的模型能夠受到西方世界的注意及使用,主要是直接可在線上透過App或網站下載,不像其他中國開發的大語言模型必須與微信等綁定。

DeepSeek在2024年共發布10個大語言模型,最後發表的DeepSeek-V3獲得美國AI產業界的重視,讓大家見識到運算資源受限的中國,也能用相對較少的資金,開發出性能優越的大語言模型。

其他受美國管制AI晶片出口的國家(如俄羅斯、伊朗、巴基斯坦等),或許也能夠循此模式,開發出類似的大語言模型。

DeepSeek.jpg
DeepSeek是由中國對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司,對此獨立科技新聞記者高燦鳴(Tim Culpan)指出,Deepseek的突破性進展,「可歸功於其獨特的量化背景。」
圖/ shutterstock

進入2025年,DeepSeek於1月20日發布DeepSeek-R1模型,這也是開源模型。DeepSeek-R1在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

DeepSeek-R1發布後效應擴大,讓許多人懷疑,將來建立大語言模型時不需要像之前一樣部署大量的GPU,導致1月28日輝達股價大跌17%。

2025年1月27日,DeepSeek發布多模態大模型Janus-Pro。

最後我們談DeepSeek-V3最後一次預訓練僅用55天、2048塊H800 GPU叢集,耗資557.6萬美元。這是DeepSeek-V3最後一次預訓練所使用的資源,實際上DeepSeek的算力資源遠大於此。

根據SemiAnalysis網站的資料,DeepSeek可運用的算力資源有A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU應該是幻方量化在2021年起就開始購買的,推測A100是禁令前購買,H800、H20應該是合法購買,因它們是為中國市場生產的降規版GPU。

這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元,因此DeepSeek雖然開發成本遠低於OpenAI等大咖,但是仍須25.73億美元,可見開發大語言模型是資金與腦力密集的投資。

延伸閱讀:DeepSeek解析2|輝達高階GPU成長因它放緩,「邊緣AI」將加速成長

關鍵字: #AI
往下滑看下一篇文章
五十年零售老店的 AI 轉型:良興攜手 Data-DI,打造專屬 AI Agent 賦能組織升級與知識傳承
五十年零售老店的 AI 轉型:良興攜手 Data-DI,打造專屬 AI Agent 賦能組織升級與知識傳承

1973 年,良興從台北光華商場一間 50 坪的電子零件行起家,半個世紀後蛻變為年營收破十億、毛利率 18% 的全通路 3C 品牌。不過,伴隨規模擴張帶來的不只是成長,還有日益加劇的管理摩擦。門市遍布全台、品項高達近萬筆,加上跨部門協作頻繁,行政耗損與知識傳承的缺口,成為這家老字號邁向下一階段的隱形天花板。

良興總經理賴志達回顧,從電子零件跨入電商、從線下擴張到 OMO 全通路、再到會員深度經營,作為 3C 零售業者,良興每一波轉型都走在同業前面。「現在輪到 AI 了。如何做到人機協作、AI 賦能,就是良興第五波轉型的核心命題。」

AI 自動化,從行政細節釋放組織戰力

轉型需要夥伴,而賴志達評估合作夥伴的標準很明確:技術能力是基本,產業知識(Domain Know-how)的深度是關鍵,回饋速度更是最終決定因素。2025 年的未來商務展上,良興選擇攜手 Data-DI,看重的正是其「策略諮詢 + AI 產品 + 落地陪跑」三軌並行的實施能力。

很快的,良興與 Data-DI 合作的第一個專案,就落在最耗費人力、卻最常被忽視的環節:會議記錄。「會議如果沒有產值、沒有效果,對企業很傷!」賴志達說,他每天參加許多會議,但跨單位協作的會議記錄長期依賴人工聆聽與逐字整理,常出現人名誤植、決策遺漏、行動項目無人追蹤,讓會議效果大打折扣。

數智聚(良興)_1.JPG
良興總經理賴志達
圖/ 數位時代

為了解決會議記錄的痛點,Data-DI 業務副總包威棣指出,在導入工具以前,團隊須先釐清三件事:場景是否具備落地價值、哪些流程節點適合 AI 介入,以及以終為始地掌握客戶真正想要的輸出樣貌。這些看似基本的提問,都決定 AI 能否精準落地。

確認方向後,良興與 Data-DI 成功導入 AI 會議記錄自動化系統,透過模糊比對技術校正語音辨識誤差,並將生成的雙版本報告直接回存至既有資料庫,不僅將行政人員從重複性作業中釋放,也為後續的 AI 應用奠定扎實的系統整合基礎。

賴志達分享,現在他去外部開會也會用這個工具,運用 AI 把錄音轉文字、再整理成簡報,很快就能完成,更令外部夥伴驚艷。「我認為這是很成功的案子!也提醒想做 AI 的老闆們,與其急著搞大架構,不如先從小工具讓公司嘗試 AI,建立理解和認同。」

AI 把資深員工大腦轉化為資產

補完行政效率的缺口後,良興接著切入更深層的營運核心:知識傳承。過去,頂尖銷售經驗長期鎖在少數資深員工身上,新人培訓耗時三個月,員工離職即帶走知識資本。與此同時,網路資訊發達,消費者進店前早已掌握基本規格,3C 通路門市人員要如何發揮更多價值?「我要門市的人不是死背規格,而是面對客人時,能用客人能理解的方式對話。」賴志達說。

為此,Data-DI 協助良興建置 AI 門市教育訓練系統。系統透過六大自動化關卡,串接教材生成、審核上架、AI 銷售對練與成績回報,主管僅需在核心節點審核;員工透過手機語音對練,系統依口吻、專業度、回應力等維度自動評分。賴志達表示,目標是將新人培訓期縮短至一個月,讓數十年累積的銷售智慧轉化為可複製、可傳承的企業資產。

然而,要讓這套系統真正運作,得先解決兩個根本問題:資料從哪裡來?以及訓練如何更準確?

「以前大數據時代,講的是資料要大、全、細、實;現在 AI 要做到的是準(準確)、合(合乎場景)。」包威棣說。良興不同廠商提供的素材品質參差不齊,Data-DI 除了整合內部資料,也補充加入外部市場評測內容以填補空缺,再透過人員審核機制過濾雜訊,搭配 agent 架構的多層步驟與知識限定,確保系統能精準提煉對應品類的訓練素材。

數智聚(良興)_2.JPG
Data-DI 業務副總包威棣
圖/ 數位時代

賴志達則看得更遠:「這些教育訓練的內容,也將成為公司未來訓練機器人很好的原料。」

Data-DI 陪跑型顧問,帶領企業 AI 轉型

良興與 Data-DI 合作的兩個專案中,雙方共同克服了長提示詞邏輯混亂、AI 幻覺污染知識庫、逐字稿讀取逾時等技術難題。邁向下一步,賴志達表示,公司各部門很早就建置 Power BI 報表,但數據豐富不等於決策清晰。「數據是土壤,如果沒有梳理,就沒有用了。」因此,他的下一個目標是活化數據資本、推動行銷自動流,以精實的人力持續驅動成長。

數智聚(良興)_3.jpg
良興攜手 Data-DI 推動 AI 落地,以小步快跑模式為企業創造變革。
圖/ 數位時代

包威棣則從顧問視角歸納兩個觀察:AI 導入需要高層認同、由上而下推進,像賴志達這樣持續引領良興走在業界前端的決策者,就是不可或缺的推手;而單點工具的價值,終究要累積成組織體質的轉變才算真正落地。「就像會議記錄改變了會議當責的結構,人員訓練改變了知識傳承的方式。從點狀應用走向企業變革,這種決策思路才是 AI 真正深入落地產生價值的關鍵。」

最後,對於仍在觀望AI應用的企業,他則建議:「未來 AI 導致的落差只會愈來愈大,人會變成超級工作者,企業會變成超級企業。開始做就對了,先做一個三個月的小任務,降低落差、再急起追上。」從痛點切入、小步快跑,讓組織在實作中累積對 AI 的理解與信任,這正是 Data-DI 的陪跑哲學。

有關更多 Data-DI 相關資訊,請查詢網站:https://www.data-di.com/

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
代理式商務連動百兆商機
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓