DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局
DeepSeek解析1|神秘AI公司掀起全球AI風暴,一篇看懂553天關鍵布局

2025年開年沒多久,中國AI公司DeepSeek(深度求索)發布低成本AI模型DeepSeek,讓全世界都嚇了不小一跳:在受到美國牽制的背景下,這家神秘AI公司究竟是如何利用有限的資源,做出性能不輸OpenAI的AI模型?本篇文章回顧DeepSeek從成立到發布DeepSeek R1的553天,究竟經歷了什麼?

1月13日,彭博資訊(Bloomberg)專欄作家、美國喬治梅森大學經濟學教授柯恩(Tyler Cowen)發表一篇文章,談及中國在拜登政府嚴格禁止AI晶片隊中國出口的環境下,仍然能夠創造出與知名的ChatGPT、Claude等模型不相上下的大語言模型。

柯恩在文章提及「DeepSeek V3」,經過他使用好幾天後,認為這是幾年來他用過的眾多大語言模型(LLM)中,可以名列前茅的LLM。

DeepSeek V3速度快、好用,而且有免費版。雖然在對於精深或困難問題的回應,DeepSeek V3還比不上美國的頂尖LLM,不過柯恩仍然把它列入第一流,包括一些測試人員,很多人也都認為DeepSeek V3表現傑出。

DeepSeek_shutterstock_2577325425.jpg
圖/ shutterstock

DeepSeek-V3這款參數高達6,710億的大語言模型,在預訓練階段(pre-training,指在一個較小的、特定任務的數據集上進行微調fine-tuning之前,先在一個大數據集上訓練模型的過程)只用了55天,使用2048張H800 GPU叢集,費用僅557.6萬美元。這對動輒必須耗資數十億美元訓練大語言模型的美國先進AI公司而言,無異是敲出一記警鐘。

以往開發大語言模型需要龐大的資源,必須購買數量龐大的AI伺服器,建立人數眾多的研發團隊,因此投入資金從數十億美元起跳。

如今大語言模型投入的資源可大幅降低,這將會有更多的公司投入大語言模型的開發,尋求新的商機。

柯恩這篇專欄發表後,市場淡然處之,不知之後「風暴」將起。

DeepSeek開源、便宜、性能佳,讓全球瘋狂下載

1月20日川普就任美國總統,DeepSeek於同一天發布他的推理模型「DeepSeek R1」,這個模型與Open AI的o1的性能相距不遠,互有高下。

DeepSeek R1的使用價格較o1便宜很多,每百萬輸入Token為0.14至0.55美元,而o1每百萬輸入Token為7至15美元。DeepSeek R1每百萬輸出Token為2.19美元,o1每百萬輸出Token為60美元。

DeepSeek R1 與 OpenAI o1成本比較

模型 輸入價格 (每百萬Token) 輸出價格 (每百萬Token)
DeepSeek R1 0.14-0.55美元 2.19美元
o1 7-15美元 60美元

DeepSeek R1開始在全球廣受注意,在很多地區AI類App的下載次數名列前茅,短短數星期,目前累積下載次數超過1,800萬次。

DeepSeek R1、V3皆是開源模型,使用者可自由下載模型,然後安裝在自己的終端設備上,個人電腦加裝高階的圖形顯示卡後,即可將DeepSeek R1或DeepSeek V3安裝在電腦上自己運作。

DeepSeek創辦人「洞燭先機」,3年前就開始研發LLM及採購輝達GPU

DeepSeek是中國AI公司DeepSeek(深度求索)推出的AI模型,背後是一家利用AI進行投資的對沖基金「幻方量化」(High-Flyer)所設立。該公司積極研發機器學習、深度學習等建立AI進行金融操作,共同創辦人是現年40歲的梁文鋒與其2位浙江大學同窗。

幻方量化的AI模型非常成功,因此能在金融市場獲得豐碩的報酬,2022年ChatGPT問世後,梁文鋒應該注意到AI新時代來臨,推想他應該已經在幻方量化公司內開始研發大語言模型,並且採購輝達的GPU。

延伸閱讀:
黃仁勳是DeepSeek暴紅推手?為何輝達寧可「便宜AI」崛起,也不願放棄中國市場?

DeepSeek 553天關鍵布局

2023年7月17日,幻方量化成立DeepSeek,招募100多位博士生、碩士生、大學剛畢業、或畢業一兩年的青年。重點是這些員工是成績名列前茅,並且有在國外知名期刊發表過論文的紀錄。

2023年10月28日,DeepSeek成立僅3個多月,旋即發表DeepSeek-Coder,這是DeepSeek的第一個大語言模型。

1個月後、也就是11月29日,DeepSeek發表DeepSeek-LLM。

2023年12月15日,DeepSeek發表DreamCraft3D,這是一個3D生成模型。

成立短短5個多月,DeepSeek發表4個大語言模型,成就相當驚人。

進入2024年,DeepSeek在技術更加精進,發表出性能更佳的大語言模型。

2024年1月11日,DeepSeek發布DeepSeek-MoE,這是個「混合專家模型」,效能超越Llama 2-7B,且計算量降低60%。

2024年2月5日,DeepSeek發布DeepSeekMath,DeepSeekMath在競賽級「MATH基準」測試中取得了51.7%的優異成績,效能接近Gemini-Ultra和GPT-4的水準。

2024年3月11日,DeepSeek發布DeepSeek-VL。

2024年5月,DeepSeek發布MoE大模型DeepSeek-V2,該模型為開源,不僅公開技術內容,並且可讓大家自由下載模型。DeepSeek-V2的API定價為每百萬Tokens輸入人民幣1元、輸出人民幣2元,價格僅為GPT-4 Turbo的百分之一。

2024年6月17日,DeepSeek發表DeepSeek-Coder-V2。DeepSeek-Coder-V2在程式設計和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等模型。

2024年8月16日,DeepSeek同時發布DeepSeek-Prover-V1.5和DeepSeek-Prover-V1。

2024年9月5日,DeepSeek 宣布合併 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。

2024年11月20日,DeepSeek 發布 DeepSeek-R1-Lite,這是DeepSeek第一個推理模型,是DeepSeek-R1的先行版。

2024年12月13日,DeepSeek發布用於高級「多模態理解的專家混合視覺語言模型」DeepSeek-VL2。

2024年12月26日,DeepSeek發布DeepSeek-V3,這也是開源模型。DeepSeek-V3的評測成績超越Qwen2.5-72B和LLaMA 3.1-405B等開源模型。與GPT-4o、Claude 3.5-Sonnet等閉源模型性能相抗衡。

2025年1月20日,發布DeepSeek-R1開源模型,在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

2025年1月27日,發布多模態大模型Janus-Pro

DeepSeek「無懼禁令」,俄羅斯、伊朗也能循DeepSeek模式?

DeepSeek的模型能夠受到西方世界的注意及使用,主要是直接可在線上透過App或網站下載,不像其他中國開發的大語言模型必須與微信等綁定。

DeepSeek在2024年共發布10個大語言模型,最後發表的DeepSeek-V3獲得美國AI產業界的重視,讓大家見識到運算資源受限的中國,也能用相對較少的資金,開發出性能優越的大語言模型。

其他受美國管制AI晶片出口的國家(如俄羅斯、伊朗、巴基斯坦等),或許也能夠循此模式,開發出類似的大語言模型。

DeepSeek.jpg
DeepSeek是由中國對沖基金「幻方量化」(High-Flyer)於2023年成立的新創公司,對此獨立科技新聞記者高燦鳴(Tim Culpan)指出,Deepseek的突破性進展,「可歸功於其獨特的量化背景。」
圖/ shutterstock

進入2025年,DeepSeek於1月20日發布DeepSeek-R1模型,這也是開源模型。DeepSeek-R1在數學、代碼、自然語言推理等任務上,效能與OpenAI o1正式版相當。

DeepSeek-R1發布後效應擴大,讓許多人懷疑,將來建立大語言模型時不需要像之前一樣部署大量的GPU,導致1月28日輝達股價大跌17%。

2025年1月27日,DeepSeek發布多模態大模型Janus-Pro。

最後我們談DeepSeek-V3最後一次預訓練僅用55天、2048塊H800 GPU叢集,耗資557.6萬美元。這是DeepSeek-V3最後一次預訓練所使用的資源,實際上DeepSeek的算力資源遠大於此。

根據SemiAnalysis網站的資料,DeepSeek可運用的算力資源有A100 1萬張、H20 3萬張、H800 1萬張、H100 1萬張。這些GPU應該是幻方量化在2021年起就開始購買的,推測A100是禁令前購買,H800、H20應該是合法購買,因它們是為中國市場生產的降規版GPU。

這些GPU加上組裝成伺服器及營運成本4年預估總共約25.73億美元,因此DeepSeek雖然開發成本遠低於OpenAI等大咖,但是仍須25.73億美元,可見開發大語言模型是資金與腦力密集的投資。

延伸閱讀:DeepSeek解析2|輝達高階GPU成長因它放緩,「邊緣AI」將加速成長

關鍵字: #AI
往下滑看下一篇文章
從 70 個帳號到 One hengstyle!恆隆行打造單一入口,實現零阻力體驗、品牌關懷不斷線
從 70 個帳號到 One hengstyle!恆隆行打造單一入口,實現零阻力體驗、品牌關懷不斷線

Omnichat 如何讓對話發揮更多價值?在零售數位轉型浪潮下,顧客跨越線上線下,期待的是不中斷的體驗。但當據點與品牌日益龐雜,服務容易斷線,品牌該如何化解?

走過65年的恆隆行,代理超過29個國際品牌、據點遍布全台,為了突破這道難題,恆隆行打通零阻力的顧客關係路徑,實現品牌關懷。

多品牌、多通路的隱憂——體驗為何斷線?

「過去只要把好產品賣出去就好,但現在顧客期待的不只是商品,而是完整的體驗。」恆隆行長期發展處副總陳思樺指出,恆隆行同時兼具代理、品牌與零售三重角色,若仍停留在以「產品為中心」的模式,隱憂很快浮現。

五年前,恆隆行在全台已有逾70個專櫃,各自經營 LINE 帳號。顧客跨櫃位或跨品牌諮詢時,因難以全面控管,提供風格一致、資訊齊全的回應,是一大挑戰;售後服務需要完整資訊,轉介客服的流程變冗長。

Omnichat
恆隆行長期發展處副總陳思樺指出:「互動紀錄分散在不同帳號與部門,難以回溯完整旅程,也無法沉澱為後續的行銷與服務資產。」
圖/ 數位時代

「顧客明明都是恆隆行的消費者,卻可能在不同櫃位得到不同解答,這就是必須解決的阻力!」陳思樺坦言,互動紀錄分散在不同帳號與部門,難以回溯完整旅程,也無法沉澱為後續的行銷與服務資產。對一個代理29個品牌、橫跨多通路的企業而言,零散不僅削弱體驗,也消耗內部人力。

這些挑戰讓恆隆行意識到,唯有在建立「一致性的品牌信任感」,並確實實踐「無阻力服務」,才能贏得顧客信任。

恆隆行從品牌關懷出發,打造零阻力的流暢服務體驗

帶著這樣的決心,恆隆行在2024年展開整合計畫。最核心、也是最棘手的任務,是將原本分散在各門市的70至80個 LINE 帳號,收斂為單一入口,並以三合一選單架構,滿足顧客在門市消費、線上購物、會員服務,甚至是品味生活的多元需求。

Omnichat
恆隆行透過 LINE 官方帳號單一入口,將客服與門市串聯起來,滿足顧客在門市消費、線上購物、會員服務以及提升生活品味的多元需求。
圖/ 恆隆行

透過 LINE 官方帳號單一入口,客服與門市首次真正串聯起來。當顧客有維修需求時,櫃位人員能即時將案件指派至後勤單位,免去層層等待;顧客掃描 QR Code 綁定熟悉的銷售人員後,即使離開門市,也能持續獲得建議與售後協助。現在,無論是客服維修或門市選物顧問,都能透過這個入口實現服務——從獲客、購買、售後保固到清潔耗材加購,任何階段都能延續一致體驗。

「顧客不只是收到推播,而是能延續自己的旅程,甚至和服務人員建立起信任連結,這就是品牌關懷。」陳思樺表示,這套架構也讓數據真正發揮作用。透過 Omnichat 與 91APP 串接,恆隆行得以整合瀏覽紀錄、點擊行為與線上線下購買紀錄等第一方數據,優化行銷推播,避免過度打擾,並累積更完整的洞察。

更重要的是,透過單一帳號的整合,成功打造出一個兼容多品牌、多銷售通路、多行銷管道的 LINE 官方帳號,在各品牌仍能保有個性化的溝通語氣與內容之際,仍統合進「One hengstyle」會員體系。換句話說,不論消費者來自直營門市、外部通路,或線上電商購買,最終都會成為 One hengstyle 會員,持續接受個人化服務。

恆隆行
恆隆行顧客掃描門市 QR Code 綁定銷售人員後,即使離開門市,也能持續透過LINE官方帳號獲得後續建議與售後協助,打造暖心OMO服務。
圖/ 恆隆行

除了打通任督二脈,對外要無阻力,對內也要滑順。系統架構要保持彈性,能符合恆隆行內部跨部門協作。以前客服沒有系統可以評估,現在則可利用跨部門報表功能,幫助第一線人員即時掌握進線數與處理時長,讓服務品質有跡可循。

Omnichat 如何讓對話發揮更多價值?

隨著系統上線,成效很快浮現。數據顯示,恆隆行直營門市顧客中,每三人就有一人持續在線互動,顯示他們不再是「買完就走」,而是因服務價值留下來。隨著好友數持續成長,恆隆行官方帳號的封鎖率穩定維持在 31% 以下,遠低於零售品牌平均 65%。更重要的是,LINE 官方帳號帶來的轉換率比整體平均高出35%,每月新增線下綁定超過5,000筆,逐步累積成跨品牌應用的基礎。

這些成果不僅改善了顧客體驗,也提升了內部效率。陳思樺表示:「對外,顧客的問題能更快解決、售後不中斷;對內,櫃位人員負擔減輕、效率更高,這就是我們想實現的零阻力!」她補充,為深化品牌關懷,恆隆行持續優化服務腳本,確保顧客在不同場景中都能延續信任。「我們要的不是短期的 fancy campaign,而是長期的對話與陪伴。」

未來,恆隆行除了以第一方數據為核心,持續為各品牌打造專屬體驗,把洞察應用到服務腳本與行銷策略,後台報表也將強化分流與品質監控,讓內外流程更順暢。同時,也期待與 Omnichat 探索 AI 應用,例如將電話需求無縫轉接至 LINE、讓自動化回覆更具人味等,把「零阻力服務」推向更多場景。

Omnichat 台灣總經理翁忻閎回顧過往經驗指出:「很多單位一開始並不理解為什麼要改變,我們就透過 workshop 與教育訓練,協助內部釐清痛點、建立共識。」但他也強調,成功的關鍵不只在技術,而是企業轉型的決心以及統合方向的能力。「品牌要先想清楚,究竟希望帶給顧客什麼樣的一致體驗?內部目標是否對齊?」

他認為,唯有基礎建設完善、方向一致,OMO 才能真正落地,而 AI 等新技術也才能在這些基礎上發揮價值。恆隆行的轉型便是一例:將分散的服務觸點收斂為單一旅程,最終轉化為零阻力的品牌關懷。當顧客在任何節點都能感受到信任與連結時,零售商才真正掌握了主動權。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
蘋果能再次偉大?
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓