深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
2025.10.21 |

重點一:DeepSeek OCR 以「光學壓縮」技術處理寫滿文字的圖片,最高壓縮10倍且保留約97%資訊,讓AI可處理更長文件。

重點二:DeepSeek OCR 把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。

重點三:DeepSeek OCR 每天可以在單一 Nvidia A100 GPU 上處理超過 20 萬頁資料。如果使用 20 台伺服器,每台伺服器運行 8 塊 A100 處理器,吞吐量將躍升至每天 3,300 萬頁。

中國AI公司Deepseek(深度求索)於10月21日推出DeepSeek-OCR(光學文字辨識)系統,主打將以「影像」呈現的文字文件做高效率壓縮後再交由語言模型處理。其技術上核心訴求是:處理「影像中的文字」比直接處理「數位文字」更省算力。

而在應用上,這套系統的核心賣點也很簡單: 用更少的「視覺符號」(內部的影像單位)就能把文件讀懂,並輸出成可編輯的文字或結構化內容,包含表格、公式與圖表。

OCR讀起字來多有效率?DeepSeek技術報告指出,在維持約97%資訊的前提下,文字脈絡可被壓縮至最多10倍,從而延長LLM可承載的上下文長度,減少記憶體與推論成本。

系統也可將「對話歷史影像化並壓縮」,將較舊的聊天內容以低解析度保存,類似人類「漸漸遺忘」的機制:資料越久、越遠、越低解析,就越模糊。

DeepSeek-OCR的記憶機制
圖片以時間、距離和解析度為三個維度,說明了記憶、視覺和文字的清晰度變化。
圖/ DeepSeek-OCR的記憶機制

記憶刻度 :時間從「剛發生」到「1年」,清晰度由「Crystal Clear」逐步變成「Almost Gone」,描述人類記憶隨時間自然衰退。
視覺刻度:距離從 10 cm 到 20 m,越遠越不清楚,對應「看得近清楚、遠則模糊」的直覺感受。
文字刻度(解析度):從「Gundam」到「Tiny」等級,解析度越低、需要的「視覺符號」越少,文字呈現也越模糊,象徵以圖片方式壓縮舊文本。

這樣的優勢主要瞄準長文件處理、跨頁表格與圖形理解,以及跨語言(約100種)文件抽取,並在維持原始版面或輸出純文字的彈性間取得平衡。

白話來說,處理更少的符號,意味著更快的處理、更低的成本。對需要大量掃描、歸檔和資料萃取的工作類型,是最直接的效率紅利。

OCR如拼裝車!3步驟把資料「切塊再瘦身」

技術上,OCR如何辦到?DeepSeek‑OCR的做法是:把一頁文件當成「圖片」丟給AI,先切塊、再瘦身,最後才請懂圖又懂字的模型來讀。

第一步,前處理引擎DeepEncoder把版面「劃重點」:段落在哪、表格在哪、圖形在哪,別讓後面的模型浪費力氣在邊角裝飾(這裡用的是臉書母公司Meta的SAM,專門做影像分割)。

第二步是「資訊減肥」。例如原本一張1,024×1,024的頁面,會變成4,096個「視覺單位」(token),先經過壓縮器直接砍到256個,類似把會議逐字稿濃縮成重點條列,將算力和記憶體省下來。

第三步則是「理解」。其利用OpenAI的CLIP,負責把「看到的區塊」對上「語意」,也就是判斷這段到底在說什麼、這張圖在表達什麼。而因為前面已經切塊並瘦身,所以CLIP不用面對整頁的雜訊。

DeepSeek-OCR技術原理
Deepseek OCR先把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。
圖/ DeepSeek

結果,同樣的一頁文件,DeepSeek‑OCR通常只需要64到400個視覺token就能讀懂:一般簡報大約64個、書籍或報告約100個。而若遇到版面複雜的報紙,再打開所謂的「Gundam模式」把配額拉到最多800。對比傳統OCR動輒上千到上萬token,這套路線是「少算力、更多內容」。

 DeepSeek‑OCR 的輸入模式有三種
DeepSeek‑OCR 的輸入模式分成三類,對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。
圖/ DeepSeek

進一步來說,DeepSeek‑OCR的輸入模式分成三類,以對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。

• Tiny|Small:固定尺寸(約 512、640),輸出 64 或 100 個視覺符號。適合字數不多、版面簡單的頁面,用少量符號就能還原內容。
• Base|Large:較大尺寸(約 1024、1280),輸出 256 或 400 符號。以「補邊」保留原始長寬比;有效符號會因黑邊扣除而少於名義值。
• Gundam|Gundam‑Master:動態模式,把頁面切成 n 個局部視野,再加一張全局視野。

一日處理3,300萬頁!OCR資料集與權重全面開放

在實務部署方面,DeepSeek-OCR宣稱以單顆Nvidia A100每日可處理約200,000頁;若以20台伺服器、每台8顆A100組成叢集,日處理量可達3,300萬頁。此吞吐量不僅可支援企業級文件工作流,也有助於為LLM建構海量文字語料。

研究團隊訓練時使用約3,000萬頁PDF(含近百種語言,其中中文與英文約2,500萬頁),並加入1,000萬張合成圖表500萬份化學式100萬份幾何圖形以強化多模態文件理解。

更重要的是,官方開放程式碼模型權重,讓生態系可驗證與擴充此技術;在多語、保版面與純文字輸出之間提供彈性,適合長文件抽取、AI訓練語料建置,以及聊天機器人脈絡的「成本感知式」保存。

整體而言,DeepSeek-OCR以「影像壓縮+少量token」策略,將OCR從單純文字擷取,推進到可支援LLM長脈絡與結構化資料抽取的系統級能力。

英國資深網頁開發者Simon Willison實測指出,DeepSeek‑OCR 可在 NVIDIA Spark(ARM64 + CUDA)的環境中順利跑通,整體印象是:只要花時間選擇合適的「運行方式/提示」,DeepSeek‑OCR本身的模型表現「非常好」,足以在新硬體條件下完成高品質 OCR。

如何使用 DeepSeek OCR ?

一般讀者可用 Hugging Face 下載模型,安裝必要套件後,把圖片丟進範例程式即可做 OCR。其建議簡易流程如下:

  • 事前準備:有一台可用的電腦。若沒有 NVIDIA 顯示卡,也能跑,但會較慢;Hugging Face 頁面示範是用 NVIDIA GPU、CUDA 11.8。
  • 安裝工具:安裝 Python(建議 3.12)與套件管理工具(pip 即可)。
  • 安裝必要套件:torch 2.6.0、transformers 4.46.3、tokenizers 0.20.3、einops、addict、easydict;加速可選擇安裝 flash-attn 2.7.3
  • 取得模型:從 Hugging Face 載入模型名稱 deepseek-ai/DeepSeek-OCR
  • 放入圖片:把要辨識文字的圖片檔(如掃描的合約、收據、海報)指定到程式,執行後就會輸出文字或 Markdown。

延伸閱讀:Canva回來了!AWS雲端服務全面修復完成,快打開看Perplexity、Coinbase⋯⋯能不能用?

資料來源:DeepSeekDecoderSimon Willison’s Weblog

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #AI工具 #DeepSeek
往下滑看下一篇文章
把身心狀態當公司財報管理?公關教母岳啟儒用AI,讓休息也能成為一門科學!
把身心狀態當公司財報管理?公關教母岳啟儒用AI,讓休息也能成為一門科學!

在被數位浪潮推著跑的時代,「斜槓」早已非新鮮事,近來更成為現代菁英的標準配備。而仲誼公關創辦人岳啟儒,便是「多工」的最佳代表。她每天要打理公司的日常事務,要錄製Podcast節目和線上課程,還要完成去參加各項馬拉松賽事的訓練菜單,兒子放假回家時,又要和寶貝們一起追動畫。對她而言,生活就像多個視窗同時運作的電腦螢幕,時刻都必須進行高強度的身分切換。

想管理如此多工的斜槓人生,岳啟儒是怎麼辦到的?

善用科技、數位工具,換取工作、生活平衡

「善用各種科技、數位工具,並找到對的方法,管理團隊,也管理自己。」她強調,AI並非取代人力的威脅,而是能讓工作更精準、更具創造力的外掛工具,因此她不僅鼓勵同仁積極嘗試運用AI,製作文案、生成各種視覺素材,更將仲誼的21周年慶主題,直接訂為「AI煥新」。

這種講求效率的思維,也被她應用在自我管理上,發展出一套「化整為零術」。岳啟儒相當擅長利用各種零碎的時間,處理繁雜公務,「我的美甲師知道,我選她是因為動作快、不聊天。」她笑稱,每每在做指甲、染髮等看似「等待」的空檔,她都會架起手機、戴上耳機,和同仁展開視訊會議,或是快速看資料、批閱文件。

有趣的是,這種將公務「化整為零」塞進碎片時間的策略,並非是為了做更多工作,重點其實是換取高品質的「時間」,「我將忙碌全部集中,就是為了把完整的時間留給生活、休息。」一旦她將角色切換回母親、自己時,那個時間區塊就必須是高純度、不被干擾的。

這也是為什麼,岳啟儒認為,「按摩」是最佳的修復方式之一。

她是從懷孕時,便開始接觸專業的孕婦真人按摩,後來因為工作繁忙,便逐漸將重心轉向居家按摩椅。她坦言,真人按摩雖然有溫度,但「預約」本身就是一種時間成本,加上師傅的素質不一,有時遇到狀況不佳或愛聊天的師傅,反而讓只想安靜、放鬆的她,更感焦慮。

為了解決困擾,早在幾年前,岳啟儒就購入了OSIM uDream Pro 5感養身椅,讓家中成為隨時待命的頂級SPA。近期,隨著AI持續演進,她看見「AI賦能」的更多可能,搭載全新科技的OSIM AI•5感養身椅 (uDream•AI)讓他為之一亮,「在數位時代,我們習慣看數據做決策,我也很好奇,uDream Pro已經夠頂尖了,AI•5感養身椅(按摩椅)能把『休息』這件事推升到什麼新高度?」

從憑感覺到看數據,掃臉就能讓AI「精準養身」

事實上,岳啟儒相當習慣與各領域頂尖人士合作,因此對「專業」有著極高標準,「AI•5感養身椅(按摩椅)最讓我驚豔的,就是科技含金量!尤其是搭載全新的AI影像健康監測,輕而易舉就變成了可視化的數據。」

在凡事講求數據的數位時代,AI•5感養身椅(按摩椅)與全球頂尖的AI健康科技公司Binah.ai合作,將原本抽象的疲勞「數據化」,使用者只需要透過手機、平板鏡頭,掃描臉部透過面部血容量與血流,無需穿戴任何裝置,系統就能精準解讀出呼吸頻率、心率,並據此分析出壓力指數,並建議當下最適合的按摩模式。岳啟儒強調,透過科學化的健康管理,讓她能客觀且全面掌握身心狀況,實現「精準休息」。

岳啟儒X數位時代-2-3
AI•5感養身椅(按摩椅)讓使用者只需要透過手機、平板鏡頭掃描臉部,統就能精準解讀出呼吸頻率、心率,並據此分析出壓力指數,並建議當下最適合的按摩模式。
圖/ OSIM

還原純正技法實力,岳啟儒讚許三國大師手技的真實深度

不只擁有精密運算的「科技腦」,AI•5感養身椅(按摩椅)更擁有「職人魂」。岳啟儒不斷讚許由「中、日、泰」三位國際級按摩大師設計的按摩技法;將中式滑推的撥筋推揉、日式精準到位的掌壓指壓、泰式拉伸的伸展頂背與扭轉,簡直是還原純正的按摩手技,讓每一次啟動,都能對應不同身體狀態與當下需求,層次更豐富,感受也更加立體。

總能在忙碌中找到縫隙出門旅遊的岳啟儒相當喜歡去泰國,每當她前往曼谷、清邁等城市「long stay」時,一定會天天到泰式SPA報到,「我超愛泰式按摩!只要有去泰國玩,都會去按好按滿!」

岳啟儒X數位時代-3.jpg
熱愛按摩的岳啟儒分享,AI•5感養身椅(按摩椅),真的是還原泰式按摩中最具代表性的頂背、拉伸、扭轉高難度技法,讓她一秒沉浸在泰國!
圖/ OSIM

岳啟儒進一步說到,AI•5感養身椅(按摩椅)中日泰三種技法各有特色,但他最愛的「泰式拉伸按摩」,由泰國 Loft Thai 精品 SPA 首席大師 Khun Pie設計技法,再透過OSIM獨家專利按摩科技,真的是還原泰式按摩中最具代表性的頂背、拉伸、扭轉高難度技法,好像真人泰式按摩師傅在身邊,讓她相當驚訝——完全打破了按摩椅的既定想像與物理限制。對她來說,不用飛出國、不用承擔真人師傅狀況不一的風險,在家就能享受大師級的專業手感,正是最高效的享受。

岳啟儒X數位時代-4.jpg
從AI•5感養身椅(按摩椅)「鸚鵡螺」的黃金比例的流線型設計、再到能隨情緒與壓力指數變換的情境光,OSIM全方位打造出現代人身心皆可放鬆的靜心角落。
圖/ OSIM

沉浸式享受與黃金比例設計,打造心靈棲息地

岳啟儒還特別提到,「聽覺」是放鬆的重要一環。平常她就在家中,擺了法國頂級音響品牌Devialet,閒暇時放點音樂、洗滌心靈,「沒想到這次,OSIM就和Devialet合作了!」AI•5感養身椅(按摩椅)搭載了Devialet,讓聲音不只是背景音樂,而是具穿透力、包覆感的聲場,「我坐在椅子上播放音樂時,可以立刻進入自己的世界,專注、放鬆下來,有種與世隔絕的沉浸感。」其他包括能隨情緒與壓力指數變換的情境光、獨家配置的香氛,以及新加坡精品茶品牌TWG特調的甜夢茗茶(選配),都讓按摩超越單純的「觸覺」,成為一場含括「5感」的全方位饗宴。

岳啟儒X數位時代-5.jpg
AI•5感養身椅(按摩椅)搭載了Devialet,讓聲音不只是背景音樂,而是具穿透力、包覆感,透過聽覺的深度感受,讓身體慢慢紓緩、專注在這一刻。
圖/ OSIM

在先進的科技之外,作為經手過無數精品大秀的時尚推手,岳啟儒對居家美學向來不馬虎,「我就是個外貌協會!」她大笑道,好的按摩椅,不只要能修復身體,還要能融入現代居家風格,成為藝術擺設才行。

他形容AI•5感養身椅(按摩椅)「鸚鵡螺」的黃金比例的流線型設計,不僅在視覺上優雅和諧,更打破了傳統按摩椅的厚重感,即便不按摩時坐在上頭,也能成就一幅家中的最美風景。

岳啟儒X數位時代-6.jpg
圖/ OSIM

「真正的成功,不是把行程表塞滿,而是懂得在忙碌中,保有對身體的覺察。」在岳啟儒看來,全馬跑步是她對意志力的鍛鍊,按摩則是她修復身心的基地,運動、按摩缺一不可,「只要知道身體當下的真實需求,找到讓自己精準休息的方式,可以是投資在一張好的養身椅,可以是一段完全獨處的空白時光,這都將成為下一次起跑的強大動能。」

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
2026 大重啟
© 2026 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓