DeepSeek OCR是什麼？怎麼用？DeepSeek-OCR原理一次懂|數位時代 BusinessNext

重點一：DeepSeek OCR 以「光學壓縮」技術處理寫滿文字的圖片，最高壓縮10倍且保留約97%資訊，讓AI可處理更長文件。

重點二：DeepSeek OCR 把文件當成圖片處理，用兩個擅長不同工作的模型分工合作，再用一個「16倍壓縮器」把需要計算的資料量大幅減少。

重點三：DeepSeek OCR 每天可以在單一 Nvidia A100 GPU 上處理超過 20 萬頁資料。如果使用 20 台伺服器，每台伺服器運行 8 塊 A100 處理器，吞吐量將躍升至每天 3,300 萬頁。

中國AI公司Deepseek（深度求索）於10月21日推出DeepSeek-OCR（光學文字辨識）系統，主打將以「影像」呈現的文字文件做高效率壓縮後再交由語言模型處理。其技術上核心訴求是：處理「影像中的文字」比直接處理「數位文字」更省算力。

而在應用上，這套系統的核心賣點也很簡單： 用更少的「視覺符號」（內部的影像單位）就能把文件讀懂，並輸出成可編輯的文字或結構化內容，包含表格、公式與圖表。

OCR讀起字來多有效率？DeepSeek技術報告指出，在維持約97%資訊的前提下，文字脈絡可被壓縮至最多10倍，從而延長LLM可承載的上下文長度，減少記憶體與推論成本。

系統也可將「對話歷史影像化並壓縮」，將較舊的聊天內容以低解析度保存，類似人類「漸漸遺忘」的機制：資料越久、越遠、越低解析，就越模糊。

記憶刻度 ：時間從「剛發生」到「1年」，清晰度由「Crystal Clear」逐步變成「Almost Gone」，描述人類記憶隨時間自然衰退。
視覺刻度：距離從 10 cm 到 20 m，越遠越不清楚，對應「看得近清楚、遠則模糊」的直覺感受。
文字刻度（解析度）：從「Gundam」到「Tiny」等級，解析度越低、需要的「視覺符號」越少，文字呈現也越模糊，象徵以圖片方式壓縮舊文本。

這樣的優勢主要瞄準長文件處理、跨頁表格與圖形理解，以及跨語言（約100種）文件抽取，並在維持原始版面或輸出純文字的彈性間取得平衡。

白話來說，處理更少的符號，意味著更快的處理、更低的成本。對需要大量掃描、歸檔和資料萃取的工作類型，是最直接的效率紅利。

OCR如拼裝車！3步驟把資料「切塊再瘦身」

技術上，OCR如何辦到？DeepSeek‑OCR的做法是：把一頁文件當成「圖片」丟給AI，先切塊、再瘦身，最後才請懂圖又懂字的模型來讀。

第一步，前處理引擎DeepEncoder把版面「劃重點」：段落在哪、表格在哪、圖形在哪，別讓後面的模型浪費力氣在邊角裝飾（這裡用的是臉書母公司Meta的SAM，專門做影像分割）。

第二步是「資訊減肥」。例如原本一張1,024×1,024的頁面，會變成4,096個「視覺單位」（token），先經過壓縮器直接砍到256個，類似把會議逐字稿濃縮成重點條列，將算力和記憶體省下來。

第三步則是「理解」。其利用OpenAI的CLIP，負責把「看到的區塊」對上「語意」，也就是判斷這段到底在說什麼、這張圖在表達什麼。而因為前面已經切塊並瘦身，所以CLIP不用面對整頁的雜訊。

結果，同樣的一頁文件，DeepSeek‑OCR通常只需要64到400個視覺token就能讀懂：一般簡報大約64個、書籍或報告約100個。而若遇到版面複雜的報紙，再打開所謂的「Gundam模式」把配額拉到最多800。對比傳統OCR動輒上千到上萬token，這套路線是「少算力、更多內容」。

進一步來說，DeepSeek‑OCR的輸入模式分成三類，以對應不同「視覺符號」數量，以測試在各種壓縮比例下的表現。

• Tiny｜Small：固定尺寸（約 512、640），輸出 64 或 100 個視覺符號。適合字數不多、版面簡單的頁面，用少量符號就能還原內容。
• Base｜Large：較大尺寸（約 1024、1280），輸出 256 或 400 符號。以「補邊」保留原始長寬比；有效符號會因黑邊扣除而少於名義值。
• Gundam｜Gundam‑Master：動態模式，把頁面切成 n 個局部視野，再加一張全局視野。

一日處理3,300萬頁！OCR資料集與權重全面開放

在實務部署方面，DeepSeek-OCR宣稱以單顆Nvidia A100每日可處理約200,000頁；若以20台伺服器、每台8顆A100組成叢集，日處理量可達3,300萬頁。此吞吐量不僅可支援企業級文件工作流，也有助於為LLM建構海量文字語料。

研究團隊訓練時使用約3,000萬頁PDF（含近百種語言，其中中文與英文約2,500萬頁），並加入1,000萬張合成圖表、500萬份化學式、100萬份幾何圖形以強化多模態文件理解。

更重要的是，官方開放程式碼與模型權重，讓生態系可驗證與擴充此技術；在多語、保版面與純文字輸出之間提供彈性，適合長文件抽取、AI訓練語料建置，以及聊天機器人脈絡的「成本感知式」保存。

整體而言，DeepSeek-OCR以「影像壓縮＋少量token」策略，將OCR從單純文字擷取，推進到可支援LLM長脈絡與結構化資料抽取的系統級能力。

英國資深網頁開發者Simon Willison實測指出，DeepSeek‑OCR 可在 NVIDIA Spark（ARM64 + CUDA）的環境中順利跑通，整體印象是：只要花時間選擇合適的「運行方式／提示」，DeepSeek‑OCR本身的模型表現「非常好」，足以在新硬體條件下完成高品質 OCR。

如何使用 DeepSeek OCR ？

一般讀者可用 Hugging Face 下載模型，安裝必要套件後，把圖片丟進範例程式即可做 OCR。其建議簡易流程如下：

事前準備：有一台可用的電腦。若沒有 NVIDIA 顯示卡，也能跑，但會較慢；Hugging Face 頁面示範是用 NVIDIA GPU、CUDA 11.8。
安裝工具：安裝 Python（建議 3.12）與套件管理工具（pip 即可）。
安裝必要套件：torch 2.6.0、transformers 4.46.3、tokenizers 0.20.3、einops、addict、easydict；加速可選擇安裝 flash-attn 2.7.3。
取得模型：從 Hugging Face 載入模型名稱 deepseek-ai/DeepSeek-OCR。
放入圖片：把要辨識文字的圖片檔（如掃描的合約、收據、海報）指定到程式，執行後就會輸出文字或 Markdown。

延伸閱讀：Canva回來了！AWS雲端服務全面修復完成，快打開看Perplexity、Coinbase⋯⋯能不能用？

資料來源：DeepSeek、Decoder、Simon Willison’s Weblog

本文初稿為AI編撰，整理．編輯/ 李先泰

在被數位浪潮推著跑的時代，「斜槓」早已非新鮮事，近來更成為現代菁英的標準配備。而仲誼公關創辦人岳啟儒，便是「多工」的最佳代表。她每天要打理公司的日常事務，要錄製Podcast節目和線上課程，還要完成去參加各項馬拉松賽事的訓練菜單，兒子放假回家時，又要和寶貝們一起追動畫。對她而言，生活就像多個視窗同時運作的電腦螢幕，時刻都必須進行高強度的身分切換。

想管理如此多工的斜槓人生，岳啟儒是怎麼辦到的？

善用科技、數位工具，換取工作、生活平衡

「善用各種科技、數位工具，並找到對的方法，管理團隊，也管理自己。」她強調，AI並非取代人力的威脅，而是能讓工作更精準、更具創造力的外掛工具，因此她不僅鼓勵同仁積極嘗試運用AI，製作文案、生成各種視覺素材，更將仲誼的21周年慶主題，直接訂為「AI煥新」。

這種講求效率的思維，也被她應用在自我管理上，發展出一套「化整為零術」。岳啟儒相當擅長利用各種零碎的時間，處理繁雜公務，「我的美甲師知道，我選她是因為動作快、不聊天。」她笑稱，每每在做指甲、染髮等看似「等待」的空檔，她都會架起手機、戴上耳機，和同仁展開視訊會議，或是快速看資料、批閱文件。

有趣的是，這種將公務「化整為零」塞進碎片時間的策略，並非是為了做更多工作，重點其實是換取高品質的「時間」，「我將忙碌全部集中，就是為了把完整的時間留給生活、休息。」一旦她將角色切換回母親、自己時，那個時間區塊就必須是高純度、不被干擾的。

這也是為什麼，岳啟儒認為，「按摩」是最佳的修復方式之一。

她是從懷孕時，便開始接觸專業的孕婦真人按摩，後來因為工作繁忙，便逐漸將重心轉向居家按摩椅。她坦言，真人按摩雖然有溫度，但「預約」本身就是一種時間成本，加上師傅的素質不一，有時遇到狀況不佳或愛聊天的師傅，反而讓只想安靜、放鬆的她，更感焦慮。

為了解決困擾，早在幾年前，岳啟儒就購入了OSIM uDream Pro 5感養身椅，讓家中成為隨時待命的頂級SPA。近期，隨著AI持續演進，她看見「AI賦能」的更多可能，搭載全新科技的OSIM AI•5感養身椅 (uDream•AI)讓他為之一亮，「在數位時代，我們習慣看數據做決策，我也很好奇，uDream Pro已經夠頂尖了，AI•５感養身椅(按摩椅)能把『休息』這件事推升到什麼新高度？」

從憑感覺到看數據，掃臉就能讓AI「精準養身」

事實上，岳啟儒相當習慣與各領域頂尖人士合作，因此對「專業」有著極高標準，「AI•５感養身椅(按摩椅)最讓我驚豔的，就是科技含金量！尤其是搭載全新的AI影像健康監測，輕而易舉就變成了可視化的數據。」

在凡事講求數據的數位時代，AI•５感養身椅(按摩椅)與全球頂尖的AI健康科技公司Binah.ai合作，將原本抽象的疲勞「數據化」，使用者只需要透過手機、平板鏡頭，掃描臉部透過面部血容量與血流，無需穿戴任何裝置，系統就能精準解讀出呼吸頻率、心率，並據此分析出壓力指數，並建議當下最適合的按摩模式。岳啟儒強調，透過科學化的健康管理，讓她能客觀且全面掌握身心狀況，實現「精準休息」。

還原純正技法實力，岳啟儒讚許三國大師手技的真實深度

不只擁有精密運算的「科技腦」，AI•５感養身椅(按摩椅)更擁有「職人魂」。岳啟儒不斷讚許由「中、日、泰」三位國際級按摩大師設計的按摩技法；將中式滑推的撥筋推揉、日式精準到位的掌壓指壓、泰式拉伸的伸展頂背與扭轉，簡直是還原純正的按摩手技，讓每一次啟動，都能對應不同身體狀態與當下需求，層次更豐富，感受也更加立體。

總能在忙碌中找到縫隙出門旅遊的岳啟儒相當喜歡去泰國，每當她前往曼谷、清邁等城市「long stay」時，一定會天天到泰式SPA報到，「我超愛泰式按摩！只要有去泰國玩，都會去按好按滿！」

岳啟儒進一步說到，AI•５感養身椅(按摩椅)中日泰三種技法各有特色，但他最愛的「泰式拉伸按摩」，由泰國 Loft Thai 精品 SPA 首席大師 Khun Pie設計技法，再透過OSIM獨家專利按摩科技，真的是還原泰式按摩中最具代表性的頂背、拉伸、扭轉高難度技法，好像真人泰式按摩師傅在身邊，讓她相當驚訝——完全打破了按摩椅的既定想像與物理限制。對她來說，不用飛出國、不用承擔真人師傅狀況不一的風險，在家就能享受大師級的專業手感，正是最高效的享受。

沉浸式享受與黃金比例設計，打造心靈棲息地

岳啟儒還特別提到，「聽覺」是放鬆的重要一環。平常她就在家中，擺了法國頂級音響品牌Devialet，閒暇時放點音樂、洗滌心靈，「沒想到這次，OSIM就和Devialet合作了！」AI•５感養身椅(按摩椅)搭載了Devialet，讓聲音不只是背景音樂，而是具穿透力、包覆感的聲場，「我坐在椅子上播放音樂時，可以立刻進入自己的世界，專注、放鬆下來，有種與世隔絕的沉浸感。」其他包括能隨情緒與壓力指數變換的情境光、獨家配置的香氛，以及新加坡精品茶品牌TWG特調的甜夢茗茶(選配)，都讓按摩超越單純的「觸覺」，成為一場含括「5感」的全方位饗宴。

在先進的科技之外，作為經手過無數精品大秀的時尚推手，岳啟儒對居家美學向來不馬虎，「我就是個外貌協會！」她大笑道，好的按摩椅，不只要能修復身體，還要能融入現代居家風格，成為藝術擺設才行。

他形容AI•５感養身椅(按摩椅)「鸚鵡螺」的黃金比例的流線型設計，不僅在視覺上優雅和諧，更打破了傳統按摩椅的厚重感，即便不按摩時坐在上頭，也能成就一幅家中的最美風景。

「真正的成功，不是把行程表塞滿，而是懂得在忙碌中，保有對身體的覺察。」在岳啟儒看來，全馬跑步是她對意志力的鍛鍊，按摩則是她修復身心的基地，運動、按摩缺一不可，「只要知道身體當下的真實需求，找到讓自己精準休息的方式，可以是投資在一張好的養身椅，可以是一段完全獨處的空白時光，這都將成為下一次起跑的強大動能。」

深度求索發布DeepSeek-OCR：解密「光學壓縮」的文字速讀機制，為何AI學會遺忘反而省算力？