深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
2025.10.21 |

重點一:DeepSeek OCR 以「光學壓縮」技術處理寫滿文字的圖片,最高壓縮10倍且保留約97%資訊,讓AI可處理更長文件。

重點二:DeepSeek OCR 把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。

重點三:DeepSeek OCR 每天可以在單一 Nvidia A100 GPU 上處理超過 20 萬頁資料。如果使用 20 台伺服器,每台伺服器運行 8 塊 A100 處理器,吞吐量將躍升至每天 3,300 萬頁。

中國AI公司Deepseek(深度求索)於10月21日推出DeepSeek-OCR(光學文字辨識)系統,主打將以「影像」呈現的文字文件做高效率壓縮後再交由語言模型處理。其技術上核心訴求是:處理「影像中的文字」比直接處理「數位文字」更省算力。

而在應用上,這套系統的核心賣點也很簡單: 用更少的「視覺符號」(內部的影像單位)就能把文件讀懂,並輸出成可編輯的文字或結構化內容,包含表格、公式與圖表。

OCR讀起字來多有效率?DeepSeek技術報告指出,在維持約97%資訊的前提下,文字脈絡可被壓縮至最多10倍,從而延長LLM可承載的上下文長度,減少記憶體與推論成本。

系統也可將「對話歷史影像化並壓縮」,將較舊的聊天內容以低解析度保存,類似人類「漸漸遺忘」的機制:資料越久、越遠、越低解析,就越模糊。

DeepSeek-OCR的記憶機制
圖片以時間、距離和解析度為三個維度,說明了記憶、視覺和文字的清晰度變化。
圖/ DeepSeek-OCR的記憶機制

記憶刻度 :時間從「剛發生」到「1年」,清晰度由「Crystal Clear」逐步變成「Almost Gone」,描述人類記憶隨時間自然衰退。
視覺刻度:距離從 10 cm 到 20 m,越遠越不清楚,對應「看得近清楚、遠則模糊」的直覺感受。
文字刻度(解析度):從「Gundam」到「Tiny」等級,解析度越低、需要的「視覺符號」越少,文字呈現也越模糊,象徵以圖片方式壓縮舊文本。

這樣的優勢主要瞄準長文件處理、跨頁表格與圖形理解,以及跨語言(約100種)文件抽取,並在維持原始版面或輸出純文字的彈性間取得平衡。

白話來說,處理更少的符號,意味著更快的處理、更低的成本。對需要大量掃描、歸檔和資料萃取的工作類型,是最直接的效率紅利。

OCR如拼裝車!3步驟把資料「切塊再瘦身」

技術上,OCR如何辦到?DeepSeek‑OCR的做法是:把一頁文件當成「圖片」丟給AI,先切塊、再瘦身,最後才請懂圖又懂字的模型來讀。

第一步,前處理引擎DeepEncoder把版面「劃重點」:段落在哪、表格在哪、圖形在哪,別讓後面的模型浪費力氣在邊角裝飾(這裡用的是臉書母公司Meta的SAM,專門做影像分割)。

第二步是「資訊減肥」。例如原本一張1,024×1,024的頁面,會變成4,096個「視覺單位」(token),先經過壓縮器直接砍到256個,類似把會議逐字稿濃縮成重點條列,將算力和記憶體省下來。

第三步則是「理解」。其利用OpenAI的CLIP,負責把「看到的區塊」對上「語意」,也就是判斷這段到底在說什麼、這張圖在表達什麼。而因為前面已經切塊並瘦身,所以CLIP不用面對整頁的雜訊。

DeepSeek-OCR技術原理
Deepseek OCR先把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。
圖/ DeepSeek

結果,同樣的一頁文件,DeepSeek‑OCR通常只需要64到400個視覺token就能讀懂:一般簡報大約64個、書籍或報告約100個。而若遇到版面複雜的報紙,再打開所謂的「Gundam模式」把配額拉到最多800。對比傳統OCR動輒上千到上萬token,這套路線是「少算力、更多內容」。

 DeepSeek‑OCR 的輸入模式有三種
DeepSeek‑OCR 的輸入模式分成三類,對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。
圖/ DeepSeek

進一步來說,DeepSeek‑OCR的輸入模式分成三類,以對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。

• Tiny|Small:固定尺寸(約 512、640),輸出 64 或 100 個視覺符號。適合字數不多、版面簡單的頁面,用少量符號就能還原內容。
• Base|Large:較大尺寸(約 1024、1280),輸出 256 或 400 符號。以「補邊」保留原始長寬比;有效符號會因黑邊扣除而少於名義值。
• Gundam|Gundam‑Master:動態模式,把頁面切成 n 個局部視野,再加一張全局視野。

一日處理3,300萬頁!OCR資料集與權重全面開放

在實務部署方面,DeepSeek-OCR宣稱以單顆Nvidia A100每日可處理約200,000頁;若以20台伺服器、每台8顆A100組成叢集,日處理量可達3,300萬頁。此吞吐量不僅可支援企業級文件工作流,也有助於為LLM建構海量文字語料。

研究團隊訓練時使用約3,000萬頁PDF(含近百種語言,其中中文與英文約2,500萬頁),並加入1,000萬張合成圖表500萬份化學式100萬份幾何圖形以強化多模態文件理解。

更重要的是,官方開放程式碼模型權重,讓生態系可驗證與擴充此技術;在多語、保版面與純文字輸出之間提供彈性,適合長文件抽取、AI訓練語料建置,以及聊天機器人脈絡的「成本感知式」保存。

整體而言,DeepSeek-OCR以「影像壓縮+少量token」策略,將OCR從單純文字擷取,推進到可支援LLM長脈絡與結構化資料抽取的系統級能力。

英國資深網頁開發者Simon Willison實測指出,DeepSeek‑OCR 可在 NVIDIA Spark(ARM64 + CUDA)的環境中順利跑通,整體印象是:只要花時間選擇合適的「運行方式/提示」,DeepSeek‑OCR本身的模型表現「非常好」,足以在新硬體條件下完成高品質 OCR。

如何使用 DeepSeek OCR ?

一般讀者可用 Hugging Face 下載模型,安裝必要套件後,把圖片丟進範例程式即可做 OCR。其建議簡易流程如下:

  • 事前準備:有一台可用的電腦。若沒有 NVIDIA 顯示卡,也能跑,但會較慢;Hugging Face 頁面示範是用 NVIDIA GPU、CUDA 11.8。
  • 安裝工具:安裝 Python(建議 3.12)與套件管理工具(pip 即可)。
  • 安裝必要套件:torch 2.6.0、transformers 4.46.3、tokenizers 0.20.3、einops、addict、easydict;加速可選擇安裝 flash-attn 2.7.3
  • 取得模型:從 Hugging Face 載入模型名稱 deepseek-ai/DeepSeek-OCR
  • 放入圖片:把要辨識文字的圖片檔(如掃描的合約、收據、海報)指定到程式,執行後就會輸出文字或 Markdown。

延伸閱讀:Canva回來了!AWS雲端服務全面修復完成,快打開看Perplexity、Coinbase⋯⋯能不能用?

資料來源:DeepSeekDecoderSimon Willison’s Weblog

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #AI工具 #DeepSeek
往下滑看下一篇文章
兼顧創新與客戶需求,蔡司半導體以微影跟數位雙引擎助半導體客戶成長卓越
兼顧創新與客戶需求,蔡司半導體以微影跟數位雙引擎助半導體客戶成長卓越

在全球半導體產業鏈中,蔡司半導體製造科技(ZEISS Semiconductor Manufacturing Technology, ZEISS SMT)一向低調但卻扮演不可或缺的角色,例如,花費30餘年時間投入研發,與全球最大的晶片微影設備供應商艾司摩爾(ASML)合作推進極紫外光微影(EUV)技術,協助台積電等客戶將電路微縮至奈米甚至埃米級的精細尺度,打造更小、更快、更省電的晶片,靈活應對瞬息萬變的市場需求。

從EUV微影光學系統開始,ZEISS以光罩檢測與驗證、先進封裝與失效分析完善服務

「目前最令人振奮的進展是高數值孔徑EUV(High-NA-EUV)技術。」蔡司半導體技術長暨產品策略負責人Thomas Stammler博士表示,這項技術將幫助晶圓製造商邁向2奈米甚至埃米級製程,更好滿足人工智慧(AI)晶片等高效能應用需求。

蔡司半導體提供的服務不僅止於微影光學領域,隨著製程複雜度提升,蔡司因應客戶需求將產品服務範疇逐步擴展到光罩檢測、製程控制,以及先進封裝與失效分析等跨領域解決方案,協助半導體客戶創新與持續產業變革。

ZEISS SMT
蔡司半導體技術長暨產品策略負責人Thomas Stammler博士分享蔡司半導體的最新產品技術進程。
圖/ ZEISS SMT

例如,蔡司半導體推出光罩檢測與驗證系統–AIMS® EUV–協助晶圓製造廠模擬EUV設備的真實運作條件,判斷光罩上有那些關鍵缺陷,缺陷修復後還可以協助驗證是否有修復成功,確保光罩品質,進而保障良率與降低生產成本。

隨著先進製程逼近物理極限,產業轉向先進封裝尋找新突破:無論是以3DIC進行堆疊、還是以Chiplet進行模組化設計,都讓晶片可以在效能與能耗之間找到新平衡。蔡司看準這波趨勢,不僅提供異質整合相關設備,更將其在醫療影像、顯微鏡等領域累積的技術力,延伸到半導體檢測,讓解決方案更具差異化,也能快速回應市場變化。

化180年經驗為創新基礎,以數位化驅動持續創新

蔡司半導體為什麼能成為艾司摩爾EUV與High-NA-EUV微影設備的光學系統獨家供應商?答案來自近180年的技術底蘊與持續創新的企業文化。

「近180年的累積,讓我們能挑戰極端工藝,例如打造原子級平整度的EUV鏡面。」Thomas Stammler進一步解釋,蔡司半導體不僅傳承傳統光學工藝,也擅於跨域創新,將演算法應用於光學設計、利用AI提升檢測精度,並透過數據串聯製程控制。

事實上,蔡司半導體早在許多年前就將數位化與人工智慧技術融入研發設計、生產製造與產品服務等環節,持續優化核心競爭力。舉例來說,為了讓EUV設備鏡面達到原子等級的平整度,蔡司半導體在設計階段便透過數據分析與人工智慧技術進行模擬、修正與驗證,確保鏡面平整度符合預期;此外,也將人工智慧與數位化科技應用在光罩檢測、修復、量測,確保產品功能有利於客戶發現與修復缺陷、進而提升良率等。

以客戶需求為核心,鏈結供應鏈資源與力量成就共好

「我們的數位化應用不僅是單純的優化產品,而是支持客戶共同研發,解決真正的營運痛點。」Thomas Stammler進一步指出,台灣半導體客戶具備技術領先地位,需要在地團隊與客戶進行定期且密切的互動溝通以確保創新模式與客戶需求一致。「我們有很多前瞻技術測試與驗證都是從台灣開始,這也是我們會持續加碼台灣投資的原因之一。」

台灣蔡司半導體總經理范雅亮面帶微笑地解釋:「台灣在全球半導體產業具關鍵地位,台灣團隊的角色不僅僅是銷售與售服,更參與研發與應用工程,鏈結全球資源,快速回應客戶問題,同時,確保技術解決方案與客戶需求一致。」

ZEISS SMT
台灣蔡司半導體總經理范雅亮表示,蔡司半導體的全球在地組織架構讓團隊成員可以快速回應客戶與市場需求。
圖/ ZEISS SMT

這份承諾,不僅是技術合作,亦體現在人才培育。為了讓在地團隊與德國總部保持同步,蔡司半導體建立跨國人才交流機制:不只是派台灣工程師到德國進行長期訓練,也讓德國專家定期來台灣與團隊共事,形成雙向交流的人才循環。「透過雙向交流模式,台灣工程師能第一時間掌握最新技術脈動,同時把在地客戶需求回饋給德國研發團隊,加速解決方案的落地。」范雅亮如是說道。

為了向台灣半導體產業生態圈傳遞:蔡司半導體全面布局「前段製程到後段封裝」並提供相應產品服務,於SEMICON Taiwan 2025國際半導體展期間,以論壇跟專家座談等多元形式與台灣生態圈互動,以全球資源、在地合作的方式,與台灣半導體產業生態圈一同前行。

展望未來,蔡司半導體不僅會持續投入技術創新,也會從各個面向深化與台灣的連結,協助客戶持續突破極限,邁向卓越成長。

更多資訊歡迎官網了解:蔡司半導體

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
一次搞懂Vibe Coding
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓