深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
2025.10.21 |

重點一:DeepSeek OCR 以「光學壓縮」技術處理寫滿文字的圖片,最高壓縮10倍且保留約97%資訊,讓AI可處理更長文件。

重點二:DeepSeek OCR 把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。

重點三:DeepSeek OCR 每天可以在單一 Nvidia A100 GPU 上處理超過 20 萬頁資料。如果使用 20 台伺服器,每台伺服器運行 8 塊 A100 處理器,吞吐量將躍升至每天 3,300 萬頁。

中國AI公司Deepseek(深度求索)於10月21日推出DeepSeek-OCR(光學文字辨識)系統,主打將以「影像」呈現的文字文件做高效率壓縮後再交由語言模型處理。其技術上核心訴求是:處理「影像中的文字」比直接處理「數位文字」更省算力。

而在應用上,這套系統的核心賣點也很簡單: 用更少的「視覺符號」(內部的影像單位)就能把文件讀懂,並輸出成可編輯的文字或結構化內容,包含表格、公式與圖表。

OCR讀起字來多有效率?DeepSeek技術報告指出,在維持約97%資訊的前提下,文字脈絡可被壓縮至最多10倍,從而延長LLM可承載的上下文長度,減少記憶體與推論成本。

系統也可將「對話歷史影像化並壓縮」,將較舊的聊天內容以低解析度保存,類似人類「漸漸遺忘」的機制:資料越久、越遠、越低解析,就越模糊。

DeepSeek-OCR的記憶機制
圖片以時間、距離和解析度為三個維度,說明了記憶、視覺和文字的清晰度變化。
圖/ DeepSeek-OCR的記憶機制

記憶刻度 :時間從「剛發生」到「1年」,清晰度由「Crystal Clear」逐步變成「Almost Gone」,描述人類記憶隨時間自然衰退。
視覺刻度:距離從 10 cm 到 20 m,越遠越不清楚,對應「看得近清楚、遠則模糊」的直覺感受。
文字刻度(解析度):從「Gundam」到「Tiny」等級,解析度越低、需要的「視覺符號」越少,文字呈現也越模糊,象徵以圖片方式壓縮舊文本。

這樣的優勢主要瞄準長文件處理、跨頁表格與圖形理解,以及跨語言(約100種)文件抽取,並在維持原始版面或輸出純文字的彈性間取得平衡。

白話來說,處理更少的符號,意味著更快的處理、更低的成本。對需要大量掃描、歸檔和資料萃取的工作類型,是最直接的效率紅利。

OCR如拼裝車!3步驟把資料「切塊再瘦身」

技術上,OCR如何辦到?DeepSeek‑OCR的做法是:把一頁文件當成「圖片」丟給AI,先切塊、再瘦身,最後才請懂圖又懂字的模型來讀。

第一步,前處理引擎DeepEncoder把版面「劃重點」:段落在哪、表格在哪、圖形在哪,別讓後面的模型浪費力氣在邊角裝飾(這裡用的是臉書母公司Meta的SAM,專門做影像分割)。

第二步是「資訊減肥」。例如原本一張1,024×1,024的頁面,會變成4,096個「視覺單位」(token),先經過壓縮器直接砍到256個,類似把會議逐字稿濃縮成重點條列,將算力和記憶體省下來。

第三步則是「理解」。其利用OpenAI的CLIP,負責把「看到的區塊」對上「語意」,也就是判斷這段到底在說什麼、這張圖在表達什麼。而因為前面已經切塊並瘦身,所以CLIP不用面對整頁的雜訊。

DeepSeek-OCR技術原理
Deepseek OCR先把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。
圖/ DeepSeek

結果,同樣的一頁文件,DeepSeek‑OCR通常只需要64到400個視覺token就能讀懂:一般簡報大約64個、書籍或報告約100個。而若遇到版面複雜的報紙,再打開所謂的「Gundam模式」把配額拉到最多800。對比傳統OCR動輒上千到上萬token,這套路線是「少算力、更多內容」。

 DeepSeek‑OCR 的輸入模式有三種
DeepSeek‑OCR 的輸入模式分成三類,對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。
圖/ DeepSeek

進一步來說,DeepSeek‑OCR的輸入模式分成三類,以對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。

• Tiny|Small:固定尺寸(約 512、640),輸出 64 或 100 個視覺符號。適合字數不多、版面簡單的頁面,用少量符號就能還原內容。
• Base|Large:較大尺寸(約 1024、1280),輸出 256 或 400 符號。以「補邊」保留原始長寬比;有效符號會因黑邊扣除而少於名義值。
• Gundam|Gundam‑Master:動態模式,把頁面切成 n 個局部視野,再加一張全局視野。

一日處理3,300萬頁!OCR資料集與權重全面開放

在實務部署方面,DeepSeek-OCR宣稱以單顆Nvidia A100每日可處理約200,000頁;若以20台伺服器、每台8顆A100組成叢集,日處理量可達3,300萬頁。此吞吐量不僅可支援企業級文件工作流,也有助於為LLM建構海量文字語料。

研究團隊訓練時使用約3,000萬頁PDF(含近百種語言,其中中文與英文約2,500萬頁),並加入1,000萬張合成圖表500萬份化學式100萬份幾何圖形以強化多模態文件理解。

更重要的是,官方開放程式碼模型權重,讓生態系可驗證與擴充此技術;在多語、保版面與純文字輸出之間提供彈性,適合長文件抽取、AI訓練語料建置,以及聊天機器人脈絡的「成本感知式」保存。

整體而言,DeepSeek-OCR以「影像壓縮+少量token」策略,將OCR從單純文字擷取,推進到可支援LLM長脈絡與結構化資料抽取的系統級能力。

英國資深網頁開發者Simon Willison實測指出,DeepSeek‑OCR 可在 NVIDIA Spark(ARM64 + CUDA)的環境中順利跑通,整體印象是:只要花時間選擇合適的「運行方式/提示」,DeepSeek‑OCR本身的模型表現「非常好」,足以在新硬體條件下完成高品質 OCR。

如何使用 DeepSeek OCR ?

一般讀者可用 Hugging Face 下載模型,安裝必要套件後,把圖片丟進範例程式即可做 OCR。其建議簡易流程如下:

  • 事前準備:有一台可用的電腦。若沒有 NVIDIA 顯示卡,也能跑,但會較慢;Hugging Face 頁面示範是用 NVIDIA GPU、CUDA 11.8。
  • 安裝工具:安裝 Python(建議 3.12)與套件管理工具(pip 即可)。
  • 安裝必要套件:torch 2.6.0、transformers 4.46.3、tokenizers 0.20.3、einops、addict、easydict;加速可選擇安裝 flash-attn 2.7.3
  • 取得模型:從 Hugging Face 載入模型名稱 deepseek-ai/DeepSeek-OCR
  • 放入圖片:把要辨識文字的圖片檔(如掃描的合約、收據、海報)指定到程式,執行後就會輸出文字或 Markdown。

延伸閱讀:Canva回來了!AWS雲端服務全面修復完成,快打開看Perplexity、Coinbase⋯⋯能不能用?

資料來源:DeepSeekDecoderSimon Willison’s Weblog

本文初稿為AI編撰,整理.編輯/ 李先泰

關鍵字: #AI工具 #DeepSeek
往下滑看下一篇文章
科技創新守護海洋!犀牛盾以循環創新思維破解塑膠危機、賦能永續未來
科技創新守護海洋!犀牛盾以循環創新思維破解塑膠危機、賦能永續未來

全球每年約生產4億噸塑膠垃圾,只有不到10%有被回收,其中約有1100萬至1400萬噸最終流入海洋。在十分有限的回收量中,約 8 成來自相對單純、流程完整的寶特瓶回收;反觀,同樣是高頻消費品的手機配件,回收率卻不到 1%。這個現象,對長期從事材料研究的犀牛盾共同創辦人暨執行長王靖夫來說,是他反思事業選擇的開端,也是突破的轉捩點。

「手機殼產業其實是塑膠產業的縮影!」他在2025 亞馬遜港都創新日的專題演講上直言。手機殼本質上類似一種快時尚商品,每年有超過十億個手機殼被製造,但產業並未建立材料規範,多數產品混用多種複合塑膠、填料與添加物,既難拆解、也沒有回收機制。結果是,一個重量相當於超過二十個塑膠袋的手機殼,在生命周期終點只能被視為垃圾。

王靖夫指出,連結構複雜的資訊科技產品,回收率都能達 45%,但手機殼明明是最簡單、最應該回收的產品,為什麼無法有效回收?這個命題讓他意識到,與其只做手機殼,不如正面處理塑膠問題本身,從材料設計、製程到後端回收再生,開創循環之道。

犀牛盾共同創辦人暨執行長王靖夫於2025 亞馬遜港都創新日分享犀牛盾如何回應塑膠挑戰、開創循環模式。
犀牛盾共同創辦人暨執行長王靖夫於2025 亞馬遜港都創新日分享犀牛盾如何回應塑膠挑戰、開創循環模式。
圖/ Amazon Web Services 提供

以材料工程打造手機殼的循環力

若塑膠要進入循環體系,前提是「材料必須足夠單純」。王靖夫很快意識到,問題不在回收端,關鍵在最開始的設計端。多數手機殼由多款不同塑膠、橡膠件甚至金屬等複合材料組成,無法被經濟化拆解,也難以透過現有流程再製。為此,犀牛盾在2017年起重新整理產品線,希望借鑑寶特瓶成功循環的經驗,擬定出手機殼應有的設計框架。

新框架以「單 1 材料、0 廢棄、100% 循環設計」為核心,犀牛盾從材料工程出發,建立一套循環路徑,包括:回收再生、溯源管控、材料配方、結構設計、循環製程、減速包裝與逆物流鏈等,使產品從生產到回收的每一階段,皆與核心精神環環相扣。

王靖夫表示,努力也終於有了成果。今年,第一批以回收手機殼再製的新產品已正式投入生產,犀牛盾 CircularNext 回收再生手機殼以舊殼打碎、造粒後再製成型;且經內部測試顯示,材料還可反覆再生六次以上仍維持耐用強度,產品生命週期大大突破「一次性」。

另外,今年犀牛盾也推出的新一代的氣墊結構手機殼 AirX,同樣遵守單一材料規範,透過結構設計打造兼具韌性、耐用、便於回收的產品。由此可見,產品要做到高機能與循環利用,並不一定矛盾。

犀牛盾從材料學出發,實現全線手機殼產品皆採「單 1 材料」與模組化設計,大幅提升回收循環再生效率。
犀牛盾從材料學出發,實現全線手機殼產品皆採「單 1 材料」與模組化設計,大幅提升回收循環再生效率。
圖/ 犀牛盾

海上掃地機器人將出海試營運

在實現可循環材料的技術後,王靖夫很快意識到另一項挑戰其實更在上游——若塑膠源源不斷流入環境,再強的循環體系也只是疲於追趕。因此,三年前,犀牛盾再提出一個更艱鉅的任務:「能不能做到塑膠負排放?」也就是讓公司不僅不再製造新的塑膠,還能把已散落在環境中的塑膠撿回來、重新變成可用原料。

這個想法也促成犀牛盾啟動「淨海計畫」。身為材料學博士,王靖夫將塑膠問題拆為三類:已經流落環境、難以回收的「考古塑膠(Legacy Plastic)」;仍在使用、若無管理便會成為下一批廢棄物的「現在塑膠(Modern Plastic)」;以及未來希望能在自然環境中真正分解的「未來塑膠(Future Plastic)」。若要走向負排放,就必須對三個路徑同時提出技術與管理解方。

其中最棘手的是考古塑膠,尤其是海洋垃圾。傳統淨灘方式高度仰賴人力,成本極高,且難以形成可規模化的商業模式,因此無法提供可持續的海廢來源作為製造原料。為突破這項瓶頸,犀牛盾決定自己「下海」撿垃圾,發展PoC(概念驗證)項目,打造以 AI 作為核心的淨海系統。

王靖夫形容,就像是一台「海上的掃地機器人」。結合巡海無人機進行影像辨識、太陽能驅動的母船作為能源與運算平台,再由輕量子船前往定位點進行海廢收集:目的就是提升撿拾效率,同時也累積資料,為未來的規模化建立雛形。

從海洋到河川,探索更多可能

淨海計畫的下一步,不只是把「海上的掃地機器人」做出來,王靖夫說:「目標是在全球各地複製擴張規模化、讓撿起的回收塑膠真正的再生利用。」也就是說,海上平台終究要從單點示範,走向可標準化、在不同海域與國家部署的技術模組,持續穩定地把海廢帶回經濟體。

犀牛盾CircularBlue™海洋廢棄物過濾平台初號機將出海試營運,盼解決沿岸海洋廢棄物問題。
犀牛盾CircularBlue™海洋廢棄物過濾平台初號機將出海試營運,盼解決沿岸海洋廢棄物問題。
圖/ 犀牛盾

他進一步指出,「其實這套系統不限於海洋,也可以在河川上。畢竟很多海洋垃圾是從河流來的。」未來若能推進到河川與港灣,將塑膠在進海之前就攔截下來,不僅有助於減少海洋污染,回收後的材料也更乾淨、更適合再生,步步朝向終極願景——隨著時間推進,海中垃圾愈來愈少,被撿起、回收後再生的塑膠會越來越多。

「我們已經證明兩件事的可行性:一端是產品的循環設計,一端是 AI 賦能海廢清理的可能性。」王靖夫笑說,塑膠管理命題不只為自己和公司找到新的長期目標,也讓他順利度過中年危機。「選擇改變,留給下一代更好的未來。」他相信,即便是一家做手機殼的公司,也能創造超乎想像的正向改變。

AWS 2025 亞馬遜港都創新日,集結產業先行者分享創新經驗。
AWS 2025 亞馬遜港都創新日,集結產業先行者分享創新經驗。
圖/ Amazon Web Services 提供

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
進擊的機器人
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓