深度求索發布DeepSeek-OCR:解密「光學壓縮」的文字速讀機制,為何AI學會遺忘反而省算力?
重點一:DeepSeek OCR 以「光學壓縮」技術處理寫滿文字的圖片,最高壓縮10倍且保留約97%資訊,讓AI可處理更長文件。
重點二:DeepSeek OCR 把文件當成圖片處理,用兩個擅長不同工作的模型分工合作,再用一個「16倍壓縮器」把需要計算的資料量大幅減少。
重點三:DeepSeek OCR 每天可以在單一 Nvidia A100 GPU 上處理超過 20 萬頁資料。如果使用 20 台伺服器,每台伺服器運行 8 塊 A100 處理器,吞吐量將躍升至每天 3,300 萬頁。
中國AI公司Deepseek(深度求索)於10月21日推出DeepSeek-OCR(光學文字辨識)系統,主打將以「影像」呈現的文字文件做高效率壓縮後再交由語言模型處理。其技術上核心訴求是:處理「影像中的文字」比直接處理「數位文字」更省算力。
而在應用上,這套系統的核心賣點也很簡單: 用更少的「視覺符號」(內部的影像單位)就能把文件讀懂,並輸出成可編輯的文字或結構化內容,包含表格、公式與圖表。
OCR讀起字來多有效率?DeepSeek技術報告指出,在維持約97%資訊的前提下,文字脈絡可被壓縮至最多10倍,從而延長LLM可承載的上下文長度,減少記憶體與推論成本。
系統也可將「對話歷史影像化並壓縮」,將較舊的聊天內容以低解析度保存,類似人類「漸漸遺忘」的機制:資料越久、越遠、越低解析,就越模糊。
記憶刻度 :時間從「剛發生」到「1年」,清晰度由「Crystal Clear」逐步變成「Almost Gone」,描述人類記憶隨時間自然衰退。
視覺刻度:距離從 10 cm 到 20 m,越遠越不清楚,對應「看得近清楚、遠則模糊」的直覺感受。
文字刻度(解析度):從「Gundam」到「Tiny」等級,解析度越低、需要的「視覺符號」越少,文字呈現也越模糊,象徵以圖片方式壓縮舊文本。
這樣的優勢主要瞄準長文件處理、跨頁表格與圖形理解,以及跨語言(約100種)文件抽取,並在維持原始版面或輸出純文字的彈性間取得平衡。
白話來說,處理更少的符號,意味著更快的處理、更低的成本。對需要大量掃描、歸檔和資料萃取的工作類型,是最直接的效率紅利。
OCR如拼裝車!3步驟把資料「切塊再瘦身」
技術上,OCR如何辦到?DeepSeek‑OCR的做法是:把一頁文件當成「圖片」丟給AI,先切塊、再瘦身,最後才請懂圖又懂字的模型來讀。
第一步,前處理引擎DeepEncoder把版面「劃重點」:段落在哪、表格在哪、圖形在哪,別讓後面的模型浪費力氣在邊角裝飾(這裡用的是臉書母公司Meta的SAM,專門做影像分割)。
第二步是「資訊減肥」。例如原本一張1,024×1,024的頁面,會變成4,096個「視覺單位」(token),先經過壓縮器直接砍到256個,類似把會議逐字稿濃縮成重點條列,將算力和記憶體省下來。
第三步則是「理解」。其利用OpenAI的CLIP,負責把「看到的區塊」對上「語意」,也就是判斷這段到底在說什麼、這張圖在表達什麼。而因為前面已經切塊並瘦身,所以CLIP不用面對整頁的雜訊。
結果,同樣的一頁文件,DeepSeek‑OCR通常只需要64到400個視覺token就能讀懂:一般簡報大約64個、書籍或報告約100個。而若遇到版面複雜的報紙,再打開所謂的「Gundam模式」把配額拉到最多800。對比傳統OCR動輒上千到上萬token,這套路線是「少算力、更多內容」。
進一步來說,DeepSeek‑OCR的輸入模式分成三類,以對應不同「視覺符號」數量,以測試在各種壓縮比例下的表現。
• Tiny|Small:固定尺寸(約 512、640),輸出 64 或 100 個視覺符號。適合字數不多、版面簡單的頁面,用少量符號就能還原內容。
• Base|Large:較大尺寸(約 1024、1280),輸出 256 或 400 符號。以「補邊」保留原始長寬比;有效符號會因黑邊扣除而少於名義值。
• Gundam|Gundam‑Master:動態模式,把頁面切成 n 個局部視野,再加一張全局視野。
一日處理3,300萬頁!OCR資料集與權重全面開放
在實務部署方面,DeepSeek-OCR宣稱以單顆Nvidia A100每日可處理約200,000頁;若以20台伺服器、每台8顆A100組成叢集,日處理量可達3,300萬頁。此吞吐量不僅可支援企業級文件工作流,也有助於為LLM建構海量文字語料。
研究團隊訓練時使用約3,000萬頁PDF(含近百種語言,其中中文與英文約2,500萬頁),並加入1,000萬張合成圖表、500萬份化學式、100萬份幾何圖形以強化多模態文件理解。
更重要的是,官方開放程式碼與模型權重,讓生態系可驗證與擴充此技術;在多語、保版面與純文字輸出之間提供彈性,適合長文件抽取、AI訓練語料建置,以及聊天機器人脈絡的「成本感知式」保存。
整體而言,DeepSeek-OCR以「影像壓縮+少量token」策略,將OCR從單純文字擷取,推進到可支援LLM長脈絡與結構化資料抽取的系統級能力。
英國資深網頁開發者Simon Willison實測指出,DeepSeek‑OCR 可在 NVIDIA Spark(ARM64 + CUDA)的環境中順利跑通,整體印象是:只要花時間選擇合適的「運行方式/提示」,DeepSeek‑OCR本身的模型表現「非常好」,足以在新硬體條件下完成高品質 OCR。
如何使用 DeepSeek OCR ?
一般讀者可用 Hugging Face 下載模型,安裝必要套件後,把圖片丟進範例程式即可做 OCR。其建議簡易流程如下:
事前準備:有一台可用的電腦。若沒有 NVIDIA 顯示卡,也能跑,但會較慢;Hugging Face 頁面示範是用 NVIDIA GPU、CUDA 11.8。
安裝工具:安裝 Python(建議 3.12)與套件管理工具(pip 即可)。
安裝必要套件:torch 2.6.0、transformers 4.46.3、tokenizers 0.20.3、einops、addict、easydict;加速可選擇安裝 flash-attn 2.7.3。
取得模型:從 Hugging Face 載入模型名稱 deepseek-ai/DeepSeek-OCR。
放入圖片:把要辨識文字的圖片檔(如掃描的合約、收據、海報)指定到程式,執行後就會輸出文字或 Markdown。
延伸閱讀:Canva回來了!AWS雲端服務全面修復完成,快打開看Perplexity、Coinbase⋯⋯能不能用?
資料來源:DeepSeek、Decoder、Simon Willison’s Weblog
本文初稿為AI編撰,整理.編輯/ 李先泰
更多報導
創新板可以當沖了!主管機關3大策略,朝「亞洲那斯達克」邁進
矽谷創投界炙手可熱的台灣人:陳恩平是誰?a16z也搶投資!他如何以「VC操刀手」逆轉人生?
其他人也在看


準鳳凰將生成「挑戰強颱」!未來2路徑出爐 專家曝1情況最危險:全台有感
氣象粉專「台灣颱風論壇|天氣特急」指出,熱帶性低氣壓TD29目前位於關島南方,系統組織及螺旋性趨於明顯,即將成為今年第26號颱風「鳳凰」,並在太平洋高壓導引下穩定朝西移動,預估下週一(10日)抵達菲律賓呂宋島附近,後續因太平洋高壓逐漸減弱、東退,將使颱風開始轉向...
CTWANT ・ 4 小時前
林昶佐衝芬蘭4個月「身形大縮水」!驚人落差嚇爛網:太可怕
政治中心/綜合報導台灣知名「閃靈樂團」主唱林昶佐去年宣布不再爭取連任,直到今年5月獲得總統府特聘為駐芬蘭大使,再次獲得關注,甚至一度遭到藍白立委質疑其能力是否合適,對此林昶佐7月飛往芬蘭開始全心工作,至今已經4個月的他突發在個人經營臉書專頁PO出一張與芬蘭現議員的合影,兩人驚人的「海拔落差」讓不少網友看了瞪大眼:「變好小隻!」。
民視 ・ 10 小時前
準鳳凰威力挑戰強颱!「1原因」北轉機率增高 路徑曝光恐直撲台灣
原本在關島附近的熱帶擾動90W,於今(4)日增強為熱帶性低氣壓TD29,中央氣象署預估,可能在今明2天就會生成為今年第26號颱風「鳳凰」。對此,氣象粉專表示,準鳳凰強度不排除可能達到強颱,且在周遭環境及另一波冷高壓影響下,北轉機率增高,極有可能直撲台灣東部。
三立新聞網 setn.com ・ 1 天前
準鳳凰颱風恐襲台! 氣象專家:11至13日風雨最強烈
關島南方海面的熱帶性低氣壓預計最快今(5)日增強為鳳凰颱風,並可能發展為一個風場廣大且強度高的颱風。氣象專家吳聖宇表示,目前預報路徑不排除登陸台灣,下周二至周四(11至13日)將是風雨影響最劇烈的時期,高壓強弱變化將是決定颱風北轉時間及角度的關鍵因素。
中天新聞網 ・ 2 小時前范姜彥豐遭貼軟爛男標籤 前東家回應實情:粿粿很沒水準
31歲女星粿粿(江瑋琳)上週曬出近18分鐘影片,澄清婚變的來龍去脈,其中她指出自己負擔多數家用,連房子的頭期款8成也是她出的,讓外界對范姜彥豐貼上了「軟爛男」印象。對此,媒體報導范姜的前東家凱渥表示,原本范姜算是他們的首席男模,婚前工作穩定,反批評粿粿這番話很沒水準。
中時新聞網 ・ 9 小時前
父母留下的老家變夢魘!300萬換不回手足情,專家揭繼承房產殘酷選擇題
「父母留下的房子,反而成了兄弟之間的難題!」網友買房知識家求助,他與弟弟共同繼承老家透天厝,兩人各持有一半產權,同時也共同背負110萬房貸。如今他自己購買的預售屋已交屋,面臨雙重貸款壓力,希望將舊家的一半產權以300萬賣給弟弟,卻因弟弟無法負擔每月1.8萬還款而陷入僵局。 這間24年屋齡的透天厝,根據鄰居前年成交紀錄,市值約760萬,網友開價300萬出售一半產權,其實已低於市場行情。問題核心在於弟弟的還款能力,若貸款410萬分30年償還,每月1.8萬的還款額確實讓許多人卻步。
賣厝阿明 ・ 1 天前
范姜彥豐被塑造成軟飯男!前東家看不下去 揭解約內幕:粿粿很沒水準
[FTNN新聞網]記者黃鈺晴/綜合報導范姜彥豐日前出面指控妻子粿粿婚內出軌王子(邱勝翊),對此,粿粿也發出17分鐘的長片回應,其中提到自己一肩扛起家計,家...
FTNN新聞網 ・ 10 小時前
謝侑芯飛大馬找黃明志!雪碧PO生前最後對話:起雞皮疙瘩
娛樂中心/周希雯報導「護理系女神」31歲台灣網紅謝侑芯到馬來西亞工作,失聯多日後驚傳在吉隆坡高檔酒店猝死,後續還牽扯出大馬歌手黃明志也涉案,不僅同在現場還疑似持毒,當地警方隨即發布通緝、轉為「謀殺罪」調查,黃明志神隱數小時後今日凌晨現身警局投案。對此,與謝侑芯交情甚好的網紅雪碧(方祺媛),先前一直被質疑是派謝去伴遊才導致出事,昨晚(4)再度拍片強調,與黃明志只是普通朋友,同時曝光謝侑芯生前最後對話,驚呼「我雞皮疙瘩起來了!」
民視 ・ 5 小時前
黃明志躲2天投案!雪碧深夜再發聲 曝謝侑芯生前最後對話:起雞皮疙瘩
台灣網紅謝侑芯猝死,馬來西亞籍歌手黃明志捲入命案,大馬警方4日通緝命案中的關鍵人物黃明志。黃明志失聯2天後,今(5)日凌晨現身警局投案。謝侑芯摯友雪碧4日深夜再發聲自清,強調與黃明志只是普通朋友,也曝光謝侑芯生前與她的最後對話。
三立新聞網 setn.com ・ 12 小時前
全員看好準鳳凰轉強颱!AI估「鬼轉北上」路徑圖曝 最快這天撲台
今年第25號颱風海鷗,今(5)日2時的中心位置在北緯11.2度,東經120.1度,以每小時21公里速度,向西北西進行。氣象粉專「觀氣象看天氣」也提醒,鳳凰颱風即將生成,且模式一致預測高強度發展「巔峰可達五級颶風等級,相當於台灣的強烈颱風以上標準」。
三立新聞網 setn.com ・ 10 小時前
MLB》藍鳥與世界大賽冠軍的距離!只差「十億分之一秒」
多倫多藍鳥隊在世界大賽第7戰,9局下一出局滿壘,Isiah Kiner-Falefa利用二壘滾地球滑回本壘時,被判封殺出局,透過攝影記者的照片,只差「十億分之一秒」藍鳥隊就可以拿到世界大賽冠軍。
TSNA ・ 4 小時前
世界大賽史上最狂G7!冠軍機率9度劇烈變動 創歷史紀錄
2025年世界大賽第七戰成為棒球史上最瘋狂的比賽之一。洛杉磯道奇與多倫多藍鳥激戰至延長賽才分出勝負,這是大聯盟史上僅第三次出現「冠軍戰決勝場進入延長局」的情況。最終,道奇以一記罕見的雙殺守備結束比賽,奪下隊史第二連霸,也讓這場大戰注定被載入史冊。
鏡報 ・ 2 天前
準鳳凰颱風恐北轉襲台「路徑似天兔」?氣象署曝可能走向:這天影響最大
中央氣象署預估,熱帶性低氣壓TD29最快在今明兩日(4日、5日)增強為今年第26號颱風「鳳凰」,且不排除接近台灣。不少氣象粉專也指出,準鳳凰颱風可能北轉撲向東台灣,和去年天兔颱風路徑似乎有些相似。對此,氣象預報員黃恩鴻表示,目前路徑變化還是很大,仍有許多不確定性,但有可能在下週二、三影響最劇烈。
三立新聞網 setn.com ・ 1 天前
「鳳凰」強度上看強颱! 專家警告:非常接近台灣東部
中央氣象署預估,今年第26號颱風「鳳凰」將於明(5)日生成!氣象專家林得恩提醒,目前位於西北太平洋的熱帶性低氣壓(TD29)發展條件相當有利,不僅有高度機率發展為颱風外,強度甚至可能達到「中颱至強颱」等級。
中天新聞網 ・ 1 天前
醫界王陽明三婚也撐不住?Alice刪光合照 社群徹底斷聯醫美圈傳「又離了」
據《鏡週刊》報導,有讀者爆料Alice自今年以來頻繁出國旅遊,造訪美國、沖繩、峇里島與上海等地,發文時更不乏「從今天開始的每一天都只會越來越好」、「向前走就會看到光」等字句,語氣間透露出獨自面對人生新篇章的氛圍。另外,自去年4月起,賴弘國的IG再無Alice身影。兩人...
CTWANT ・ 1 天前
股市恐全面回檔20%?AI科技股倒一片 專家曝2未爆彈:巴菲特又笑了
美股全面下跌,科技股成為重災區,市場對於AI估值過高的疑慮再度出現,那斯達克大跌逾2%,S&P500下跌1.17%,比特幣更是一度跌破10萬美元創下6月以來新低,風險資產全面遭到拋售。對此,財經專家王董的大盤籌碼在臉書發文表示,市場結構的脆弱度完全曝露,大量資金湧入2項資產避險,只能說滿手現金的巴菲特又賭對了。根據《CNBC》等外媒報導,高盛執行長所羅門(D......
風傳媒 ・ 5 小時前
川普吞4連敗慘輸民主!CNN:分裂堪比內戰
[NOWnews今日新聞]美國總統川普(DonaldTrump)重返白宮後,4日迎來執政9個月的首場小考,在紐約市長、紐澤西州長、維吉尼亞州州長選舉及加州選區重劃公投4場選舉中,民主大獲全勝。美國4...
今日新聞NOWNEWS ・ 14 分鐘前
王子二度道歉! 葛斯齊撂話:知錯就別再掩護另一對!
藝人「王子」邱勝翊和前中信兄弟啦啦隊女孩粿粿爆出婚內出軌風波,昨(4)日晚間王子再度道歉,表示從⼀開始到現在都是真心面對,也親自向范姜當面鞠躬道歉,並多次商討賠償金額,之後也會與粿粿共同誠實面對。對此...
華視 ・ 9 小時前
中職/桃猿二軍宿舍爆環境不佳 吉力吉撈・鞏冠點出比小聯盟差
樂天桃猿近期爆出二軍宿舍環境不佳的消息,5日的頒獎典禮上,球員工會理事長吉力吉撈・鞏冠也談到有關桃猿宿舍的消息,表示味全龍的二軍宿舍是有管理和吃住照顧,他也點出過去在小聯盟討生活時,宿舍環境比桃猿二軍的照片還好。
三立新聞網 setn.com ・ 2 小時前