DeepSeek 又整出新東西來(lái)了,只用到原本十分之一 token,就能存下幾乎一樣的文字信息,這壓縮比,香農(nóng)看了都要流淚,馮·諾伊曼看了都要沉默。
更是直接把一堆老外給釣成了翹嘴。
昨天,DeepSeek 發(fā)布了新模型 DeepSeek-OCR,OCR 這東西咱們都熟悉,就是把圖片里的文字給識(shí)別出來(lái)。
經(jīng)常用微信的差友應(yīng)該知道,微信客戶(hù)端里的圖片,被咱們點(diǎn)開(kāi)后,是可以直接復(fù)制文字的。
沒(méi)錯(cuò),這就是一種 OCR 技術(shù)的應(yīng)用。

但是 DeepSeek 這次的 「技能 OCR」則是剛好相反,它可以把大量文字變成一張圖片,作為 AI 的“記憶載體”。
是的,用文字來(lái)存儲(chǔ)信息,已經(jīng)不夠滿(mǎn)足它了。
過(guò)去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、還是 DeepSeek 過(guò)去的自己,在讀取數(shù)據(jù)的用的都是一種方式:文字,也就是平時(shí)常說(shuō)的 token。

我們寫(xiě)的 prompt,會(huì)被轉(zhuǎn)換成一大堆的 token 給大模型,我們提供的參考資料,會(huì)被轉(zhuǎn)換成一大堆的 token 給大模型,就算是能識(shí)別圖像的多模態(tài)的大模型,也是要先把圖片轉(zhuǎn)換成了一段文字描述,來(lái)交給大模型來(lái)做辨認(rèn)才行。
但文字 token 真的就是大模型理解世界的*方式么?
DeepSeek 決定試一試新的路子,畢竟,如果咱們把一張圖片和一段文字放在一起,前者明顯可以包含下更多的信息。

既然如此,那我們能不能直接用圖片來(lái)訓(xùn)練大模型?
于是 DeepSeek 就開(kāi)始整,結(jié)果發(fā)現(xiàn)這個(gè)用圖片訓(xùn)練出來(lái)的模型,既中看,又中用。
一方面,它可以用更少的 token,來(lái)記住更多的內(nèi)容。
在測(cè)試文檔理解能力的任務(wù)里,DeepSeek-OCR 只用了100 個(gè)視覺(jué) token,就超過(guò)了需要 256 個(gè) token 的 GOT-OCR 2.0。
再放狠點(diǎn),它用不到 800 個(gè)視覺(jué) token, 就吊打了平均要6000+ token的 MinerU 2.0。

這就意味著、當(dāng)我們讓大模型開(kāi)始使用圖像的這種方式來(lái)記住數(shù)據(jù)了之后,模型就有能力用更少的token資源,來(lái)取得更好的表達(dá)效果。
另外,DeepSeek-OCR 還支持多種分辨率和壓縮模式,來(lái)適應(yīng)不同復(fù)雜度的文檔:
比如說(shuō)一張只有圖片背景和標(biāo)題文案的 PPT,可能只需要 64 個(gè) 視覺(jué)token 就足夠表示了。
如果這頁(yè)的文字內(nèi)容比較多,那就會(huì)自動(dòng)切換到 Large 模式,用上最多 400 個(gè) 視覺(jué)token 來(lái)記錄。
如果覺(jué)得還不夠的話(huà),DeepSeek-OCR 還能支持動(dòng)態(tài)調(diào)整的 Gundam 模式來(lái)記憶圖片,主打一個(gè)應(yīng)記就記,分清輕重緩急的記。

而且比起過(guò)去只能識(shí)別文字的傳統(tǒng)模型來(lái)說(shuō),DeepSeek-OCR 能記住的數(shù)據(jù)還會(huì)更多。
論文里的一張柱狀體,DeepSeek-OCR 能夠自動(dòng)把它給識(shí)別成 Excel 格式給保存下來(lái)。

文章里出現(xiàn)的有機(jī)化合物的分子結(jié)構(gòu)圖片,也能自動(dòng)轉(zhuǎn)化為標(biāo)準(zhǔn)的 SMILES(簡(jiǎn)化分子線(xiàn)性輸入規(guī)范)格式存儲(chǔ)。

不但能記住圖片本身,DeepSeek-OCR 還會(huì)同時(shí)記住這張圖片的位置,記住圖片附近的文字在寫(xiě)些什么東西。。。
過(guò)去很多看不到的二維信息,都會(huì)被 DeepSeek-OCR 給再次捕獲。
這玩意的價(jià)值有多大,可能大家一下都還沒(méi)意識(shí)到。
這兩年做大模型,除了顯卡不夠之外的*問(wèn)題,就是沒(méi)有訓(xùn)練的數(shù)據(jù)了。
常規(guī)的數(shù)據(jù)集之前都用過(guò)了,想要再搞點(diǎn)高質(zhì)量的數(shù)據(jù)集,要么偷偷去網(wǎng)上爬,要么花大價(jià)錢(qián)去買(mǎi),再要么就是想辦法自己合成。

但現(xiàn)在,很多過(guò)去沒(méi)采集到的數(shù)據(jù),就可以在二維信息里被采集到了。
就比如說(shuō)很多論文文件,過(guò)去,大模型只能學(xué)到里面的文字信息,但是里面的各種圖表,插圖那都是兩眼一摸黑。
但用上了 DeepSeek-OCR 之后,就可以把之前缺的這部分給無(wú)痛補(bǔ)上了。
實(shí)際上 DeepSeek 也是這么想的,在論文里還特意提了一嘴,說(shuō)這個(gè)新模型在一張 A100 上,一天可以給大模型采集出 20 萬(wàn)頁(yè)以上的訓(xùn)練數(shù)據(jù)。
所以說(shuō),在有了 DeepSeek-OCR 之后,過(guò)去的所有數(shù)據(jù)都值得用它來(lái)再識(shí)別一遍。
毫無(wú)疑問(wèn),這些數(shù)據(jù),又會(huì)成為下一個(gè)大模型的養(yǎng)料。
另一方面,用二維的方式來(lái)存儲(chǔ)數(shù)據(jù)后,整個(gè)模型運(yùn)行起來(lái)也變得更省資源了。
咱都知道,我們?cè)谟么竽P偷臅r(shí)候,聊天聊的越久、上下文越長(zhǎng),這個(gè)模型就越容易出 bug。
這是因?yàn)榇竽P驮谶\(yùn)行的時(shí)候,要處理每一個(gè)單詞,和其他所有單詞的關(guān)系。
你把對(duì)話(huà)的長(zhǎng)度增加一倍,整個(gè)模型的計(jì)算量就增加了四倍,增加了兩倍,那整個(gè)模型的計(jì)算量就變成了原本的九倍。
這也是為啥現(xiàn)在大模型廠商都在給你限制上下文長(zhǎng)度的原因之一,你要是在一個(gè)對(duì)話(huà)里聊的太嗨了的話(huà),成本要直接卷上天去了。
而在用上了圖像記憶之后,DeepSeek 可以把 token 的數(shù)量,壓縮到原本的十分之一。。。
同時(shí),還不會(huì)讓性能有太大的損失。
在論文里可以看到,初出茅廬的 DeepSeek-OCR,就能用原本 1/10 的token 數(shù)量,達(dá)到原模型 96.5%的準(zhǔn)確率。
即使哥們?cè)俸蔹c(diǎn),給它壓縮個(gè)20倍,模型的準(zhǔn)確率,也還能保持個(gè)六成左右。。。

同時(shí),DeepSeek 的研究人員還發(fā)現(xiàn)了一件好玩的事情。
他們會(huì)感覺(jué)大模型通過(guò)不同的清晰度來(lái)存儲(chǔ)圖像的方式,其實(shí)和我們?nèi)祟?lèi)遺忘信息的方式很像。

對(duì)我們?nèi)祟?lèi)來(lái)說(shuō),遺忘是一個(gè)循序漸進(jìn)的過(guò)程。
剛發(fā)生的事情,就有點(diǎn)像是 DeepSeek 用 Gundam 模式存下來(lái)的數(shù)據(jù),最清晰。
而隨著時(shí)間的推移,這件事的重要性也會(huì)逐漸降低,存儲(chǔ)它的格式也會(huì)從*的 Gundam 一路降級(jí),從 Large 一路降到最小的 Tiny,占用的 token 數(shù)量也會(huì)越來(lái)越少。

把這個(gè)概念引入到大模型里的話(huà),咱們就可以把最近的聊天記錄,用“4K HDR藍(lán)光” 的格式來(lái)存儲(chǔ),而那些早年不太重要的聊天記錄,則是給壓縮成 480P 的文件保存。
通過(guò)這種主動(dòng)遺忘的方式,是否能讓大模型的上下文能力變得更強(qiáng)呢?
這個(gè)想法很有意思,只不過(guò)目前就連 DeepSeek 自己也沒(méi)能給出一個(gè)明確的答案。

不過(guò)好在 DeepSeek-OCR 還是和過(guò)去一樣開(kāi)源的,相信這個(gè)問(wèn)題,要不了多久就會(huì)變成熱門(mén),整出不少新東西來(lái)。
最后,提到開(kāi)源,我還注意到另外一件事。。。
這次研究不但是 DeepSeek 自己的成果,也是開(kāi)源社區(qū)集體的勝利
比如訓(xùn)練數(shù)據(jù)里,用到了 華為的 Wukong 數(shù)據(jù)集,在生成樣本文字時(shí),借助了 百度的 PaddleOCR,而在圖像特征提取部分,核心組件竟然是 meta 開(kāi)源的 SAM,在視覺(jué)語(yǔ)義理解層面,還整合了 OpenAI 的 CLIP 模型。

正是這些來(lái)自全球的開(kāi)源成果,被 DeepSeek 重新編織成了一個(gè)能“用圖片思考”的 AI。
所以,R2 什么時(shí)候會(huì)來(lái)呢。


174010/22








