2026-01-14 07:54:11

Claude Skills才火了一陣子，昨天DeepSeek就發了新論文，用Engram告訴市場：你們方向可能錯了？？ AI LLM真的是每天都在上演神仙打架！😱

簡單對比就能看出差異：Anthropic給模型配了一個超級秘書，幫你整理200個文件、記住所有對話；DeepSeek更激進，直接給模型做腦科手術，讓它長出一個“記憶器官”，像查字典一樣O(1)秒回，不需要層層激活神經網絡。

這問題其實早就該解決了。

從Transform架構起，大模型先天處理知識就像個死記硬背的學霸，每次問“戴安娜王妃是誰”，都得把175B參數的腦子從頭到尾過一遍，這得白燒多少算力資源？

這就好比你每次想查個單詞，都要把整本牛津詞典從A背到Z才能告訴你答案，多荒謬？即使是現在流行的 MoE 架構，每次為了回憶一個冷知識，也要調動大量昂貴的計算專家參與運算。

1）Engram的核心突破：讓模型長出“記憶器官”

Engram做的事情很簡單，就是把靜態事實知識從“參數記憶”裡剝離出來，扔進一個可擴展的哈希表裡，通過N-gram切分+多頭哈希映射，實現O(1)常數時間查找。

說人話就是，管理上下文系統，還是讓AI拿著說明書，遇到問題翻書查閱，而Engram目標是讓大腦裡找出一個新的器官，專門用來瞬間“回想”起一些固定成常識的知識，不需要再去動腦子推理。

效果有多猛？27B參數的模型在知識任務（MMLU）上提升3.4%，長文本檢索從84%飆到97%。關鍵是，這些記憶參數可以卸載到便宜的DDR內存甚至硬盤裡，推理成本幾乎為零。

2）這是在革RAG和GPU軍備競賽的命？

如果Engram真跑通了，第一個受衝擊的不是OpenAI，是RAG（檢索增強生成）這套玩法和NVIDIA的顯存生意，尤其是公有知識庫RAG。

因為，RAG本質是讓模型去外部資料庫“查資料”，但查詢慢、整合差、還得維護向量庫。Engram直接把記憶模塊嵌進模型架構，查得又快又準，還能用上下文門控過濾掉哈希衝突。

而且要命的是，論文裡提到的“U型scaling law”的發現很刺激，若模型把20-25%參數給Engram當“記憶硬盤”，剩下75-80%留給傳統神經網絡做“推理大腦”，而且記憶規模每擴大10倍，性能就能對數級提升。

這不就徹底打破了“參數越大=越聰明”的信仰，從“無限堆H100”的軍備競賽，變成“適度算力+海量廉價記憶”的效率遊戲？

以上。

不知道，DeepSeek V4會在春節前後發布，會不會把Engram和之前的mHC組合拳全部打出來。

這場“算力為王”到“算力+記憶”雙輪驅動的範式革命，估計又會掀起一波血雨腥風，就看掌握算力資源優勢的OpenAI、Anthropic等巨頭們如何接招了。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
按讚
留言
轉發
分享

留言

0/400

暫無留言

熱門話題
查看更多
#
Gate廣場AI測評官
10.41萬熱度
#
Gate2月衍生品市場份額創新高
1.89萬熱度
#
原油價格上漲
12.52萬熱度
#
伊朗明確提出停火協議要求
13.15萬熱度
#
3月CPI數據出爐
173.87萬熱度

熱門 Gate Fun
查看更多

1
PIMI
派友币
市值:$2417.24持有人數:1
0.00%
2
LJz
陆家嘴
市值:$0.1持有人數:0
0.00%
3
LLX
蓝龙虾
市值:$0.1持有人數:1
0.00%
4
GTO
Golden 1/1000 Troy ounce
市值:$0.1持有人數:1
0.00%
5
PB
The police behemoth
市值:$0.1持有人數:1
0.00%

Claude Skills才火了一陣子，昨天DeepSeek就發了新論文，用Engram告訴市場：你們方向可能錯了？？ AI LLM真的是每天都在上演神仙打架！😱

熱門話題

Gate廣場AI測評官

Gate2月衍生品市場份額創新高

原油價格上漲

伊朗明確提出停火協議要求

3月CPI數據出爐

熱門 Gate Fun

PIMI

派友币

LJz

陆家嘴

LLX

蓝龙虾

GTO

Golden 1/1000 Troy ounce

PB

The police behemoth

置頂