婷婷午夜精品观看入口-国产成人99久久亚洲综合-懂色av懂色av在线-日韩乱码久久久久-精品av人妻一区二区-18禁国产精品久久久久久ktv-久久6中文字幕-国产超碰在线免费看-国产高国产高潮久久久久久,国产69精品久久久久人妻,欧美老熟女乱搞,精品乱码久久久久久久久久久…

logo

新聞資訊

行業(yè)資訊

當(dāng)前位置:首頁 / 新聞資訊 / 行業(yè)資訊

DeepSeek新論文首爆V4架構(gòu) 直擊Transformer致命缺陷

發(fā)布日期:2026-01-13     22 次

DeepSeek 節(jié)前開始蓄力!

最新論文直接給 Transformer 加上“條件記憶”(Conditional Memory),補(bǔ)上了原生缺乏的知識(shí)查找機(jī)制。

結(jié)論中明寫道:我們將條件記憶視為下一代稀疏模型不可或缺的建模原語。

format,f_avif.avif (1).jpg

還是梁文鋒署名,并與北京大學(xué)王選所趙東巖、張輝帥團(tuán)隊(duì)合作。

format,f_avif.avif (2).jpg

論文中不僅提出了條件記憶這個(gè)全新范式,并給出了具體實(shí)現(xiàn)方案 Engram 模塊,實(shí)驗(yàn)中讓 27B 參數(shù)碾壓同規(guī)模純 MoE 模型,甚至變相提升了大模型的推理能力:

讓原來 Transformer 要用 6 層注意力才能干的簡單任務(wù)壓縮到 1-2 層搞定,省出來的資源就可以用于更難的推理任務(wù)了。

條件記憶的原理其實(shí)也非常“原始”:不靠計(jì)算,回歸查表,用上了傳統(tǒng) N-gram 方法。

給大模型一個(gè)巨大的詞表,專門存那些固定的實(shí)體名稱和兩三個(gè)詞的短語,不管詞表多大,找信息都是 O (1) 速度。

關(guān)鍵就在于,如此前大模型時(shí)代的玩法,DeepSeek 如何解決傳統(tǒng) N-gram 模型存儲(chǔ)爆炸和多義性問題,又是讓它和現(xiàn)代 Transformer 結(jié)合起來的?

讓注意力干“苦力活”太浪費(fèi)了

團(tuán)隊(duì)的核心觀察是,語言建模其實(shí)包含兩種性質(zhì)完全不同的任務(wù),一種是需要深度動(dòng)態(tài)計(jì)算的組合推理,另一種則是檢索靜態(tài)知識(shí)。

問題在于,現(xiàn)有的 Transformer 架構(gòu)缺乏原生的知識(shí)查找機(jī)制。

當(dāng)模型需要識(shí)別一個(gè)實(shí)體時(shí),它得消耗好幾層注意力和前饋網(wǎng)絡(luò),逐層拼湊特征,最終才能完成。

論文中引用了一個(gè)具體案例:”Diana, Princess of Wales”

模型需要經(jīng)過 6 層才能完成這個(gè)識(shí)別過程,前幾層還在糾結(jié)”Wales 是英國的一個(gè)地區(qū)”、”Princess of Wales 是某種頭銜”這些中間狀態(tài),最終才能“想起來”這是指戴安娜王妃。

format,f_avif.avif (3).jpg

本質(zhì)上是在用昂貴的運(yùn)行時(shí)計(jì)算來重建一個(gè)靜態(tài)查找表,那些本可以用于更高層推理的網(wǎng)絡(luò)深度,被浪費(fèi)在了識(shí)別概念這種“苦力活”上。

回歸查表,回歸 N-gram

Engram 的設(shè)計(jì)思路相當(dāng)直接:既然經(jīng)典的 N-gram 模型就能用 O (1) 的時(shí)間復(fù)雜度捕獲這些局部依賴,那為什么不把這個(gè)能力直接嵌入 Transformer?

具體實(shí)現(xiàn)上,團(tuán)隊(duì)在原有的 Transformer 層之間插入 Engram 模塊。每個(gè)位置的輸入會(huì)觸發(fā)一次哈希查找:把當(dāng)前 token 和前面幾個(gè) token 組成的 N-gram 映射到一個(gè)巨大的嵌入表中,直接取出對(duì)應(yīng)的向量。

format,f_avif.avif (4).jpg

為了處理哈希沖突和多義性問題,團(tuán)隊(duì)引入了上下文感知的門控機(jī)制,用當(dāng)前的隱藏狀態(tài)作為 Query,檢索到的記憶作為 Key 和 Value,計(jì)算一個(gè) 0 到 1 之間的標(biāo)量門控值。

如果檢索到的內(nèi)容和當(dāng)前上下文不匹配,門控值就趨近于零,相當(dāng)于自動(dòng)屏蔽噪聲。

下圖中,顏色越深說明 Engram 越判斷當(dāng)前文本片段是“固定靜態(tài)模式”,傾向于調(diào)用記憶庫中的對(duì)應(yīng)信息。

顏色越淺代表這段文本越動(dòng)態(tài)靈活,主要靠模型的注意力機(jī)制處理。

比如只看到“張”是一個(gè)常見姓氏,但是“張仲景”三個(gè)字湊一起就是固定歷史人物實(shí)體了。

format,f_avif.avif (5).jpg

接下來還要解決傳統(tǒng) N-gram 模型的兩個(gè)痛點(diǎn)。

語義重復(fù),同一個(gè)詞的不同形式(比如 Apple、apple、?pple)被當(dāng)成不同 token,浪費(fèi)存儲(chǔ)。

存儲(chǔ)爆炸,所有可能的 N-gram(比如 2 詞、3 詞組合)數(shù)量太多,比如 128k 詞表就要存 128k^3 種組合,直接存儲(chǔ)根本存不下。

DeepSeek 團(tuán)隊(duì)首先壓縮 tokenizer,把語義相同但形式不同的 token 歸為一類,128k 詞表的有效規(guī)模直接減少 23%,相同語義的 token 聚在一起,查找更高效。

再用多個(gè)哈希函數(shù)把 N-gram 映射成 embedding 表的索引,

這既解決了存儲(chǔ)爆炸:不管有多少種 N-gram,都通過哈希函數(shù)映射到一個(gè)固定大小的 embedding 表里,表的大小是質(zhì)數(shù)。

又減少查找沖突:給每種 N-gram 階數(shù)(比如 2-gram、3-gram)配 K 個(gè)不同的哈希頭,每個(gè)哈希頭對(duì)應(yīng)一個(gè)獨(dú)立的 embedding 表,把所有 N-gram 階數(shù)、所有哈希頭取出來的 embedding 向量拼在一起,形成最終的“記憶向量”e?,供后續(xù)模塊使用。

format,f_avif.avif (6).jpg

format,f_avif.avif (7).jpg

U 型曲線:MoE 和記憶的最優(yōu)配比

論文最核心的部分是對(duì)”稀疏性分配問題”的系統(tǒng)研究。

團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嚴(yán)格的實(shí)驗(yàn)框架:固定總參數(shù)量和每 token 的激活參數(shù)量(也就是計(jì)算量),然后在 MoE 專家和 Engram 記憶之間重新分配”閑置參數(shù)”預(yù)算。

分配比例 ρ 從 100%(純 MoE)逐步降到 40%,實(shí)驗(yàn)結(jié)果畫出了一條清晰的 U 型曲線:

format,f_avif.avif (8).jpg

純 MoE 反而不是最優(yōu)解,把大約 20% 到 25% 的稀疏參數(shù)預(yù)算分給 Engram 記憶時(shí),模型驗(yàn)證集 loss 達(dá)到最低點(diǎn)。

在 100 億參數(shù)規(guī)模下,最優(yōu)配置比純 MoE 基線的 loss 降低了 0.0139。

更重要的是,這個(gè)最優(yōu)分配點(diǎn)在不同計(jì)算預(yù)算下都相當(dāng)穩(wěn)定,大約在 ρ=75% 到 80% 之間。

團(tuán)隊(duì)解釋了 U 型曲線兩端的含義:

MoE 主導(dǎo)時(shí),模型缺乏靜態(tài)模式的專用記憶,被迫通過網(wǎng)絡(luò)深度和大量計(jì)算來低效重建。

Engram 主導(dǎo)時(shí),模型丟失了條件計(jì)算能力,在需要?jiǎng)討B(tài)推理的任務(wù)上表現(xiàn)下降。

總之,記憶無法替代計(jì)算,計(jì)算也無法高效模擬記憶。

27B 規(guī)模驗(yàn)證:推理能力提升超預(yù)期

按照 U 型曲線的指導(dǎo),團(tuán)隊(duì)把 Engram 擴(kuò)展到更大參數(shù)規(guī)模進(jìn)行驗(yàn)證,并對(duì)比純 MoE 模型和純密集模型。

所有模型訓(xùn)練條件一致,激活參數(shù)量都是 38 億,訓(xùn)練 token 都是 2620 億,差異僅在“稀疏能力分配”。

Dense-4B:純密集模型。

MoE-27B:純混合專家模型,72 個(gè)路由專家 +2 個(gè)共享專家,所有稀疏參數(shù)都給 MoE。

Engram-27B:MoE+Engram 混合模型,55 個(gè)路由專家 +2 個(gè)共享專家,把 5.7B 稀疏參數(shù)分配給 Engram 記憶模塊。

Engram-40B:進(jìn)一步擴(kuò)展 Engram 模塊,保持專家數(shù)量不變,Engram 記憶參數(shù)增至 18.5B,總參數(shù) 39.5B。

format,f_avif.avif (9).jpg

結(jié)果 MoE-27B 和 Engram-27B 對(duì)比,知識(shí)密集型任務(wù)的提升在預(yù)期之內(nèi):比如 MMLU 提升 3 分,CMMLU 提升 4.0 分,TriviaQA 提升 1.9 分。

但出乎意料的是,通用推理和代碼數(shù)學(xué)領(lǐng)域的提升幅度也很大:BBH 大幅提升 5.0 分,ARC-Challenge 提升 3.7 分,DROP 提升 3.3 分,HumanEval 提升 3.0 分,MATH 提升 2.4 分,GSM8K 提升 2.2 分。

format,f_avif.avif (10).jpg

團(tuán)隊(duì)用 LogitLens 和 CKA 分析揭示了原因。

Engram 讓模型的早期層不再需要做特征組合的“苦力活”,KL 散度曲線顯示 Engram 模型的預(yù)測收斂速度明顯更快。更直觀的證據(jù)來自 CKA 相似度矩陣,Engram-27B 第 5 層的表征,和 MoE 基線第 12 層的表征最為相似。

這意味著 Engram 實(shí)際上“加深”了網(wǎng)絡(luò)的有效深度,省下來的層數(shù)被用于更復(fù)雜的推理任務(wù)。

format,f_avif.avif (11).jpg

Engram-40B 進(jìn)一步增加記憶參數(shù)后,大部分任務(wù)性能持續(xù)提升,且訓(xùn)練后期損失仍在下降,說明記憶容量還未飽和,后續(xù)可繼續(xù)擴(kuò)大。

另外長上下文場景的提升尤為顯著。

在 RULER 測試集上,Multi-Query NIAH 從 84.2 躍升到 97.0,Variable Tracking 從 77.0 提升到 89.0。

format,f_avif.avif (12).jpg

論文解釋說,Engram 把局部依賴建模卸載給了查找操作,釋放了注意力容量去關(guān)注全局上下文。

百億參數(shù)表放 CPU 上,延遲幾乎沒影響

接下來又到了喜聞樂見的軟硬結(jié)合工程優(yōu)化環(huán)節(jié)。

在訓(xùn)練階段,詞表規(guī)模會(huì)高達(dá) 100B 參數(shù),單個(gè) GPU 存不下,必須拆分到多個(gè) GPU 上,需要 All-to-All 通信機(jī)制,讓所有 GPU 之間互相傳遞需要的記憶片段。

在推理階段把詞表卸載到 CPU 內(nèi)存,同時(shí)又不能讓記憶調(diào)用拖慢計(jì)算節(jié)奏。

format,f_avif.avif (13).jpg

和 MoE 的動(dòng)態(tài)路由不同,Engram 的查找索引只取決于輸入 token 序列,完全可以提前計(jì)算。

這個(gè)確定性讓團(tuán)隊(duì)能夠把巨大的嵌入表放到 CPU 內(nèi)存里,用 PCIe 異步預(yù)取,讓通信和前面層的計(jì)算重疊。

具體通過把 Engram 模塊插在 Transformer 網(wǎng)絡(luò)的特定層,GPU 計(jì)算前一層的同時(shí),CPU 預(yù)取當(dāng)前層需要的 Engram 記憶,等 GPU 算完前一層,所需的記憶也已經(jīng)傳輸?shù)轿弧?/p>

實(shí)驗(yàn)直接把一個(gè) 1000 億參數(shù)的 Engram 表放到 CPU 內(nèi)存,在 H800 上跑推理。4B 密集模型的吞吐量從 9031 token/s 降到 8858 token/s,8B Dense 模型從 6315 token/s 降到 6140 token/s,額外開銷都在 3% 以內(nèi)。

format,f_avif.avif.jpg

自然語言 N-gram 天然遵循 Zipfian 分布,極少數(shù)高頻模式占據(jù)絕大多數(shù)訪問量。這意味著可以設(shè)計(jì)多級(jí)緩存:高頻嵌入放 GPU 顯存,中頻放 CPU 內(nèi)存,長尾放 NVMe SSD,把有效延遲進(jìn)一步壓縮。

DeepSeek 團(tuán)隊(duì)在結(jié)論中寫道:

Engram 將“硬件感知效率”確立為核心設(shè)計(jì)原則:其確定性尋址機(jī)制支持存儲(chǔ)與計(jì)算的解耦,能夠?qū)⒑A繀?shù)表卸載至主機(jī)內(nèi)存,且推理開銷可忽略不計(jì)。我們認(rèn)為,條件記憶將成為下一代稀疏模型中不可或缺的建?;?/p>

DeepSeek 的下一代稀疏模型,已被曝光將在春節(jié)前發(fā)布,敬請(qǐng)期待。


為您精選

尋找更多銷售、技術(shù)和解決方案的信息?

聯(lián)系我們
聯(lián)系電話: 020-2204 2442
郵箱:Sales@greentest.com.cn
微信客服二維碼
色婷婷狠狠狠...-亚洲天堂久久偷拍网-激情综合网之激情五月-日韩av第一区福利 | 99精品视频一区二区三区四区-国产亚洲精品a久久77777-大香蕉av在线一区二区-2012中文字幕高清在线 | 日本激情视频久久久-日韩黄页在线免费观看-日韩毛片网站免费-日韩欧美国产一区二区 | 精品久久久亚洲中文字幕-久久婷婷777视频-国产精品免费久久久久-亚洲国产麻豆中文 | 激情五月婷婷俺也去-色综合久久激情五月-91麻豆精品小视频-国产五月婷婷久久在线 | 久久久精彩一区二区-欧美日韩综合精品系列-亚洲精品在线免费看-中文字幕在线视频三级 | 亚洲国产成人久久综合下载-人妻系列中文字幕在线一区-欧美日韩中文字幕视频不卡一二区-国产麻豆成人在线视频 | 亚洲综合久久av一区二区三区-精品区一区二区三区四-久久久久亚洲av永久-日韩一区欧美二区国产三区 | 久久久久久久iv蜜桃视频-日韩av有码片-日韩欧美中文字幕资源-亚洲高清在线中文字幕 | 亚洲国产一区二区三区情事韩国-日本精品久久久人妻-2019中文字幕自拍偷拍-国产日韩美女主播自卫视频 | 激情人妻,一区二区三区-欧美日韩爱爱网-中文字幕在线乱码免费-97超碰在线系列 | 99精品一区二区三区的区别-国产又黄又粗又硬又爽的视频-久久亚洲精品国产精品尤物-成人欧美一区二区三区视频xxx | 99精品视频一区二区三区四区-国产亚洲精品a久久77777-大香蕉av在线一区二区-2012中文字幕高清在线 | 欧美中文字幕无-久久精品久久久国产三级-久久精品久久性电影-开心激情五月天四射网 | 欧美激情区日韩一区二区三区-日韩欧美区一区二区三-久久嗯啊不要视频-欧美黑人巨大黑人猛交中文 人人射人人舔人人干-中文字幕日韩精品资源av在线-久久久久久久久久电影院-久久不射热爱视频精品在线观看 | 超碰在线97国产17se-91麻豆精品传媒国产av在线播放-日本道专区中文字幕22-日本久一区中文字幕 | 麻豆av传媒免费在线观看-亚洲免费黄色在线电影-久久 久久 久久av-精品国产乱码久久久久久粉色 | 日韩av所有不卡的网站大全-日韩区一区二在线观看视频-色婷婷狠狠久久综合中文-国产乱子伦视频三区在线 | 国产精品日韩后入式-91人妻操爽精品-日韩人妻中文字幕毛片a√-中文字幕一区二区四季 | 日韩人妻精品久久久久-日韩美女大片在线观看视频免费-中文字幕,日韩精品-人妻av中文字幕视频 | 久久99免费福利视频-色婷婷综合久久久久中文一区二-国产久久久9999-人妻熟女中文字幕一区二区 | 成人 av 在线播放-91麻豆精品国产综合久久久-91精品一区二区更新-日韩av先锋资源网 | 亚洲国产成人一区久久-国产精品美女呦呦呦-日韩精品视频在线观看免费看看-日韩三级网站视频在线观看 | 久久字幕中文网-粉嫩一区二区三区在线播放-亚洲精品乱久久久久久-国产成人亚洲综合第一精品,国内 | 成人亚洲自拍短视频-白石茉莉奈在线观看一区二区-久久拉小便视频大全-午夜免费福利美女刺激视频 成人 av 在线播放-91麻豆精品国产综合久久久-91精品一区二区更新-日韩av先锋资源网 | 97在线观看视频免费观看-高清欧美性猛xxxx黑人猛交-久久人妻精品大奶一区二区-日韩人妻少妇精品中文字幕 | 在线视频中文字幕网站-亚洲国产麻豆系列-国产福利精品小视频-精品中文字幕人 | 中文字幕人乱码中av-亚洲综合中文字幕在线视频-一区二区三区成人区-欧美日韩国产高清一区二区三区 | 国产又粗又黄又刺激的视频-久久粉嫩精品99综合一区-欧美日韩中文字幕手机在线视频-99精产国品一二三产品 | 亚洲另类网男人天堂-91福利国产视频-91色婷婷综合久久久中文-国产偷自一区二区三区在线 | 成人熟女俱乐部-色婷婷精品一区=区-亚洲天堂中文字幕一区二区三区免费-日韩三级电影一区 | 日韩av所有不卡的网站大全-日韩区一区二在线观看视频-色婷婷狠狠久久综合中文-国产乱子伦视频三区在线 | 人妻少妇久久精品系列av-久久老司机宅男视频-99国产精品久久久久久久成人熟-欧美日韩操人妻视频 五月婷婷中文字幕-日韩高清自拍偷拍av-久久久亚州精品av-日韩熟女av中文字幕男人总站 | 日韩av手机在线观看版-久久精品成人av蜜臀35p-精品久久久国产999-麻豆精品国产传 | 成人国产精品视频资源-91麻豆精品成人-国产热门精品第1页91-欧美一区二区三区 久久久 | 少妇极品熟妇人妻高清性色av-欧美变态人妻中文字幕-国产精品 久久久久久久-久久久婷婷成人综合激情88av | 91国际中文字幕在线观看-在线观看成人精品视频自拍-麻豆精品国产91-激情 91 在线 | 五月婷婷丁香婷婷爱爱-婷婷激情久久成人网-天天操天天草天天干天天日-欧美日韩一区二区一卡二卡 超碰免费在线97资源-99热在线视频观看免费-久久久久人妻一区精品免费看-超碰免费人妻中文 | 亚洲av日韩aⅴ一区二区三区-日本五十路av熟女-日本久久久久久人妻视频-国产精品 日韩 视频 | 亚洲精选1区2区3区-精品一区二区二区三区三州-久久久久久久久久久久久久国产精品-日韩av经典在线免费观看 | 久久人妻日本tv-精品人妻av中文字幕乱码按摩-国内精品久久99人妻-久久人妻精品中文字幕一区二区 东京热av东京热av-天天操天天射天天干天天日-91超碰在线超碰在线-久久精品一区二区三区综合 |