最新无码a∨在线观看,一本av高清一区二区三区,亚洲熟妇色l20p,宅男噜噜69av,中出あ人妻熟女中文字幕

首頁>商情資訊>行業(yè)新聞

華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

2025-8-15 9:12:00
  • 華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

標(biāo)題:華為與銀聯(lián)共推UCM推理記憶管理:降低HBM依賴,長序列推理與首Token時延顯著改善

導(dǎo)語

在“2025金融AI推理應(yīng)用落地與發(fā)展論壇”上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周越峰宣布,與中國銀聯(lián)聯(lián)合完成一項(xiàng)面向大模型推理的關(guān)鍵創(chuàng)新:UCM(推理記憶數(shù)據(jù)管理器)及其配套算法體系。這一方案以KV Cache為核心進(jìn)行記憶分層與調(diào)度,在HBM資源受限的條件下顯著提升推理效率與體驗(yàn),并計劃于2025年9月在魔擎社區(qū)開源,向采用Share Everything(共享架構(gòu))的存儲廠商與生態(tài)伙伴開放。

一、推理側(cè)的真實(shí)壓力:窗口不夠大、首Token太慢、整體成本偏高

需求曲線陡峭上升。ChatGPT訪問量線性增長至約4億,DeepSeek走紅進(jìn)一步推高國內(nèi)調(diào)用頻度。自2025年1月起,中國AI推理請求量激增,峰值擴(kuò)大約20倍。IDC預(yù)測,到2027年中國側(cè)推理將占算力工作負(fù)載約72.6%(較2024年“訓(xùn)練60%/推理40%”顯著傾斜)。

三大痛點(diǎn)清晰可見。長文本場景激增導(dǎo)致上下文受限的模型“推不動”;中美基礎(chǔ)設(shè)施差距疊加,使國內(nèi)大模型首Token時延普遍為海外頭部的一倍以上;吞吐率偏低,導(dǎo)致“推得貴”,單位Token成本難以下探。

Token成為新量綱。周越峰指出,AI時代的體驗(yàn)與效率都可用Token度量,“Token經(jīng)濟(jì)”已成共識:首Token時延、TPS與單位Token成本共同決定用戶端體驗(yàn)與供給側(cè)成本結(jié)構(gòu)。

二、UCM的定位:圍繞KV Cache打造“記憶分層+算法協(xié)同”的推理加速套件

UCM由三大組件構(gòu)成:

Connector:面向多種推理引擎與異構(gòu)算力的適配插件;

Accelerator:承載多級KV Cache管理與加速算法的功能庫;

Adapter:高性能KV Cache存取的I/O適配層。

通過推理框架、算力與存儲三層聯(lián)動,UCM將“更優(yōu)體驗(yàn)/更低成本”的目標(biāo)落到工程化路徑上。

核心機(jī)制是“冷熱分明、按需流動”的記憶管理:

實(shí)時高熱數(shù)據(jù)留在HBM;

短期記憶下沉至DRAM;

歷史/低熱上下文卸載至外部共享存儲SSD。

在此基礎(chǔ)上,UCM疊加多種稀疏注意力與檢索加速策略,形成“存算協(xié)同”的一攬子優(yōu)化方案。

三、兩大關(guān)鍵能力:多級緩存框架與動態(tài)稀疏算法的組合拳

框架與機(jī)制層

提供多級緩存空間與智能流動策略,支撐超長序列的分層卸載與回遷;

引入自適應(yīng)全局Prefix Cache,重點(diǎn)優(yōu)化首Token路徑,降低首Token時延并攤薄單位Token成本;

結(jié)合后綴檢索、預(yù)測加速、PD檢索加速與Agent原生記憶加速等特性,進(jìn)一步提升端到端時延與吞吐。

算法與協(xié)同層

動態(tài)Training稀疏加速:在長序列場景下,通過稀疏注意力與計算重用顯著提升TPS;

存算深度協(xié)同:依據(jù)記憶熱度與訪問模式在HBM/DRAM/SSD間動態(tài)遷移,最大化帶寬利用與緩存命中。

由此帶來的量化收益(來自銀聯(lián)實(shí)測與大量測試):

首Token時延最高可降低約90%;

系統(tǒng)吞吐率最高可提升至22倍;

上下文推理窗口可擴(kuò)展10倍以上;

在銀聯(lián)“客戶之聲”業(yè)務(wù)中,端到端推理速度最高提升至125倍,約10秒完成客戶高頻問題的精準(zhǔn)識別。

四、為何“弱化HBM依賴”至關(guān)重要

HBM在AI芯片中的角色:HBM3單堆棧帶寬可達(dá)約819 GB/s,是支撐LLM訓(xùn)練/推理的關(guān)鍵內(nèi)存技術(shù);

現(xiàn)實(shí)制約:自2024年末起,HBM2E對華供給受限,國產(chǎn)替代仍在推進(jìn);

UCM的意義:通過分級Cache與算法側(cè)“降本增效”,在HBM瓶頸下維持甚至提升推理體驗(yàn),兼顧可用性與性價比,為國內(nèi)AI推理生態(tài)提供工程化可行路徑。

五、場景化落地:從金融客服到辦公協(xié)同

UCM已在中國銀聯(lián)三大業(yè)務(wù)中進(jìn)行試點(diǎn):

“客戶之聲”:面向客戶反饋的快速洞察與問題歸因;

“營銷策劃”:面向活動創(chuàng)意、目標(biāo)人群與素材生成的推理加速;

“辦公助手”:支持文檔處理、問答與流程輔助的高并發(fā)推理。

試點(diǎn)顯示,UCM在真實(shí)業(yè)務(wù)負(fù)載與復(fù)雜語料環(huán)境下,仍能保持顯著的時延改善與吞吐提升。

六、產(chǎn)業(yè)觀察:KV Cache成優(yōu)化焦點(diǎn),基礎(chǔ)設(shè)施與調(diào)度同等重要

中國信通院曹峰指出,國產(chǎn)推理生態(tài)需要加速完善。隨著上下文窗口不斷擴(kuò)展,KV Cache成為系統(tǒng)級優(yōu)化的樞紐,高性能存儲與先進(jìn)調(diào)度策略的重要性愈發(fā)凸顯。

華為AI存儲首席架構(gòu)師李國杰強(qiáng)調(diào),AI技術(shù)迭代以半年為周期,UCM不會止步于KV Cache分層管理,將面向Agentic AI的原生記憶管理與應(yīng)用加速延伸,支撐下一階段的多Agent協(xié)同與長程任務(wù)記憶。

七、開源與生態(tài):魔擎社區(qū)首發(fā),面向共享架構(gòu)伙伴開放

華為計劃在2025年9月正式開源UCM,于魔擎社區(qū)首發(fā),并向采用Share Everything(共享架構(gòu))的存儲廠商與生態(tài)伙伴共享。伴隨開源推進(jìn)、標(biāo)準(zhǔn)化接口與參考實(shí)現(xiàn)的完善,UCM有望成為國內(nèi)長序列推理與低時延交互的行業(yè)級“底座能力”。

結(jié)語

在推理需求暴增、成本壓力與供應(yīng)鏈約束并存的背景下,UCM以“記憶分層+稀疏算法+存算協(xié)同”的工程化路線,有效緩解HBM不足帶來的性能退化,顯著縮短首Token時延,并將長序列場景的吞吐拉升至可用、好用的閾值之上。隨著在金融等高價值業(yè)務(wù)中的驗(yàn)證與即將到來的開源,UCM為國產(chǎn)AI推理生態(tài)提供了一個兼顧性能與成本的清晰范式。