新浪科技訊 8月12日下午消息,發布在2025金融AI推理應用落地與發展論壇上,推理吞吐n推華為聯合中國銀聯共同發布AI推理創新技術UCM(推理記憶數據管理器),創新實現高吞吐、技術低時延的現高推理體驗。 在當今數字化時代,低時低AI發展日新月異。延推驗降大模型訓練的理體理成熱潮尚未消退,AI推理體驗卻已悄然成為AI應用的發布關鍵。中信建投在2025WAIC期間發布的推理吞吐n推白皮書指出,AI正從訓練向推理的創新結構性轉變而快速增長。在這樣的技術大背景下,AI推理體驗的現高重要性愈發凸顯。 推理體驗直接關系到用戶與AI交互時的低時低感受,包括回答問題的延推驗降時延、答案的準確度以及復雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms),而我國普遍小于60Tokens/s(時延50 - 100ms),如何解決推理效率與用戶體驗的難題迫在眉睫。 據介紹,華為此次發布的AI推理創新技術UCM(推理記憶數據管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口,以實現高吞吐、低時延的推理體驗,降低每Token推理成本。 海量資訊、精準解讀,盡在新浪財經APP 責任編輯:郭栩彤 |