新闻动态
热点资讯
- 10万人围观“一口”锅 博山酥锅成好客山东新名片
- 湖南青少年篮球“大检阅”, 近千名“灌篮高手”决出4组冠军
- 法雷奥申请检测能加热图像生成装置太阳辐射的平视显示装置专利, 能检测太阳辐射
- 抗旱浇麦进行时|河南济源:分区分级施策 全力抗旱浇水
- 记者:亚足联正讨论恢复举办亚洲超级杯,并新增青年亚冠赛事
- 黄金站上3300美元, 有人卖金饰赚130万
- 超聚变FusionOne AI单机跑满血DeepSeek, 吞吐性能飙升60%
- 2024年11月29日山东宁津县东崔蔬菜批发市场价格行情
- 主打的就是听劝! 荣耀400系列曝光, 直屏+2亿主摄+7开头电池
- 罗章龙:曾与毛主席不分伯仲,后来仕途受挫,转行成一名经济学家
- 发布日期:2025-04-12 08:02 点击次数:78
如今,人工智能发展迅猛,大模型更是成为推动AI技术进步的“引擎”。然而,随着模型参数量的激增,算力需求也呈指数级增长,如何高效、低成本地运行大模型成为行业面临的共同挑战。
以DeepSeek R1满血大模型为例,其参数量高达6710亿,由于其采用了前沿的MLA注意力机制、共享专家和路由专家共同组成的混合专家(MoE)架构,在提升推理效能方面成果显著,但是企业在实际应用过程中,对大模型的性价比有着更为极致的追求。
近日,超聚变FusionOne AI大模型一体机通过软硬协同,深度调优,成功打破了H20运行DeepSeek满血大模型的性能天花板。在模拟问题对话场景(上下文序列长度1K/1K)下,仅需1台FusionServer G8600搭载8张H20硬件,即可流畅运行DeepSeek R1满血版,支持1024并发访问数,总吞吐量高达6335 token/s,性能领先业内H20方案60%。其中,TPOT(Time per Output Token)时延相比业内H20方案减少40%,单台FusionOne AI大模型一体机即可支撑数千人规模企业使用,将单机H20运行大模型的性能推向新高度。
软硬协同调优,打破 H20 性能天花板
算力释放,显存最优分配:通过内核优化,提升显存空间利用率20%,KV cache池使用率提升至93%,保障模型参数、过程KV高效运行
数据、模型并行调度:通过DP数据并行、TP模型张量并行技术,调度多卡分布式并行计算,提升token产生的吞吐效率50%,有效提升计算效能
推理任务切片混合调度:Prefill阶段(首token输出阶段任务)长文本切片, 加速初始内容生成速度,同时在每个切片计算过程中,混合调度Decode任务(后续token迭代生成任务)并行运行, 无需串行等待,提高资源利用率,降低TTFT(Time to First Token)和TPOT(Time per Output Token )。
超聚变FusionOne AI大模型一体机以极致成本、性能跃升的双重突破,大幅降低DeepSeek-R1 671B模型的部署门槛,以普惠形态让更多企业和科研机构能够轻松应用。未来,超聚变将持续加大研发投入,聚焦AI算力优化与应用拓展,加速企业AI应用落地。
*本文图片均来源于网络