北大联合 DeepSeek 开源 DSpark，大模型推理效率大幅跃升

7003383

7005136

7005137

<article><section data-type="rtext"><p>【环球网科技综合报道】6月28日消息，北京大学与深度求索（DeepSeek）联合推出大模型推理加速框架 DSpark 并完成开源，该技术有效破解大语言模型高并发场景推理效率难题，同等吞吐量条件下可将单用户文本生成速度提升 60% 至 85%，相关论文、训练代码已上线 GitHub 开放共享。</p><p><i class="pic-con"><img data-alt="" src="//img.huanqiucdn.cn/dp/api/files/imageDir/b2aed306bd3ec98dbb16059e06ff019bu1.png?imageView2/2/w/1260" /></i></p><p>当前大语言模型采用自回归生成逻辑，每生成一个文字单元都需完整前向运算，对话响应延迟居高不下。推测解码是主流提速路线，但现有方案存在明显短板：串行草稿模型候选生成耗时随长度递增，并行草稿模型长序列候选接受率快速下滑，高并发场景下算力浪费严重、系统吞吐量受限。</p>
              <adv-loader __attr__inner="7004636" __attr__style="width: auto;position: relative;float: left;border: 1px solid #ebebeb; padding: 20px;overflow: hidden;margin: 10px 30px 40px 0;"></adv-loader>
            <p>针对两大核心痛点，DSpark 创新打造双重优化机制。候选生成层面采用半自回归架构，依托改良并行主干网络一次性输出候选基础特征，搭配轻量化顺序模块补充文本前后依赖关系，仅两层 Transformer 结构性能便超越五层传统并行模型，兼顾生成速度与候选质量。验证调度层面创新置信度调度验证机制，通过硬件感知前缀调度器，结合实时算力负载、候选存活概率动态分配算力资源，优先验证高可靠文本片段，减少无效计算损耗。</p><p>研究团队选取通义千问 3、Gemma4 等主流大模型开展多场景测试，覆盖数学推理、代码编写、日常对话三大任务。数据显示，DSpark 单轮有效生成长度全面优于 Eagle3、DFlash 两类主流基线模型，以 Qwen3-4B 为例，相比 Eagle3 提升 30.9%、相比 DFlash 提升 16.3%，既保留并行架构首位生成优势，又解决长序列候选有效率衰减问题。</p><p>工程落地环节，研发团队完成多项底层系统优化。训练阶段优化数据传输逻辑、采用序列打包策略降低算力与内存消耗；部署端设计异步调度模式，规避 GPU 流水线卡顿，通过逻辑与物理计算解耦适配动态变长验证需求，兼容主流 CUDA 硬件生态。</p><p>该框架已落地 DeepSeek-V4-Flash、DeepSeek-V4-Pro 预览版服务引擎。线上真实流量实测结果显示，在不同用户响应速度标准（SLA）下，系统整体吞吐量实现跨越式增长：V4-Flash 引擎保障单用户 80token/s 生成速度时，吞吐量较原有基线提升 51%；要求 120token/s 高速输出时，吞吐量优势达 661%；V4-Pro 引擎 35token/s、50token/s 标准下吞吐量分别提升 52%、406%。系统可根据在线并发量自动调整验证文本长度，低负载充分释放算力，高负载平滑控制资源竞争，自适应适配多变业务流量。</p><p>据介绍，DSpark 仍存在一定优化空间，复杂低适配查询场景下完整候选块生成会产生固定算力开销。现阶段，深度求索已在 GitHub DeepSpec 项目开源 DSpark、DFlash、Eagle3 全套训练代码、评估工具与模型权重，为行业低成本落地高性能大模型推理服务提供完整技术方案，助力人工智能产业降低线上部署成本、提升用户交互体验。（纯钧）</p></section></article>

7003385

7003386

7003387

7003388

7004638

7004639

7004637

7003389