4S9z2nrYRaG tech.huanqiu.comarticle北大联合 DeepSeek 开源 DSpark,大模型推理效率大幅跃升/e3pmh164r/e3pmtmdvg【环球网科技综合报道】6月28日消息,北京大学与深度求索(DeepSeek)联合推出大模型推理加速框架 DSpark 并完成开源,该技术有效破解大语言模型高并发场景推理效率难题,同等吞吐量条件下可将单用户文本生成速度提升 60% 至 85%,相关论文、训练代码已上线 GitHub 开放共享。当前大语言模型采用自回归生成逻辑,每生成一个文字单元都需完整前向运算,对话响应延迟居高不下。推测解码是主流提速路线,但现有方案存在明显短板:串行草稿模型候选生成耗时随长度递增,并行草稿模型长序列候选接受率快速下滑,高并发场景下算力浪费严重、系统吞吐量受限。 针对两大核心痛点,DSpark 创新打造双重优化机制。候选生成层面采用半自回归架构,依托改良并行主干网络一次性输出候选基础特征,搭配轻量化顺序模块补充文本前后依赖关系,仅两层 Transformer 结构性能便超越五层传统并行模型,兼顾生成速度与候选质量。验证调度层面创新置信度调度验证机制,通过硬件感知前缀调度器,结合实时算力负载、候选存活概率动态分配算力资源,优先验证高可靠文本片段,减少无效计算损耗。研究团队选取通义千问 3、Gemma4 等主流大模型开展多场景测试,覆盖数学推理、代码编写、日常对话三大任务。数据显示,DSpark 单轮有效生成长度全面优于 Eagle3、DFlash 两类主流基线模型,以 Qwen3-4B 为例,相比 Eagle3 提升 30.9%、相比 DFlash 提升 16.3%,既保留并行架构首位生成优势,又解决长序列候选有效率衰减问题。工程落地环节,研发团队完成多项底层系统优化。训练阶段优化数据传输逻辑、采用序列打包策略降低算力与内存消耗;部署端设计异步调度模式,规避 GPU 流水线卡顿,通过逻辑与物理计算解耦适配动态变长验证需求,兼容主流 CUDA 硬件生态。该框架已落地 DeepSeek-V4-Flash、DeepSeek-V4-Pro 预览版服务引擎。线上真实流量实测结果显示,在不同用户响应速度标准(SLA)下,系统整体吞吐量实现跨越式增长:V4-Flash 引擎保障单用户 80token/s 生成速度时,吞吐量较原有基线提升 51%;要求 120token/s 高速输出时,吞吐量优势达 661%;V4-Pro 引擎 35token/s、50token/s 标准下吞吐量分别提升 52%、406%。系统可根据在线并发量自动调整验证文本长度,低负载充分释放算力,高负载平滑控制资源竞争,自适应适配多变业务流量。据介绍,DSpark 仍存在一定优化空间,复杂低适配查询场景下完整候选块生成会产生固定算力开销。现阶段,深度求索已在 GitHub DeepSpec 项目开源 DSpark、DFlash、Eagle3 全套训练代码、评估工具与模型权重,为行业低成本落地高性能大模型推理服务提供完整技术方案,助力人工智能产业降低线上部署成本、提升用户交互体验。(纯钧)1782615626334环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:秦耳环球网178261562633411[]//img.huanqiucdn.cn/dp/api/files/imageDir/b2aed306bd3ec98dbb16059e06ff019bu1.png{"email":"qiner@huanqiu.com","name":"秦耳"}
【环球网科技综合报道】6月28日消息,北京大学与深度求索(DeepSeek)联合推出大模型推理加速框架 DSpark 并完成开源,该技术有效破解大语言模型高并发场景推理效率难题,同等吞吐量条件下可将单用户文本生成速度提升 60% 至 85%,相关论文、训练代码已上线 GitHub 开放共享。当前大语言模型采用自回归生成逻辑,每生成一个文字单元都需完整前向运算,对话响应延迟居高不下。推测解码是主流提速路线,但现有方案存在明显短板:串行草稿模型候选生成耗时随长度递增,并行草稿模型长序列候选接受率快速下滑,高并发场景下算力浪费严重、系统吞吐量受限。 针对两大核心痛点,DSpark 创新打造双重优化机制。候选生成层面采用半自回归架构,依托改良并行主干网络一次性输出候选基础特征,搭配轻量化顺序模块补充文本前后依赖关系,仅两层 Transformer 结构性能便超越五层传统并行模型,兼顾生成速度与候选质量。验证调度层面创新置信度调度验证机制,通过硬件感知前缀调度器,结合实时算力负载、候选存活概率动态分配算力资源,优先验证高可靠文本片段,减少无效计算损耗。研究团队选取通义千问 3、Gemma4 等主流大模型开展多场景测试,覆盖数学推理、代码编写、日常对话三大任务。数据显示,DSpark 单轮有效生成长度全面优于 Eagle3、DFlash 两类主流基线模型,以 Qwen3-4B 为例,相比 Eagle3 提升 30.9%、相比 DFlash 提升 16.3%,既保留并行架构首位生成优势,又解决长序列候选有效率衰减问题。工程落地环节,研发团队完成多项底层系统优化。训练阶段优化数据传输逻辑、采用序列打包策略降低算力与内存消耗;部署端设计异步调度模式,规避 GPU 流水线卡顿,通过逻辑与物理计算解耦适配动态变长验证需求,兼容主流 CUDA 硬件生态。该框架已落地 DeepSeek-V4-Flash、DeepSeek-V4-Pro 预览版服务引擎。线上真实流量实测结果显示,在不同用户响应速度标准(SLA)下,系统整体吞吐量实现跨越式增长:V4-Flash 引擎保障单用户 80token/s 生成速度时,吞吐量较原有基线提升 51%;要求 120token/s 高速输出时,吞吐量优势达 661%;V4-Pro 引擎 35token/s、50token/s 标准下吞吐量分别提升 52%、406%。系统可根据在线并发量自动调整验证文本长度,低负载充分释放算力,高负载平滑控制资源竞争,自适应适配多变业务流量。据介绍,DSpark 仍存在一定优化空间,复杂低适配查询场景下完整候选块生成会产生固定算力开销。现阶段,深度求索已在 GitHub DeepSpec 项目开源 DSpark、DFlash、Eagle3 全套训练代码、评估工具与模型权重,为行业低成本落地高性能大模型推理服务提供完整技术方案,助力人工智能产业降低线上部署成本、提升用户交互体验。(纯钧)