4MUxj2RYLaR tech.huanqiu.comarticleDeepSeek新模型开源发布,参数量达6710亿/e3pmh164r/e3pn4gh77【环球网科技综合报道】5月1日消息,DeepSeek于4月30日在AI开源社区Hugging Face上正式发布了一款名为DeepSeek-Prover-V2-671B的新模型。据悉,DeepSeek-Prover-V2-671B模型参数规模高达6710亿,或为去年发布的Prover-V1.5数学模型的升级版本。该模型采用了更为高效的safetensors文件格式,并支持多种计算精度,使得模型在训练和部署过程中更加迅速且资源消耗更低。在模型架构上,DeepSeek-Prover-V2-671B继承了DeepSeek-V3的先进设计,采用了混合专家(MoE)模式,拥有61层Transformer层和7168维的隐藏层,极大提升了模型的复杂处理能力。尤为值得一提的是,DeepSeek-Prover-V2-671B支持超长上下文处理,最大位置嵌入达到163840,这一特性使其能够轻松应对复杂的数学证明任务。此外,模型还采用了FP8量化技术,有效减小了模型体积,同时提高了推理效率,为AI在数学领域的应用开辟了新的可能。(纯钧)1746069862588环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:秦耳环球网174606986258811[]//img.huanqiucdn.cn/dp/api/files/imageDir/da59d96837c1bf47f2bc5d3af4c01962u1.png{"email":"qiner@huanqiu.com","name":"秦耳"}
【环球网科技综合报道】5月1日消息,DeepSeek于4月30日在AI开源社区Hugging Face上正式发布了一款名为DeepSeek-Prover-V2-671B的新模型。据悉,DeepSeek-Prover-V2-671B模型参数规模高达6710亿,或为去年发布的Prover-V1.5数学模型的升级版本。该模型采用了更为高效的safetensors文件格式,并支持多种计算精度,使得模型在训练和部署过程中更加迅速且资源消耗更低。在模型架构上,DeepSeek-Prover-V2-671B继承了DeepSeek-V3的先进设计,采用了混合专家(MoE)模式,拥有61层Transformer层和7168维的隐藏层,极大提升了模型的复杂处理能力。尤为值得一提的是,DeepSeek-Prover-V2-671B支持超长上下文处理,最大位置嵌入达到163840,这一特性使其能够轻松应对复杂的数学证明任务。此外,模型还采用了FP8量化技术,有效减小了模型体积,同时提高了推理效率,为AI在数学领域的应用开辟了新的可能。(纯钧)