Ai工具库 - 9na导航网收集Ai人工智能项目
注册
当前位置:首页 » 新闻资讯

DeepCoder开源引爆AI圈:参数虽小性能超强,训练全流程公开

2025-04-09 47

大模型平台Together AI与智能体平台Agentica联合开源DeepCoder-14B-Preview,一款仅140亿参数的代码生成模型。尽管参数规模不及GPT-4、Claude等巨头,但其性能表现却令人瞩目:
DeepCoder开源引爆AI圈:参数虽小性能超强,训练全流程公开

LiveCodeBench测试:得分60.6%,超越OpenAI o1(59.5%),仅略低于o3-mini(60.9%);
Codeforces/AIME2024评测:与o1、o3-mini表现持平,展现顶尖代码能力。

开源诚意:训练全流程透明化
与多数“部分开源”模型不同,Together AI此次彻底公开了DeepCoder的开发全链路:

模型权重:可直接部署至Hugging Face等平台;
训练数据集:包含2.4万个高质量编程问题,涵盖TACOVerified、PrimeIntellect SYNTHETIC-1等权威数据源;
训练方法:基于Deepseek-R1-Distilled-Qwen-14B微调,采用分布式强化学习(RL);
优化细节:训练日志、奖励函数设计、算法改进等均无保留。

技术解析:如何炼成“小而强”的代码模型?

数据质量把控
程序化验证:所有问题均通过外部官方解决方案验证,仅保留通过所有单元测试的样本;
测试过滤:每个问题至少包含5个单元测试,确保覆盖全面;
去重处理:删除重复问题,避免数据污染。
训练环境与奖励设计
双沙盒并行:
Together Code Interpreter:低成本、高扩展性,支持100+并发沙盒;
本地代码沙盒:严格遵循LiveCodeBench评估标准,确保结果一致性。
稀疏奖励机制:代码通过所有测试得1分,否则为0,杜绝“刷分”行为。
算法创新:GRPO+与迭代扩展
GRPO+算法:改进原始GRPO,消除熵损失、引入过长过滤和上限裁剪,提升训练稳定性与输出质量;
迭代上下文扩展:从16K逐步扩展至64K上下文,最终实现60.6%准确率。
训练效率革命:verl-pipeline
流水线优化:训练、奖励计算、采样全流程并行,奖励评估开销降低50%;
时间节省:训练效率提升2倍,尤其适用于复杂编码任务。

社区反响:开源精神与技术创新双赢

开发者狂欢:“这才是真正的开源!GRPO改进和采样优化太惊艳了!”
性能期待:“迫不及待在Ollama平台体验,性能或成新标杆!”
行业赞誉:“开源就该这样,技术透明才能推动生态繁荣!”

关于Together AI

成立时间:2022年
核心业务:云大模型平台,支持200+开源模型(Llama、DeepSeek-R1等),提供高速推理、模型微调、智能体工作流等服务;
算力规模:3.6万块GB200NVL72 GPU,算力资源行业领先;
融资动态:近期完成3.05亿美元B轮融资,估值从12.5亿美元跃升至33亿美元。

结语
DeepCoder的开源不仅为代码生成领域注入新活力,更以“全链路透明化”树立了开源新标杆。未来,随着社区的持续迭代,这款“小而强”的模型或将成为AI开发者手中的利器。

相关推荐

微信扫一扫

qrcode

58209013

22270@163.com

回顶部