字节Seed首次开源其代码模型Seed-Coder,该模型在多个基准测试中超越了现有模型,展示了通过模型自身生成和筛选高质量训练数据的能力,从而大幅提升模型的代码生成能力。
Seed-Coder采用了一种“模型中心”的数据处理方式,从GitHub和网络档案中提取和处理代码数据,经过多轮去重和质量过滤,构建了支持89种编程语言的庞大语料库。
该模型分为Base、Instruct和Reasoning三个版本,其中Instruct版本在编程任务中表现出色,尤其在IOI 2024测试中超越了其他大型模型。