今天,kimi 发布了新的开源项目 Kimi-Audio,这是一个全新的通用音频基础模型,在多个音频基准测试中实现了最先进的性能。
Kimi-Audio 采用了集成式架构设计,包括音频分词器、音频大模型和音频去分词器三个核心组件,能够流畅处理多种音频语言任务。
该项目已经在 Github 上开源,包括模型代码、模型检查点以及评估工具包,展示了其在自动语音识别、音频理解、音频转文本和语音对话等任务上的卓越表现。
今天,kimi 发布了新的开源项目 Kimi-Audio,这是一个全新的通用音频基础模型,在多个音频基准测试中实现了最先进的性能。
Kimi-Audio 采用了集成式架构设计,包括音频分词器、音频大模型和音频去分词器三个核心组件,能够流畅处理多种音频语言任务。
该项目已经在 Github 上开源,包括模型代码、模型检查点以及评估工具包,展示了其在自动语音识别、音频理解、音频转文本和语音对话等任务上的卓越表现。