个人开发者团队Nous Research宣布推出Psyche Network,利用去中心化训练网络和DisTrO优化器成功训练出400亿参数的大规模语言模型Psyche,打破了传统由科技巨头垄断的算力格局。
Psyche采用DeepSeek V3 MLA架构,通过分布式算力整合和点对点网络堆栈,实现高效训练,甚至可以在家用宽带连接的GPU上运行,展示了分布式训练的强大潜力。
该技术突破不仅降低了大规模模型训练的门槛,也为未来更多小团队和开发者参与AI模型开发提供了可能。
个人开发者团队Nous Research宣布推出Psyche Network,利用去中心化训练网络和DisTrO优化器成功训练出400亿参数的大规模语言模型Psyche,打破了传统由科技巨头垄断的算力格局。
Psyche采用DeepSeek V3 MLA架构,通过分布式算力整合和点对点网络堆栈,实现高效训练,甚至可以在家用宽带连接的GPU上运行,展示了分布式训练的强大潜力。
该技术突破不仅降低了大规模模型训练的门槛,也为未来更多小团队和开发者参与AI模型开发提供了可能。