麻省理工学院的研究团队提出了自然语言中隐藏的互信息缩放定律(Mutual Information Scaling Law),并据此提出了长上下文语言建模的L²M条件,为理解大语言模型的长文本处理能力建立了首个系统化理论框架。
研究发现,传统观点认为自然语言的长程依赖关系可以通过两点互信息的幂律衰减来描述,但新研究证明这种认知存在局限,提出了二分互信息这一全新度量,揭示了文本块之间复杂的整体依赖关系。
实验验证表明,满足L²M条件的模型在处理长文本时表现出更优性能,这为改进大语言模型的设计提供了理论指导,有望推动AI系统向更智能的方向发展。