上海交通大学博士生程磊及其团队提出了一种新的视角来探索深度学习模型的泛化性,通过研究神经网络中层表征逻辑的交互复杂度。他们认为,通过分析神经网络内在的符号化交互概念复杂度分布,可以直接判断模型的泛化能力,而无需依赖大量测试数据。
研究发现,可泛化的交互概念在不同复杂度上呈现衰减形分布,而不可泛化的交互概念则呈现纺锤形分布。这一发现为理解和提升深度学习模型的泛化性能提供了新的理论依据。
该研究通过实验验证,当神经网络训练至过拟合前,其交互概念复杂度分布呈现出衰减形,表明这些模型具有较好的泛化能力。