德国吕贝克大学等机构的研究者提出了一种名为SUGAR的新方法,通过在反向传播时使用非零、连续的替代梯度函数,解决了ReLU单元的“死亡ReLU问题”,从而显著增强了网络的泛化能力和测试准确率。
实验结果显示,SUGAR结合B-SiLU激活函数在CIFAR-10和CIFAR-100数据集上的测试准确率分别提升了10个百分点和16个百分点,而结合ELU和SELU也提供了可靠的改进。
SUGAR方法易于实现,适用于多种现代架构,展示了其在深度学习领域的适应性和有效性。
德国吕贝克大学等机构的研究者提出了一种名为SUGAR的新方法,通过在反向传播时使用非零、连续的替代梯度函数,解决了ReLU单元的“死亡ReLU问题”,从而显著增强了网络的泛化能力和测试准确率。
实验结果显示,SUGAR结合B-SiLU激活函数在CIFAR-10和CIFAR-100数据集上的测试准确率分别提升了10个百分点和16个百分点,而结合ELU和SELU也提供了可靠的改进。
SUGAR方法易于实现,适用于多种现代架构,展示了其在深度学习领域的适应性和有效性。