全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品

港科大与vivo联合提出的PreSelect数据筛选方法,通过训练一个基于fastText的评分器,实现了数据效率提升10倍,具有更高的客观性、泛化性和轻量化特点。

该方法以数据预测强度为指标,通过计算模型在不同任务上的表现一致性,筛选出对模型能力贡献更大的数据,显著提升了模型效果。

实验结果显示,PreSelect方法在多个数据集和模型参数规模下,均优于其他主流筛选方法,验证了其在提升模型性能方面的有效性。

[原文链接]

上一篇:

下一篇:

微信