粒化数据标记是大数据处理重要的研究内容,为发挥科研对教学的引导作用,人工智能学院于10月24日举办“青年学者学术论坛”。此次论坛采取线上形式进行,论坛邀请耿聪老师作专场报告,院全体专任教师参加线上学术报告会。
耿聪表示,当前,不同领域产生的数据量呈指数趋势增长,规模庞大的数据由于其潜在的价值而引起各界的瞩目。然而,基于实例的机器学习算法分析和处理数据的能力却在这种增长趋势下被大大制约,且大规模数据的存储也成为当前亟待解决的问题,因此,实例约减成为大规模数据分析和处理的重要研究内容之一。实例约减即基于一定的准则,在尽可能保持学习算法性能的前提下,删除数据集中对数据分析贡献较小的样本,以减小数据规模,提高数据分析的效率。已有实例约减算法在大数据环境下,往往面临算法耗时、约减率和约减子集的数据分析性能难以平衡的问题。
耿聪表示,借鉴粒计算在特征选择领域的研究成果,提出一种基于粒化数据重要性标记的快速实例约减算法。基于粒化数据重要性标记的快速实例约减算法,通过采用“分而治之”的策略,在保持数据集分类精度的前提下,实现数据集的快速约减。提出的数据粒化处理大大降低了后续数据重要性计算成本;基于Hausdorff距离数据重要性标记的实例约减策略,约减子集较好地保留了原始数据集的轮廓特征。
(文图/人工智能学院 编辑/邵清清 审核/徐海波)