7月16日,应我院康琦教授邀请,美国中央阿肯色大学盛胜利副教授在智信馆603会议室作了题为“Data Quality and Data Mining with Crowdsourcing”的学术报告,与师生展开了热烈的学术交流与讨论。
此次报告会上,盛胜利副教授首先介绍了其科研团队的研究方向——多标签学习、主动学习、代价敏感学习、众包机理学习,并针对“众包”这一报告主题,列举网站标记、ESP游戏等真实案例,引出此次报告的两大主要内容,即众包机制的选择、数据标签的有效利用。
针对众包机制,盛胜利副教授指出,利用自主学习的方法对目标变量进行信息搜集,通过多标签的集成可以有效地提高分类的精度和模型的质量,特别是当标签的获取相对代价较低时,该策略相比传统的单标签模型具备非常好的优势。针对标签的有效利用,盛副教授就“真值推理”与在场师生深入探讨如何滤除集成标签中由质量矩阵带来的噪音、如何识别随机标记者与对抗标记者、如何处理标签中的个人倾向。然后,盛胜利副教授介绍了众包标签在模型学习的问题与解决办法,指出集成标签丢失了很多原始数据的信息,并提出Pairwise-Beta方法来最大化负类标签的利用价值。最后,盛胜利副教授对众包数据的价值挖掘与有效利用提出新的研究思路与前景展望。
报告结束后,盛副教授还向在场学生介绍关于发表高水平论文方面的经验,各位老师及同学与盛副教授进行了进一步的交流讨论,气氛融洽。康琦教授对盛副教授的精彩报告表示感谢,并提出在今后的科学研究中加强联系,进行更深入的合作。
盛胜利(VICTOR S. SHENG)是美国阿肯色中央大学计算机科学系教授(终身教职)和数据分析实验室主任。研究领域为数据挖掘与机器学习、人工智能、数据安全和决策支持。主持或共同主持美国自然科学基金、加拿大自然科学与工程研究基金等12项。在数据挖掘和机器学习的顶级期刊如TPAMI、TKDE、JMLR、TMM、TNNLS和DMKD等,以及顶级会议如IJCAI、KDD、ICML、AAAI、ECML、ICDM、DASFAA、ACM MM、ICMR、ICME、CIKM等上面共发表研究成果论文130余篇,其中CCF推荐的A类期刊和会议论文30余篇,谷歌学术统计单篇论文被引用最高达820余次,累计被引用3890余次。2018年荣获ICCCS大会最佳论文奖和杰出贡献奖; 2015年荣获WISE最佳学生论文奖Finalist;2011年荣获ICDM大会最佳论文奖;2008年荣获KDD大会最佳论文奖亚军;2008年机器学习研讨会Google学生奖;2006年荣获IEEE Kitchener-Waterloo知识和数据挖掘联合研讨会最佳海报奖。研究成果已经运用到软件开发,医疗诊断, 和在线情感分析中,并与世界一流公司合作,实现技术产业化或是联合研究,如与Sun Microsystems合作将成果转化为软件产品,以及获得IBM公司资助开展数据质量研究等。(姚思雅)