2020年12月2日上午10点,南京理工大学教授章成志应邀在江苏大学图书馆一楼报告厅为江苏大学科技信息研究所的全体师生做讲座。本次讲座的主题是“基于学术文献全文内容的细粒度算法实体抽取与评估研究”,章教授面向学术文献全文细粒度算法实体抽取的目标,以“算法”实体抽取为例阐述了详细的抽取方案,对比了各类计算机算法近年来的演变和应用趋势。

章教授从研究背景方面向同学们介绍了处于第四范式、研究数据开放运动兴起以及机器学习、自然语言处理快速发展的背景下,算法的重要性不断凸显,在不同学科领域下,算法的提出、改进、应用等情况日益增多。

在研究问题方面,章教授介绍了算法的评估方式,包括直接评估、间接评估。其中专家评估的典型是2006年的ICDM会议上通过145名专家投票选出的数据挖掘十大算法,并完成了一本著作《The Top Ten Algorithms in Date Mining》,同时,章教授简单介绍了《十大数据挖掘算法在NLP中的影响力评估》。

接下来,章教授向同学们介绍了其研究的主要内容,包括全文语料库的构建(从ACL Anthology获取全文数据语料)、数据的标注、算法句的抽取、算法影响力分析、高影响力算法、高影响力算法的类别分布、不同年份的高影响力算法。

章教授介绍了其研究的初步结果,包括三种类型的算法影响力,分为三种类型,即急剧增长型、稳步增长型、稳步下降型。

紧接着,章教授总结了算法影响力变化的原因,主要受算法本身性能、资源技术发展、用户需求变化等因素的影响而变化。语法类算法在早期影响力较大,在各种影响的演变中,有三个明显的趋势,即经典算法的稳步增长、新算法的快速增长和算法的稳步衰落。在未来的工作中,可以着重研究对算法实体自动抽取、对算法被提及动机自动识别、算法共现和演化关系探究以及针对特定任务的算法评价。

最后章教授针对同学们的研究方向,提出了研究文章时不仅仅需要关注文摘、引文网络等,强调了对文章的全文内容进行研究的重要性。同时,章教授呼吁同学们积极进行研究,积极投稿。
供稿人:姜灵玉(2020级专硕)
2020年12月2日