论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》
2021/12/6 1:17:21
本文主要是介绍论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
导读
这是一篇来自斯坦福大学计算机系的论文,发表于2011年,题目是《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》,聚焦于通过提取科学论文的关键点来分析研究动态。
选题背景
我们可以根据研究社区发表的科技论文看出其研究动态、领域间的技术传播、某一话题的研究焦点向研究工具的转变等。为了找寻领域内技术驱动和领域驱动之间的平衡点,我们需要更加细粒度的分析手段。
基于此,本文提出了需要从科技论文中抽取的三个关键点:
- 焦点(FOCUS):文章的主要贡献
- 技术(TECHNIQUE):文章中使用的方法或工具
- 领域(DOMAIN):文章的应用领域
⚠️注意: 原文的“community”和“domain”的区分。“community”指较宽的领域,如计算机科学、统计学等;“domain”则是较为细化的,如中文分词、命名实体识别等。
数据与实验
数据集
ACL Anthology数据集,以计算语言学领域为例,使用其中从1965年到2009年的15016篇论文的标题和摘要。
方法
匹配句子依赖树中的语义模式进行概念的抽取,并使用自举方法(bootstrapping)学习更多模式。
之所以不使用词袋式的方法,如主题模型,是因为仅能识别主题或领域,但不能标记其中不同的交叉部分。
实验一:短语抽取-模式匹配和学习
(1) 模式匹配
对象: 论文题目和摘要
方法: 使用斯坦福解析器(Stanford Parser)生成句子的依赖树。
数据准备:
- 为了进行测试,在三个类别手工标记了474篇摘要。
- 设计种子模式:焦点13个,技术7个,领域15个。
- 对于子领域,对于论文全文使用LDA算法并手动标注,共计100个主题,并使用了其中的72个主题。
模式示例:
针对题目的句法依赖分析的特例: - 若无法提取,则全部标注为“焦点”。
- 若可以提取“技术”,则将剩余部分标注为“领域”。
(2) 基于短语的学习模式
从已经提取的关键词回溯其父树,统计各模式出现的频率,取每一个类别的前k个(k=2)模式作为补充。
此学习模式仅适用于技术和领域两个方面,在学习中对这两个类别进行50次迭代,并停用其中的常见短语。
实验二:计算领域影响力
从论文a中抽取的短语p,对于领域c在技术t方面的影响的分数为:
计算领域c1对领域c2在技术t方面的影响(ya表示论文发表的年份,D是所有论文的集合),其中C(a2,a1)是基于假设的加权函数。如果a2引用了a1,那么其值为1;否则值为λ(本研究取值为0.5):
领域c1对c2在某一年的影响,将所有文章中的所有词语得分求和:
领域c1对领域c2以及其他所有领域的影响力的计算公式如下:
结果
1. 提取结果
包含从子树提取的全部短语:焦点-64041个、技术-38220个、领域-46771个。
2. 不同抽取方法的F1、Recall、Precision
(1) 种子模式;(2) 种子模式+学习模式;(3) 基线方法(基于词频的tf-idf);(4) 注释者间的一致性。
3. 领域影响力和受欢迎程度随时间的变化
领域影响力不同于一个领域在特定年份的受欢迎程度
4. 影响力最高的领域以及相应的技术短语以及得分
5. 第一列中的领域受到第二列中的领域的影响最大
贡献
- 提出了科学论文关键点的新分类,即焦点、技术、领域三分类。
- 通过将语义模式与句子依赖树匹配的方法来提取论文关键点,并使用bootstrapping学习模式。
- 提出了一项研究领域相互影响的指标,即一个研究领域的关键方面作为技术被其他研究领域所采纳。
- 使用从计算语言学领域论文中提取的三个关键点进行案例研究,既验证了系统的结果,也展示计算语言学子领域的研究动向和总体影响的新结果。
- 引入了标注有三个类别的论文摘要数据集。
这篇关于论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-26RocketMQ入门指南:搭建与使用全流程详解
- 2024-11-26RocketMQ入门教程:轻松搭建与使用指南
- 2024-11-26手写RocketMQ:从入门到实践的简单教程
- 2024-11-25【机器学习(二)】分类和回归任务-决策树(Decision Tree,DT)算法-Sentosa_DSML社区版
- 2024-11-23增量更新怎么做?-icode9专业技术文章分享
- 2024-11-23压缩包加密方案有哪些?-icode9专业技术文章分享
- 2024-11-23用shell怎么写一个开机时自动同步远程仓库的代码?-icode9专业技术文章分享
- 2024-11-23webman可以同步自己的仓库吗?-icode9专业技术文章分享
- 2024-11-23在 Webman 中怎么判断是否有某命令进程正在运行?-icode9专业技术文章分享
- 2024-11-23如何重置new Swiper?-icode9专业技术文章分享