跨学科学术文献引文推荐:现状与展望

(整期优先)网络出版时间:2024-03-07
/ 3

跨学科学术文献引文推荐:现状与展望

罗飞

身份证号:130723199209270857

摘要

随着跨学科研究的快速发展,跨学科学术文献引文推荐在帮助研究者获取相关学术资源方面具有重要意义。本文首先介绍了跨学科研究的重要性以及学术文献引文推荐的作用,明确了论文的研究目的。通过对现有引文分析工具、跨学科研究趋势以及跨学科文献引文推荐方法的综述,本文分析了当前跨学科学术文献引文推荐的现状。在此基础上,本文展望了跨学科学术文献引文推荐的未来发展趋势,包括采用跨领域推荐技术和图神经网络技术来解决跨学科推荐里的冷启动、数据稀疏等问题

1.跨学科引文推荐的现状

跨学科研究对于科学技术的进步和社会的发展至关重要,许多重大科学问题的突破往往是在跨学科领域取得的[[1]]20211月,教育部在13学科门类的基础上,宣布交叉学科为新的学科门类,以促进学科交叉和交叉学科的研究,这是建设中国特色自主知识体系的重要组成部分[[2]]。随着跨学科研究的快速发展,跨学科学术文献引文推荐在帮助研究者获取相关学术资源方面具有重要意义。随着科学技术的不断发展,学科之间的交叉与融合日益加剧。跨学科研究已经成为推动学术创新和解决复杂问题的重要方式。在这种背景下,跨学科学术文献引文推荐成为了一个具有重要实际意义的研究课题。

在撰写学术文献时,引用相关研究成果是至关重要的环节。研究者引用其他文献的原因和动机主要有三种:一是从文献中获取写作灵感,学习其研究思路、方法或学术观点;二是将其他文献作为论据引用,以支持自己的观点并使其更加充实;三是将其他文献作为相关领域最新研究进展进行描述[[3]]。在撰写学术文献时,研究者通常需要引用大量参考文献来支持自己的观点。不同学科之间所需的引文数量差异显著,尤其是相对成熟的学科(如生物学等),有时甚至需要穷尽所有相关参考文献,这无疑会消耗研究者大量精力[[4]]。在学术文献数量迅速增长的今天,每天都有数以万计的学术成果发表。根据R.M.May 1997年的统计,公开出版物的年增长率为3.7%,在一些热门研究领域,这个数字更是惊人[[5]]。此外,DBLP的文献增长率已超过7%。因此,如何在质量参差不齐的学术资源中迅速找到合适的相关文献,成为了科研人员面临的一大挑战。

引文推荐可以根据推荐内容和范围的不同,分为全局引文推荐和局部引文推荐[[6]]。全局引文推荐主要针对全文内容,通过对标题、摘要和关键词等进行分析,挖掘出语义信息。然后,通过相似度算法将这些语义信息与数据库中的内容进行匹配,根据匹配结果的相似度高低进行推荐,从而形成参考文献列表。这种推荐方式能够帮助研究人员在撰写论文时找到与其研究领域和主题相关的文献,从而提高论文的质量和可信度[[7]]局部引文推荐则主要关注特定的文献语句,着重分析特定引文内容。其做法是首先标记引文符号并获取其所在的引文语句,然后结合上下文分析引文语句的语义,从而推荐相关文献。这种推荐方式能够在需要引文佐证的位置添加相关文献,帮助研究人员在论文写作过程中更好地引用和佐证自己的观点。局部引文推荐还可以提高引文的准确性和针对性,从而避免因不恰当的引文而导致的论文质量问题。总之,全局引文推荐和局部引文推荐在推荐内容和范围上存在差异,但它们都致力于为研究人员提供高质量的引文推荐服务,以提高论文的质量和可信度。通过这两种推荐方式,研究人员可以更有效地获取相关文献资源,从而促进学术研究和创新。

2.学术文献引文推荐方法

Strohman等人首次提出了引文推荐的相关概念,他们认为在查找相关文献时,将整篇文档作为查询词的效果要优于短语句查询。他们通过运用图模型和文本相似性相结合的方法,对引文推荐进行了初步研究[[8]]

目前,引文推荐的研究主要分为基于内容的引文推荐和基于图的引文推荐两个方面。在基于内容的引文推荐中,研究者主要依据学术论文的题录数据,如篇名、关键词、摘要等,通过对文本语义间的相似度比较来实现引文推荐。例如,J. Tang等人提出给文中某个具体的引文上下文推荐引文,通过应用主题模型完成推荐任务;Q. He等人利用引文上下文的差异性,首次将引文推荐分为局部引文推荐和全局引文推荐,认为局部引文上下文包括引文句在内的若干句子集合,而全局引文上下文是文档的标题和摘要信息,在此基础上采用机器学习自动识别引文推荐的位置并给出推荐列表;Y. Zhang等人考虑了论文文本的词汇上下文、章节上下文以及科研人员正在撰写的文本片段三个维度,提出了一个基于双重注意力机制的引文推荐模型[[9]]S. T. Ma等人将引文推荐的内容从文本拓展到引文上下文等语境信息,并在后续研究中将时间因素纳入引文推荐中,基于用户查询来预测时间偏好,后利用时间偏好对基于内容过滤得到的初始引文列表重新排序[[10]];路永和等人基于段落层级结构,分别在词级和句级使用双向

GRU对写作需求和参考文献进行语义建模,基于文本特征相似度实现了提供科研人员写作时的实时引文推荐功能[[11]];崔志慧等人通过将引文推荐问题转化为文献是否被引用的二元分类问题,在其中加入文献的活跃度特征,利用机器学习方法从特征库中提取有利于文献被引用的关键特征,并基于这些特征实现引文推荐[[12]]

在基于图的引文推荐中,研究者利用图模型来表示文献之间的引用关系,并通过分析图结构来挖掘潜在的引文推荐。例如,Z. Liu等人提出了一种基于社交网络分析的方法,用于发现潜在的引用关系;W. Wang等人利用图神经网络对文献引用网络进行建模,并预测未来的引用趋势;X. Chen等人将图嵌入技术应用于引文推荐,通过学习文献在图中的表示,实现更准确的引文推荐。在基于图的引文推荐研究中,学者们通过构建引文网络,将引文推荐视为网络中的链路预测问题来求解。M. Gori等人根据文章间的引用关系构建引文网络,提出了一种结合引文图和随机游走属性的论文推荐算法。通过引文关系构建网络,利用PageRank算法计算各个文章节点的权重作为偏好评分,并根据各个文章节点权重进行引文推荐。F. Meng等人则基于重启随机游走算法,构建了四层多元图,并综合利用作者引文网络和合作网络等图信息计算目标文献与其他文档的相似度。段震等人考虑了文献间的引文关系、文献和出版社关系、文献和作者关系等因素,提出了一种基于异质信息网络的引文推荐方法。而陈洁等人则基于多粒度属性网络表示学习的引文推荐算法,通过实验证明该算法可以显著提高网络表示学习效率,并同时兼顾文章的语义和结构特征[[13]]

无论是基于内容的引文推荐还是基于图的引文推荐方法,目前关于引文推荐的研究主要侧重于从算法效果提升的角度进行探讨,而对学科信息及跨学科研究的考虑相对较少。研究者们都在努力提高引文推荐的准确性和效率,以帮助科研人员更有效地获取相关文献资源,从而促进学术研究和创新。尽管有了上述方法,但跨学科引文推荐仍面临一些问题与挑战,如冷启动、数据稀疏、处理复杂、学科差异识别困难等。这些问题制约了跨学科文献引文推荐的发展,需要研究者进一步探讨和解决。

3.展望

在跨学科引文推荐的研究中,为了促进不同学科间的知识迁移和融合,我们采用了一个综合性的推荐框架,该框架整合了多种先进技术,以克服传统推荐系统在处理跨学科数据时的局限性。首先,我们构建了一个共享的学术特征空间,通过识别和共享重叠的作者、关键词和主题等学术特征,采用类似于Zhu等人提出的DTCDR模型的技术,使得不同学科的文献能够在这一空间中实现知识的共享和互渗,从而为跨学科引文推荐提供了丰富的特征表示和基础。接着,该框架进一步采用了跨域映射技术,如Man等人的EMCDR模型,通过学习得到源学科到目标学科的映射函数,实现了知识在学科间的精准迁移[[14]]。同时,通过Cui等人的HeroGraph模型构建异构图,结合图表示学习技术,揭示了文献间的复杂关系,并利用对抗学习如Tzeng E等人的ADDA模型,使得学科间的特征差异趋于模糊,增强了知识的泛化能力。此外,借鉴清华大学的CATN模型,我们进行了方面级别的跨域表征匹配,以实现更为精细的跨学科偏好迁移,为研究者提供了与其研究领域相辅相成的精准引文推荐。这一综合框架不仅有效解决了跨学科引文推荐中的冷启动问题,而且显著提升了推荐系统的性能,促进了学术领域的交叉融合和知识创新。

跨学科引文推荐是一个涉及多学科领域、多种类型实体和关系的复杂任务。为了更好地处理这种异质图结构数据,我们可以采用图神经网络(GNN)的方法,包括图卷积网络(GCN)、图注意力网络(GAT)和异质图神经网络等。这些方法可以有效地捕捉跨学科领域之间的复杂依赖关系,挖掘跨学科知识图谱中的隐藏结构信息,从而为跨学科引文推荐提供更准确和有价值的建议。具体而言,图卷积网络(GCN)可以将卷积的思想运用到图神经网络中,学习如何利用图的结构和节点特征信息,并从局部图邻域中迭代聚集这些特征信息。通过使用卷积和池化运算,GCN能够有效地聚合图中用户和项目的邻域信息来学习用户和项目的信息嵌入表示,并在此过程中挖掘图的隐藏结构信息,从而更好地生成推荐。图注意力网络(GAT)将注意机制引入到图神经网络中,以区别地学习其他用户或项目对本用户或项目的不同相关性和影响程度。学习注意权重可以把邻居的信息集中到目标用户或项目的表示中。将图注意力网络应用到推荐系统中,可以更准确地了解用户或项目之间的关系,强调特定的用户或项目与目标节点的关系,以更符合实际情况。异质图神经网络推荐算法在真实的推荐应用场景中,各种信息是相互关联的,用户的行为受到多方面因素的影响。现有的基于同质图神经网络的研究,例如用户-用户图,项目-项目图虽然能够有效捕获相似用户和相似项目间的关联,但是这种关系比较单一,并且不能充分使用用户的行为信息。越来越多的研究者开始在含有多种节点和关系类型的异质图上进行研究,通过分析异质图的结构化信息和语义信息设计模型方法。异质图结构信息更加复杂,蕴含的语义信息也更加丰富,这也为数据挖掘工作带来了新的机遇和挑战。通过将图神经网络应用于跨学科引文推荐,我们可以克服传统推荐系统在处理跨学科数据时的局限性,促进不同学科间的知识迁移和融合。这些方法可以有效地捕捉跨学科领域之间的复杂依赖关系,挖掘跨学科知识图谱中的隐藏结构信息,从而为跨学科引文推荐提供更准确和有价值的建议。

4 结论

跨学科学术文献引文推荐是一个具有重要价值和广阔前景的研究领域。它不仅能够帮助研究者快速准确地获取跨学科领域的学术资源,而且能够促进学科间的交流与合作,推动学术创新的产生。然而,这一领域仍面临着诸多挑战,包括冷启动、数据稀疏、处理复杂、学科差异识别困难等问题。未来的研究需要在这些方面进行深入探索,以实现更加高效、智能和个性化的跨学科学术文献引文推荐服务。

本文通过对跨学科学术文献引文推荐的现状进行分析,提出了未来发展的展望,希望能够为相关领域的研究者提供参考和启示。随着技术的不断进步和学术交流的日益活跃,跨学科学术文献引文推荐将发挥越来越重要的作用,为学术研究的发展贡献力量。


[[1]]颜建勇,李晓峰.设立交叉学科学位:培养研究生创新人才的可供选择[J].高等工程教育研究,2017(01):179-184.

[[2]]李立国和李登.设置交叉学科:打破科学割据,作彻底联合的努力[N]. 光明日报, 2021-02-07(11).

[[3]]陈海华, 孟睿, 陆伟. 学术文献引文推荐研究进展[J]. 图书情报工作, 2015, 59(15): 133-143,147.

[[4]]Wouters P. The citation culture[D]. Amsterdam: University of Amsterdam, 1999.

[[5]]Mallik A, Mandal N. Bibliometric analysis of global publication output and collaboration structure study in microRNA research [J]. Scientometrics, 2014, 98(3):2011-2037.

[[6]]HE Q, PEI J, KIFER D, et al. Context-aware citation recommendation[C].Proceedings of the 19th international conference on World Wide Web. Raleigh:ACM, 2010:421-430.

[[7]]陈海华,孟睿,陆伟.学术文献引文推荐研究进展[J].图书情报工作, 2015, 59(15):133-143, 147.

[[8]] T. Strohman, W. B. Croft, and D. Jensen. Recommending citations for academic papers. In SIGIR, 2007: 705-706.

[[9]]ZHANG Y, MA Q. Dual attention model for citation recommendation[J]. arXiv preprint arXiv: 2010.00182, 2020.

[[10]]MA S T, ZHANG C Z, LIU X. A review of citation recommendation: from textual content to enriched context[J]. Scientometrics, 2020, 122(3): 1445-1472

[[11]]路永和 , 刘佳鑫 , 袁美璐 , . 基于深度学习的科技论文引用关系分类模型 [J]. 现代情报 , 2021, 41(3): 29-37

[[12]]崔志慧 , 彭兰一香 , 熊曦 , . 考察文献活跃度特性的个性化 引文推荐研究 [J]. 智能计算机与应用 , 2021, 11(5): 134-142

[[13]]陈洁 , 刘洋 , 赵姝 , . 利用多粒度属性网络表示学习进行引 文推荐 [J]. 计算机科学与探索 , 2021, 15(6): 1103-1113.

[[14]]Man T, Shen H, Jin X, et al. Cross-domain recommendation: An embedding and mapping  approach[C].IJCAI. 2017, 17: 2464-2470.