命名实体识别技术专利技术分析

(整期优先)网络出版时间:2023-05-25
/ 2

命名实体识别技术专利技术分析

孙铭君, 辛欣(等同第一作者)

国家知识产权局专利局专利审查协作天津中心   天津   300304

摘要:随着大数据等技术的发展,如何对信息进行有效挖掘成为迫在眉睫的技术难题。命名实体识别作为自然语言处理领域的重要基础任务,可以有效从文本中识别出其中所包含关键实体信息。本文通过对命名实体识别领域的专利申请进行分析,以提供专利布局参考。

关键命名实体识别专利分析


1概述

随着大数据等技术的发展,如何对信息进行有效挖掘成为迫在眉睫的技术难题。自然语言处理(Nature Language Processing,NLP)技术是人工智能学、语言学和计算机科学等领域的一个综合交叉学科,其研究目的是允许计算机利用句式,语法等语言学规则训练人工智能模型,最终使其能够从自然语言文本中提取出具有重要价值的信息[1]。命名实体识别指的是从文本中识别出其中所包含的实体信息,是自然语言处理领域一项重要基础任务,同时也是许多下游任务的核心,如知识图谱、机器翻译和智能问答等[2]

基于对命名实体技术相关书籍文献的阅读,本文对国内外命名实体识别技术专利进行检索,对获取的初始数据进行人工筛选、合并同族专利,确定最终分析专利数据集。对命名实体技术专利的申请趋势、重点申请人分布情况以及相关核心专利进行分析整理,为相关领域研发人员在该技术专利布局提供信息参考。

2 命名实体识别发展态势分析

如图1所示,考虑到2022年存在尚未公开的专利申请,命名实体识别技术自2004年至2022年整体呈上升趋势。该领域技术发展仍处于发展阶段,其中中国排名第一,美国次之。但值得注意的是,经过2017年至2019年的快速增长期后,近几年申请增长率逐步降低,预计未来几年该领域的即将进入平台期,布局空间逐步缩小。

全球申请趋势 (2).png

图1  申请量总体趋势分析

图2的生命周期同样表现出该技术领域自2016年至2021年投入布局的申请人快速增长,2020年至2021年呈现申请人平均申请量增长率略微降低的现象,该生命周期曲线表现出各创新主体对该技术领域的强烈关注,同时也预示该领域的布局竞争愈发激烈。

生命周期 (1).png

2生命周期图

3 命名实体识别重点申请人分析

3示出在命名实体识别领域进行专利布局排名前十的申请人。腾讯、平安科技、百度分列前三,国外申请人有IBM以及微软分列第四、第六位。通过分析发现,前十名中仅有中国人民解放军国防科技大学一所高校,其余大多为商业创新主体,这也侧面反映了该技术领域的发展具有很强的市场驱动性,在前期的专利布局中往往根据市场需求进行技术革新及专利布局。但随着市场应用趋于成熟,缺少新的运用模式创新时,对命名实体识别精确、效率的提升需求等纵向深度技术革新将成为新的专利布局点。面对平台期的临近,创新主体需要关注高校等具有深厚研发实力的主体进行合作交流。

申请人排名 (2).png

3  申请人排名

4 命名实体识别核心专利分析

核心专利的梳理有利于把握命名实体识别领域的技术发展方向及重要技术节点。本节结合被引次数、专利族数量两个维度对处理后的专利数据集进行整理归纳,对命名实体识别核心专利进行分析。

(1)命名实体识别的消歧

US20090144609A1公开了用于使用自然语言处理技术的实体识别和歧义消除的方法和系统,专利中提供了实体识别和消歧系统(ERDS)和过程,其基于文本段的输入,使用自然语言处理技术和对从周围文本中的上下文数据收集的信息的分析来自动确定文本正在引用哪些实体。 方案中可从诸如本体知识库的知识库检索可用于辅助识别和/或歧义消除过程的补充或相关信息。并且,ERDS包括语言分析引擎、知识分析引擎和歧义消除引擎,其协作以从知识库中识别候选实体,并使用上下文信息确定候选实体中的哪一个最匹配文本段中的一个或多个检测到的实体。

(2)命名实体识别的模型优化

CN106569998A公开了一种基于Bi LSTM、CNN和CRF的文本命名实体识别方法,该方法通过以下步骤实现:(1)利用卷积神经网络对文本单词字符层面的信息进行编码转换成字符向量;(2)将字符向量与词向量进行组合并作为输入传到双向LSTM神经网络来对每个单词的上下文信息进行建模;(3)在LSTM神经网络的输出端,利用连续的条件随机场来对整个句子进行标签解码,并标注句子中的实体。该方案构建端到端的模型,不需要未标注语料集中除预训练好的词向量之外的数据预处理,能在不同的语言和领域的语句标注中有广泛应用。

(3)命名实体识别的市场应用

CN103544255A公开了一种基于文本语义相关的网络舆情信息分析系统,包括以下模块:网络舆情信息采集模块,从网页中采集蕴含丰富的各种舆情信息;舆情信息萃取模块和舆情信息预处理模块将采集的舆情信息进行初步过滤和切分,提取正文部分的元信息,建立文本的特征语义网络图,并进行加权计算和特征抽取,为舆情信息挖掘提供服务。舆情信息挖掘模块,采用基于语义相似度的改进文本聚类分析方法,将文本进行归类;舆情信息分析模块,把舆情信息经过挖掘的数据进行OLAP多维统计,分析舆情评测指标,为相关舆情信息决策提供支持。该方案解决文本中词语语义信息不完整的问题,高效实现大规模网络环境下对动态数据的聚类分析和热点话题发现。

5 结束语

本文通过命名实体识别技术专利数据进行申请趋势、重点申请人核心专利的筛选分析,总结该技术领域的发展阶段,并建议挖掘高校主体研发资源进行纵向深入研发寻求专利布局突破口。并且,基于该领域强烈的市场驱动性特点,通过技术革新迭代提升应用体验,将形成良好的研发落地正循环,形成多方共赢的良好局面。

参考文献:

[1]张宇德. 基于深度学习的高效益中文命名实体识别算法的研究[D].南京邮电大学,2022.

[2]肖勇兵. 面向生物医学文本的实体识别研究[D].南京邮电大学,2022.