软件工程领域智能检索系统检索策略研究

(整期优先)网络出版时间:2023-12-14
/ 2

软件工程领域智能检索系统检索策略研究

陈玉艳 吴银娥1 赵喆

国家知识产权局专利局专利审查协作湖北中心

摘要:国家知识产权局智能检索系统于2021年正式上线运行,因其相较S系统的单库检索、块检索、公开日排序等模式,创新性地替代为并库检索、融合检索、语义排序、特征排序、外文翻译库等检索模式,需要根据智能检索系统使用经验制定一套规范的检索策略来予以保障和助力专利审查提质增效的总体战略。本文针对软件工程领域的发明专利申请的特点,制定了不同的智能检索系统检索策略,以提高该技术领域发明专利的检索效率和审查质量。

关键词:智能检索系统软件工程专利审查

0引言

近年来软件工程领域的专利申请量呈上升趋势,软件工程领域是具备技术性强特点的典型领域,旨在设计、开发、测试和维护软件系统,基本覆盖了软件的整个生命周期,包括需求分析、系统设计、编程、项目管理、质量保证和软件维护等技术分支,软件开发又进一步包括前端界面开发、后端开发、嵌入式开发、测试开发等。因此,软件工程领域的审查员需要广泛的技术储备,包括编程语言知识、算法和数据结构理解、操作系统原理、网络通信以及数据库管理、代码编译、软件测试等,审查员在掌握基础知识的台阶上,更需要具备充分的检索能力,因此,本文针对软件工程领域提出一套智能检索系统的检索规范。

一、智能检索系统简介

2021年上线的智能检索系统保留并优化S系统现有功能,新增智能检索功能,整合了文献数据资源。智能检索系统浏览模块新增基于技术特征画像实现文献快速浏览及筛选、分类号、关键词、关系式及短文本画像的一站式浏览,浏览过程中新增特征识别、高亮、统计及排序等功能,实现文献快速浏览及筛选。智能检索系统集成了智能检索的布尔检索入口和语义检索入口,提供了能够多维度将两种检索方式进行组合的融合检索。融合检索以语义检索为核心,实现选库、检索、概览、辅助工具一体化,其包括纯语义检索、纯命令行检索、先布尔检索后语义排序、先语义检索后布尔筛选四种基本检索策略[1]。其中,纯语义检索基于案件号,语义检索引擎推荐出语义最相关的文献。且语义基准可为自由文本,语义检索的词权重可调整。纯命令行检索与传统的S 系统检索策略相当。先布尔检索、后语义排序策略是布尔检索圈定文献的范围,语义检索在该范围中进行相关度排序。先语义检索、后布尔筛选策略是语义检索推荐一定数量最相关的文献,布尔检索在该范围中进行筛选。

智能检索系统的常用数据库包括CNTXT、WPABS、WPABSC、ENTXT、ENTXTC、DWPI、VEN(WPABS+DWPI)、VCN(CNTXT+ENTXTC)。需要在了解各个数据库特点的基础上,结合具体案情考虑相关度排序以选择合适的数据库并根据检索情况及时调整数据库的选取。

二、软件工程领域智能检索系统检索策略

2.1、推荐的检索流程

流程1、理解发明:充分理解发明,以准确把握发明构思是检索的基础。理解发明后,可先进行试探性检索,以快速获取R类、E类、X/Y类、A类对比文件及非正常申请的线索,包括对同族申请、系列申请/关联申请、分案申请、申请人/发明人/竞争对手、引证/被引证文件等进行追踪检索。试探性检索方式只需要以本申请的申请号为检索基准进行自动推送即可,是基本的检索规范[2]

流程2、纯语义检索:系统默认以本申请的申请号为语义基准后进行相似度排序后的推送,可以调整为自有文本作为语义排序基准。此时数据库的选取对语义推送的结果有明显影响,因智能语义排序的全面性,优选全文库匹配度较高。如果在国内申请占较大比重则优先选择 CNTXT 单库检索,如果单库推送的相关度不高,可调整为并库检索。

流程3、确定检索要素、分类号,构建布尔检索式:这是检索规范中的一种常规检索方式。而检索要素选取是否准确决定检索的有效性,检索要素包括关键词、分类号,关键词通常根据本申请的说明书或权利要求书记载的技术问题、技术方案和技术效果等多角度方式提取,或者利用智能检索系统的关键词扩展辅助工具、凭借技术储备、浏览检索结果等方式提取,分类号的确定通常根据本申请的记载、分类号查询器、统计分析等方式。

流程4、调整融合检索策略:融合调整策略包括调整语义基准、语义分词及其权重、布尔与语义的结合、换库检索等方式。语义基准包括申请号、文本,对于发明构思比较简单,关键词不典型的案例,可以考虑总结发明构思,将智能检索的语义基准调整为总结的一句话从而提高检索效率。关于调整语义分词及权重检索策略,智能化检索系统的语义检索一般是基于专利申请的整体的技术方案,系统根据专利申请自动确定重要的分词以及分词权重,但一些专利申请的发明构思并不是简单的文字识别得到的技术方案,需要有技术的审查员人工判别,从而调整语义分词和分析权重,不能完全依赖机器算法。关于布尔与语义相结合的检索策略,先根据关键技术手段构建布尔检索式,如若结果浏览量太大,则结合语义来表达关键技术手段,调整语义分词权重,增加语义分词, 提高对比文件的命中效率。

下表是以一典型案例在使用纯语义检索、纯布尔检索、以及布尔联合语义检索的对比文件位次对比表,可以充分证明语义与布尔的联合检索是调整融合检索策略的主要手段,用布尔检索式表达部分要素,当浏览结果量巨大时,再联合语义检索表达其他检索要素,可有效提高检索效率。

语义基准

数据库

检索策略

对比文件位次

申请号

CNTXT

纯布尔检索

940

申请号

CNTXT

纯语义检索

535

申请号

CNTXT

布尔联合语义检索

15

流程5、满足最低检索要求、进行全面检索。若通过上述流程后仍未获取有效对比文件,由于软件工程领域具有技术性强的特点,需要进一步进行非专利检索。非专利检索的入口与案例的特征和检索需求相关,对于学术文章、毕业论文检索的入口包括CNKI、万方、百度、google、百度学术、google学术、IEEE、ACM、Web of science、SCI-HUB;对于书籍检索入口包括读秀、CNKI工具书、google学术、微信读书;网页检索入口包括百度、google、知乎、微信公众号;技术博客检索入口包括CSDN、博客园、简书、掘金、51Testing 、360doc、新浪博客、网易博客、腾讯云、各大公司技术论坛:如腾讯云社区、华为云社区等;问答网站检索入口包括StackOverflow、知乎、ChinaUnix、微博;源码检索入口包括Github、pudn、google、gitee,视频检索入口包括爱奇艺、腾讯视频、百度、哔哩哔哩、今日头条。

流程6、终止检索。如果执行完前面的步骤仅仍未获取有效对比文件,可以终止检索。

三、总结

本文系统化介绍了针对软件工程领域的智能检索系统的检索策略,从软件工程领域是具备技术性强的特点出发,归纳总结该领域的重要技术脉络,基于智能检索系统的纯语义检索、纯命令行检索、先布尔检索后语义排序、先语义检索后布尔筛选四种基本检索策略,以该领域的实际案例作为支撑,研究一套推荐的检索规范和检索技巧,对于跨领域审查或者同领域审查具有一定的借鉴意义,以提高该技术领域发明专利的检索效率和审查质量(第二作者对本文贡献等同于第一作者)。

参考文献

[1]智能升级系统(检索部分)用户手册(发明和实用新型部分)v2.7,第18-25页.

[2] 基于智能化检索系统的基本检索规范初探.张珊珊,郭倩.检索微研究.2022.01.


作者简介

陈玉艳,硕士,2016年7月入局,湖北中心电学部计算机系统二室。23期审查员,审查领域UA029。

红底修图原件    

吴银娥,硕士,2020年6月入局,湖北中心电学部计算机系统二室。25期审查员,审查领域UA029。

赵喆

赵喆,硕士,2021年8月入局,湖北中心电学部计算机系统二室。31期审查员,审查领域UA029。