专利文献计算机检索技术的最新

更新时间:2024-01-19 作者:用户投稿原创标记本站原创 点赞:13276 浏览:56810

[摘 要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展.机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现.

[关 键 词]专利文献 计算机检索 语义检索 图像检索

[分类号]G352

1 前言

近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展,专利文献的计算机检索技术正成为情报检索领域研究的热点.下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展.

2 多语言混合检索

专利文献是由各国、各地区专利局或世界知识产权局出版的文献,因此一般以各局语言出版.虽然大部分专利文献是英语文献,但是仍然存在大量日文、中文、德文、法文及其他语种的文献.出版语言的多样性给专利文献的检索和利用带来了极大的障碍,要实现多语言混合检索,机器翻译是必不可少的技术.目前一些专利局在其网站上推出了机器翻译系统,例如我国国家知识产权局提供有汉英机器翻译,日本特许厅提供有日英机器翻译,韩国知识产权局提供有韩英机器翻译等,上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用.

随着计算机技术的发展,机器翻译的技术也迅速发展,从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等.尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点.专利文献作为一种特殊的科技文献,由于其具有特定的句法和语言结构,同时例如权利要求书等具有法律公示性文件的作用,这对翻译的准确性提出了更高的要求,已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量.

已有的机器翻译系统基本局限于单篇文献的机器翻译,无法实现真正的多语言混合检索.多语言混合检索系统不仅可以允许混合语言的检索式,而且同一个检索式还可以对不同语言的专利文献进行检索,其实现方式主要有如下三种:翻译检索式、翻译文献或者两者相结合的混合式.翻译检索式的工作量小,比较适合于因特网检索,但由于检索式通常缺乏语境,翻译难度较大;翻译文献的方式虽然有利于提高翻译质量,进而有利于文献检索,但存在的主要问题是翻译量太大、翻译时间长.


3 分类检索

分类号一直是专利文献检索的重要手段.目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外,美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系,分别是UC、FI/FT和ECLA.IPC虽然通用,但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷,导致使用IPC检索的效果欠佳.UC和FI/FT分别只能检索美国和日本的专利文献,ECLA虽然能够检索到多国的文献,但仍然不能有效地检索日本、韩国、中国等国的专利文献.

为改善这种局面,美国、日本和欧洲自2000年即开始了“三边分类和谐计划”,该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能,同时对现有IPC分类体系提出改进建议.依据2009年召开的第27次三边会议,韩国知识产权局已经加入上述计划,而中国国家知识产权局也以观察国的身份参与这项工作.此外,近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作,其中一个重要的合作项目是“共同的分类”.该项目的实施将有利于提高分类的一致性,扩展或细化部分技术领域的分类,进而提高检索的效率和质量.

不管是美日欧三方开展的“三边分类和谐计划”,还是五局共同开展的“共同的分类”项目,都必将推进专利文献分类体系的进一步发展,实现真正意义上的“基于检索的分类”,进一步增强分类号在专利文献计算机检索中的作用.

4 语义检索

当前专利文献检索的主要手段为关 键 词和分类号检索,而由于一词多义、一义多词,专利文献撰写、加工和翻译质量不一以及关 键 词的机械匹配等问题,本质上决定了其查全率和查准率受限制.随着计算技术、人工智能、自然语言处理等技术的发展,搜索引擎的智能化有望从根本上提高现有检索系统的检索质量.

搜索引擎的智能化具体表现为语义检索,也称为知识检索或概念检索.语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式.语义检索的本质在于以语义为对象进行搜索,而不是对字符串进行简单的机械匹配,因此可避免关 键 词匹配检索中由于词和义不对应所导致的问题.

语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理.这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法.可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述,保证人和机器对词汇的理解一致.

最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合,可以揭示文档中的词间关系,因而适于构建专利文献搜索引擎”等.利用语义进行检索还可以将专利文献中的非技术性信息考虑在内,例如将特定的技术概念和申请人、发明人等信息进行语义联系.此外,语义检索还可以从用户角度出发,考虑用户的检索需求,从而为诸如查新、侵权等不同目的的检索提供相应的结果.

近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统,例如东方灵盾开发的专利检索系统和Patenticst网站.Patentics网站除了可以实现传统的关 键 词检索功能,还支持语义检索,仅通过输入检索所针对的专利文献号,即可自动对其进行语义分析、文献检索,并对结果进行相关度排序.当前专利文献检索领域还未广泛应用语义检索,但随着研究的深入,相信未来的搜索引擎不仅能利用语义技术提高检索的效率,还有望能对检索结果进行分析、评价,甚至自动生成检索报告.

5 图像检索

根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR).专利文献一般都带有大量的附图,包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等.与传统的关 键 词检索和分类号检索相比,CBIR更加直观、快速,而且可以克服因文字表述差异而导致的漏检,因此它正在成为专利文献检索领域的研究热点.专利文献的附图都是黑白二元图像(本文所称专利是指发明和实用新型专利,不包括外观设计专利),不存在颜色和纹理等特征,因此专利文献的图像检索主要是基于形状和区域的图像特征.

虽然目前还没有成熟的专利文献图像检索系统,但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统,例如IITKanpur的PATseek、InformaticsandTelematicsInstitute的PatMediat以及LTUtechnologies公司的ImageSeeker等.PATseek专门针对美国专利文献进行图像检索,而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献,这两个图像检索系统都可实现直接输入待检索的图像,系统自动进行相似度匹配,直接提供专利附图,同时还可以进行基于文本的图像检索.

典型的专利图像检索系统包括专利文献处理部分和图像检索部分,如图1所示:

文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分.前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析,分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关 键 词,由此分别形成索引后的图形特征矢量库、图像库、文本描述关 键 词库和知识库.在图像检索部分,基于上述提取的元数据,进行图像相似度匹配,同时还可以基于文本进行图像检索.与一般领域的图形检索相比,由于专利文献中每幅图形一般都对应有文字描述,即使不再进行人工标注或自动标注,都能提取到较好的高层语义特征,这对提高专利文献图形检索的准确性非常有帮助.

目前因特网上最新版本的PatMedia专利文献图像检索系统不仅提供有图像输入的检索方式,还提供有文献号、关 键 词输入的检索方式;此外,对于检索结果还可以进一步使用文本过滤、类别过滤等功能.下面示例性地给出了利用PatMedia进行图像检索的结果(见图2、图3),输入如图2所示的图像,该系统可以检索出如图3所示的结果(仅列出部分结果).

目前专利文献图像检索系统仅处于试验阶段,只能对数量非常少的特定专利文献进行检索,且检索结果相关度还不是很高,但由于图像检索具有其他任何检索方式都不具备的优点,相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展,实现高精度的图像检索必将成为现实.

6 辅助技术

高质量的专利文献是提高检索质量的基础.专利文献分类、标引和摘 要改写是专利文献加工的主要内容.传统的专利文献加工方法主要依赖于人工,其成本高且速度受限制,质量不统一.随着人工智能和计算机技术的发展,开始出现对专利文献进行自动分类、自动标引、自动摘 要和自动聚类.

专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试.例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明,对于使用K临近算法进行自动分类的情况下,先将专利文献按部分结构化为语义单元可以提高74%的效率.

PATExpert代表了目前较先进的专利文献自动处理技术的发展,通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理,其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达.该系统可以执行的处理任务包括:专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等.

国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究,这些研究大部分集中在统计分类技术.近年来随着人工智能技术的兴起,基于人工智能或语义的专利文献自动分类发展迅速,例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类.

中文专利文献的自动处理仍处于研究阶段,虽然国外专利文献自动处理已经积累了许多宝贵经验,但由于中文表述的特殊性,许多技术还待消化和开发,例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍.随着信息处理自动化相关技术的发展,专利文献的自动分类、自动标引、自动聚类和自动摘 要正在逐步由半自动走向全自动化,这给搜索引擎的发展带来了极大的便利.同时,利用语义技术实现基于内容的自动处理将是未来的发展主流,也是提高专利文献自动处理质量的主要手段.

7 结语

专利文献计算机检索是一个涉及了多学科的研究领域,其中以语义检索为核心的技术推动了搜索引擎、机器翻译、图像检索等相关技术的发展,而由于专利文献的特殊性,分类体系和文献自动处理技术也在其中占据了重要地位.随着研究的进一步深入,现存的语言障碍和检索效率低下等缺陷在不久的将来必将逐渐被克服,不同层次的用户有望借助于智能化的自动检索系统便利地实现专业化检索.