简介:摘要计算机科学技术的发展,催生了云计算概念,在各个领域的得到广泛应用。中文分词作为进行中文信息检索、查询以及数据挖掘的基础技术,与云计算技术的结合能够实现更好的数据存储与挖掘效果,实现对中文信息的高效处理,提高信息资源的使用率,更好地为决策提供依据。
简介:中文分词是中文信息处理最重要的预处理.文章对传统的反序分词词典进行了改进,设计了反序词典词根HASH表,并给出了相应的分词算法,实验表明,改进是有效的.
简介:介绍中文分词算法的理论知识,通过介绍歧义存在的种类,分析分词结果出现歧义的必然性.提出改进"退一字组合法",实现歧义消除.在保持切分速度的前提下,提高切分的精度.为搜索引擎建立索引奠定良好的基础.
简介:基于动态规划,利用反向搜索的方法,通过计算词语的最大"花费"给出了中文文本的切分算法,从而建立了一个能够消除中文分词中切分歧义的中文分词模型。通过对模型中算法求解的运行效率及空间耗费进行分析得出,在统计意义上,该算法具有接近与文本规模成线性关系的复杂度,空间的耗费是常数规模的。
简介:
简介:分词系统要处理的第二个关键问题是文本中歧义切分字段的判别,汉语分词是由计算机自动识别文本中的词边界的过程,我们的简体/繁体转换系统运用分词模块切分词语
简介:中文分词技术对搜索引擎、用户以及搜索引擎优化有着重要的影响,本文旨在通过实例检索,推导两个最常用的搜索引擎即百度和谷歌的中文分词技术和规律。
简介:分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.
简介:分词是英语语法中的重点和难点,也是常见的考点。究竟选用现在分词还是过去分词,是学生遇到的最棘手的问题。下面详细介绍分词的常见考点以及如何正确运用现在分词和过去分词。
简介:中文分词就是把没有明显分隔标志的中文字串切分为词串,它是其他中文信息处理的基础,广泛应用于搜索引擎、自动翻译、语音合成、自动分类、自动
简介:摘要:现有基于条件随机场模型的中文分词应用到政府公文领域的中文分词准确率不太理想,为了提高条件随机场模型在政府公文领域的中文分词准确率,本文提出了面向政府公文领域的中文分词融合特征,融合特征从训练语料选取、特征模板、位置特征粒度、优化特征等方面进行融合,本文基于收集到政府公文语料和公共语料等仿真数据,在实验上验证融合特征的有效性。
简介:而在Windows中应用程序能否也能够利用外部硬中断实现外设与Windows应用程序的实时通信呢,在应用程序中用户可以调用此引出函数来安装中断服务程序代码,DLL库代码和Windows应用程序代码
简介:而在Windows中应用程序能否也能够利用外部硬中断实现外设与Windows应用程序的实时通信呢,在应用程序中用户可以调用此引出函数来安装中断服务程序代码,由中断服务代码发送一条消息WM-RUPT通知Windows应用程序外设有实时通信请求
简介:分词中遇到歧义时(假设有一字符串C1C2C3C4C5C6,且C1为词C1C2也为词),该算法可利用规则及字频信息来处理分词中的歧义并使用了三词块方法[1]
简介:中文科技名词自动抽取的关键步骤是分词,文章首先讨论中文语料库中字母词的全/半角现象,然后考察这种现象对自动分词结果当中字母词的一致性和准确性所产生的影响,并给出提高切分结果的一致性和准确性的对策,最后阐述中国传媒大学的分词系统在这方面所做的工作。
基于云计算的中文分词研究
一个基于改进的反序分词词典的中文分词算法
对中文分词歧义消除算法的研究
一种中文分词的动态规划模型
搜索引擎中的中文分词技术
汉语分词在中文软件中的广泛应用
百度和谷歌的中文分词技术浅析
正向最大匹配法在中文分词技术中的应用
现在分词&过去分词
一种基于词典的中文分词法的设计与实现
垃圾邮件过滤中的中文分词技术的研究与实现
分词与分词独立主格结构
浅谈面向政府公文领域的中文分词融合特征方法有效性
中文全文信息检索系统中索引项技术及分词系统的实现
字母词的全/半角形式对中文分词的影响及对策初探
分词T型台