要对网站进行优化,首先必须了解什么是百度中文分词,分词是搜索引擎的基础学科的研究,所以,当你理解了分词方法,那将对你的SEO有很大的帮助,南昌网站建设通过多年来百度的中文分词研究,经验总结如下:
单词,句子划分成若干独立的,完整的,正确的话一起中国。一个字是最小的,独立的活动,有意义的语言成分。电脑上所有的语言知识的机器词典(给定的单词信息,以不同的组合来描述字聚集现象的语法规则(词性)),以及相关的单词和句子语义,语境,语用知识的基础。中文信息处理系统应包括句法,语义(如检索,翻译,汇总,学校等应用程序),需要使用文字为基本单元。当中国的字符单词到句子,为了使语法分析,句子的理解,总结,和机器翻译,文本自动分类处理是可行的。可以说,分词是机器语言的基础。
的搜索引擎的分词精度是非常重要的,但如果分割的速度太慢,即使准确性再高,搜索引擎也无法使用,因为搜索引擎处理数以百万计的网页,如果单词是过长,严中英环搜索引擎内容更新的速度。因此,搜索引擎,分词的准确性和速度,所有需要达到很高的要求。
三种主要类型的分词算法
现有的分词算法可分为三大类:基于字符串匹配的分词方法,基于统计方法的分词和分词的理解的基础上。
“基于字符串匹配的分词方法。
这种方法也叫做机械分词方法,它是按照一定的策略来进行分析,中国文字串与一个“充分大的”机器词典条目匹配,如果发现在字典中的字符串,则匹配成功(识别的单词)。在按照与扫描方向上是不同的,字符串匹配的分割方法可以分为正如同和反向匹配,根据不同长度优先匹配的情况下,可以分为最大(最长)匹配和最小(最短)匹配,根据是否与词性标注过程相结合的一部分,但也可分为简单分词,分词和商标集成方法。常见的几种机械分词方法如下:
1)正向最大匹配法(由左到右方向)。
通常被称为作为MM(最大匹配的方法)方法。其基本思想是:D是一本字典,最大D的最大单词长度,STR分割。 MM的方法是,每一个STR的长度MAX和D中的字串匹配。如果成功的话,那么,串入的话后,指针移动MAX中国文字后继续进行的比赛,否则的子字符串匹配连续减一。
2)反向最大匹配的方法(自左到右的方向)。
通常简称为的RMM(反向最大MatchingMethod)的方法。 RMM方法的基本原理和MM方法在扫描方向是相同的,不同的分割,它是由右至左,字符串匹配。
3)最少切分法(使每一个切出最低的话)。
可以彼此结合的方法,例如,可以向前移动最大匹配法和反向最大匹配法结合起来,形成一个双向匹配方法。因为中文字符转换成文字的特点,正向和逆向最小匹配,匹配一般很少使用。一般来说,反向匹配的分割精度是稍高于阳性如同,不明确的地方也少。统计结果表明,简单地使用正向最大匹配的错误率为1/169,只能使用逆向最大匹配的错误率为1/245。但精度远不能满足实际需要。字分割系统的实际使用情况,是自动分割作为开头的装置,还可以通过多种其他语言的信息的使用,以进一步提高分割精度。的方法是改进扫描方式,称为特征扫描或分割的迹象,最好要分析的字符串识别和切断的话,这些词作为断点一些明显的特征,原始的字符串分为较小的字符串,再机械分词,从而减少匹配的错误率。另一种方法是分词和词性标注相结合,利用丰富的信息的语音分割的决定,并在注释中反过来对分词结果进行检查,调整的过程,从而大大提高了分割精度的零件。
“基于理解的分词方法。
这种分割方法是通过让计算机模拟句子理解,认字取得的成果。其基本思想是在分词和句法分析,语义分析,利用句法信息和语义信息来处理歧义现象。它通常由三部分组成:分词系统,法国的司法系统,一般控制部分。在一般的配合下,分词系统的控制部分,你可以得到有关的词,句,句法和语义信息对分词歧义的判断,模拟人对句子的理解过程的信息。这种分割方法需要使用大语言知识和信息。由于一般中国语文知识,复杂性,很难组织成机器语言的信息,可直接读取的形式,因此目前基于理解的分词系统仍处于实验阶段。
“基于统计的分词方法。
以图的形式,这个词是稳定的字的组合,因此在上下文中的相邻字出现在相同的时间,数量,就越有可能构成一个字。因此,词与词共同出现的相邻频率或概率能够反映一个字的可靠性。语料库是相邻的每个字的组合的频度统计,计算出它们是相互的信息。定义两个词是相互的信息,计算两个中文字符X,Y相邻的共现概率。是相互的信息反映了中国文字的密切程度之间的关系。当紧密程度高于一定阈值时,能想到的字组可能构成一个词。这种方法只需要语料库的词频统计,并不需要被切割成字典,它也被称为没有的字典方法或统计检验方法。但这种方法有一定的局限性,往往会采取一些共现的频率是很高的,但不常用字的字,如“的”,“”,“一些”,“I”,“多”等,常用词的识别精度,时间和空间成本大。实际应用的统计分词系统的使用基本字符串匹配分割的字典(词典),并使用统计方法识别一些新的词,串频统计和串匹配在一起,不仅发挥匹配分词速度,效率高的特点,但也没有字典词汇语境识别,自动消歧。它和语料库大小,进行大规模的计算,从而实现复杂的。
中文分词的一般过程
中文分词词典是由以下部分组成:初始化,输入分割的文本,文本的结构化处理,分割(粗),消歧和未知的话,更新词典和保存结果,如图1所示。
分词问题
经过近十年的发展,各种分词算法已经比较成熟,但中国是一个非常复杂的语言,让计算机理解中国的语言更加困难。在中文分词过程中,有两个尚未解决的主要问题。
1)模糊性的认可。
歧义是指同样的句子,可能有两个或两个以上的切割方法。例如,“安徽大学”,因为“安徽”,“大学”,“学生”,“大学”,“安徽大学”的话,那么这句话可以分为“安徽”和“安徽大学/学生“。这称为跨歧义。像这种交叉歧义相对组合歧义十分常见,是很容易处理,组合歧义,需要整个句子来判断。例如,在句子“门坏了”,“处理”是一个词,但了一句:“请把你的手”,“处理”是不是一个词。另外,那里的模糊性是一个问题,是真正的歧义。是一个真正意义含糊不清的字由人来判断,也不知道这应该是一个字,这不应该是这个词。如“拍卖结束的网球。” “,如果不存在的背景下,即使该人是也很难判断是否”网球拍/卖出/。 “或”网球/拍卖/“。
2)新词的识别。
新单词,未知单词,即那些在字典中的专业术语不包括,但它可以被称为字词语。最典型的是一个人的名字,除了组织名称,地点名称,产品名称,商标,简说,省略的话,它是很难处理的问题,这是人们经常使用的术语因此,搜索引擎,分词词识别系统中是非常重要的。这个词的识别精度已经成为中文分词系统的一个重要标志。
百度分割算法
搜索引擎涉及到许多技术,如查询处理,排序算法,抓算法,CACHE,ANTI - 垃圾邮件的机制。这些技术细节,作为商业公司,如百度的搜索引擎服务提供商,谷歌能够向公众透露。作为一个黑盒子的黑盒子,通过现有的搜索引擎提交输入,判断黑盒返回的输出未知的技术细节在很大程度上决定了黑盒子。作为一个典型的中国搜索引擎百度已经强调了其“中国加工”与其他搜索引擎不具备的关键技术和优势。然后来看看百度是否使用什么所谓的核心技术。
首先,确定什么百度分割条件。没有一个单一的词语,两个字从一开始,以避免字分割的程序,以确定是否行为干扰,输入任意的单词两个字符。百度分别提交“学校”,“学校”,从标红的关键字返回结果,百度的“学校”,“学校”为“学校/学校”,“/”,百度分割的程序,而不是无法启动;然后提交查询“或”1210000,返回的结果页,翻到最后一页,找到红关键字的主题是“或”持续的情况下,如果没有分割,但还不能确定,然后提交人工查询“或”,返回的结果为31400000,做“与”或“或”无字分割,可确定,然后提交到百度“的”,从返回的结果的出价为猩红色的地方可以看到,查询已经被切割成“的文件/下载”两个词,解释解析器已经启动。如果是以上四家中国字符串不再,解析器肯定会受到启发。从百度上的字符的数目,来概括,分割是大于或等于四个中国字符,三个以下的字符分割,如表1中所示。
接下来,确定,百度采取分割算法。现在分词算法已经比较成熟,有一个简单的复杂的,比如正向最大匹配,反向最大匹配,最大匹配,语言模型,最短路径算法等。判断一个分词系统,关键点,一个是消除歧义的能力,一个是词典未登录词识别能力。
第一个假设,百度已经采取了更为复杂的算法,考虑问题的速度。 “安徽大学网络实验室”提交一个查询,如果是正向最大匹配算法,那么输出应该是:“安徽大学/网络实验室”或“安徽大学/网络/实验室”,“百度的结果:安徽大学/网络/实验室“,与预期一致,而不是在百度的描述,使用正向最大匹配算法。结果百度输入“甲型H1N1流感的症状”,分为“甲型H1N1流感/流感/症状”。可以得到以下信息:百度是能够识别“H1N1”,未登录词识别功能,百度有百度专有词典“甲型H1N1流感”。 ,分词过程分为两个阶段:第一阶段,会找到一个特别的字典,字典中包含一些名字,地名以及一些常见的无字的字典,这将是第一个“甲型H1N1流感”解析出。第二阶段,剩下的字符串“流感症状”,是指一般的字典,分为“流感/症状”。正向最大匹配算法,分词的结果是一致的。然而,上述两个例子,如果反向最大匹配算法的结果是合理的,为了证明这一点,提交查询“安徽大学部建设”,如果是反向最大匹配算法应该分为“安徽/大/科目/建设“,”百度实际到安徽大学/部门/建设“。然后,查询“东京韩国城”,如果是反向最大匹配算法应分为“东京/城市/中华人民共和国”,但“百度到东京城市/社区/国”的,事实证明,这不是反向最大匹配;算法。同时也出现了新的问题,“东京”是一个城市的名字,为什么还没有被确定,但分为“东京城”,我认为这是唯一一本字典百度“东京市”这个词,虽然也有“东京”,但根据最大匹配点应分为“东京城”。它可以判断百度分词采取了至少两个词典,字典是一种常见的,是一个的专有词典(姓名,名称)。它是一个专有字典来分割,然后将其余的碎片由普通字典分割。继续测试,提交查询“登陆上海东方明珠”,如果没有正确的字典,这样的结果应该是“上升/海/东方明珠”,其实百度分词结果是“的爬升/上海/东方明珠”。在这一点上,可以判断百度的分割算法是一种正向最大匹配算法。
最终的
总结一下百度的分词系统:首先用专用的字典使用正向最大匹配分割,切断的结果的一部分,其余的普通词典中的不分割的一部分,也采取正向最大匹配分割,最后输出结果。虽然正向最大匹配的分割方法分割的结果可能不是最好的,是最符合中国人的习惯。除了百度专有词典是非常强大的,不仅包含正确的字非常多,但也包括新词迅速。
|