中文分词算法 从洗手机谈中文分词技术



   昨天有消息说,为了杜绝甲型H1N1流感,台湾省花莲一家饭店在大厅放置酒精消毒洗手机让游客洗手。不过,这样贴心举动却意外闹出笑话。一群到花莲游玩的大陆游客却把“消毒洗手机”,误以为是洗手机的机器,一进大厅全都把手机拿去洗,令业者当场傻眼。

    好笑之余,不禁想提醒诸网友,大陆游客之所以将“洗手的机器”误以为“洗手机的机器”,完全是因为“中文分词”在作怪。

    所谓的“中文分词”,是指将连续的中文字的序列按照一定规范重新组合成词的序列的过程。像上述所说的“消毒洗手机”,如果用英文描述,应该是“disinfection Washing”。与中文不同,在英文中,词与词之间是由空格来分开的,所以不会发生游客“洗手机”的笑话;而我们所使用的中文就不同了,在一个句子当中词与词之间没有任何的间隔,而要切分出合乎本意的词序,这就要用到“中文分词”技术了。

    中文分词常用的方法有如下四种:一是正向最大匹配法,即按照每词包含字数先多后少的原则,从左向右切分原字序;二是逆向最大匹配法,也就是按照每词包含字数先少后多的原则,从左向右切分原字序;三是最少切分法,也就是按原字序中切出的词数最少;四是双向匹配法,即正向最大匹配法与逆向最大匹配法的组合。

    以“消毒洗手机”为例,如果按照正向最大匹配法切分,结果是:消毒/洗手/机;如果按照逆向最大匹配法切分,结果则会是:消毒/洗/手机;而如果按照最少切分法,结果又会是:消毒洗手/机。几种切分结果,第一种无疑是最符合本意的。但是几千年所成就的中文历史,博大精深之处在于其切分方法并没有什么规律可循。有数据表明,正向最大匹配法切分的错误率为1/169,而逆向最大匹配法的错误率为1/245,正好与“消毒洗手机”的切分结果相左。

    中文分词技术并不是枯燥贬味的屠龙之技,在现实生活中,其广泛应用于信息检索、自动翻译等领域,特别是在互联网搜索引擎中,中文分词则更是一个极其重要的核心技术。熟练掌握中文分词技术并运用到文档写作中,对于搜索引擎优化、提高网站访问量具有不可替代的作用。

 中文分词算法 从洗手机谈中文分词技术
  

爱华网本文地址 » http://www.413yy.cn/a/9101032201/324084.html

更多阅读

从中医角度谈脑血管原因之一 中医治疗脑血管破裂

从中医角度谈脑血管原因之一中国人传统中喜欢喝开水,开水也就是把水放到水壶中加热至沸腾,生水就变成了开水。虽然同样是水,但对人体来讲,生水和开水却有天壤之别。这里不谈它们的区别,且说烧水过程中的变化。水壶中的水受热,便开始对流

声明:《中文分词算法 从洗手机谈中文分词技术》为网友葙喓尒開訫分享!如侵犯到您的合法权益请联系我们删除