中文分词工具 ffm分词系统

搜集了一些资料,与同学一起进行了简单的测试,总结如下。

分词工具

特点

支持语言

原理

词典及扩展性

StandardAnalyzer

中文、英文(unicode)

中文:单字符切分

英文:根据空格切分

ChineseAnalyzer

中文,不支持中文和英文及数字混合的文本分词

按字分词,与StandardAnalyzer对中文的分词没有大的区别

CJKAnalyzer

中文,英文,不支持中文和英文及数字混合的文本分词

采用的双字切分,也就是对一段文字按每两个字来进行切分

IKAnalyzer

英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

正向迭代最细粒度切分算法(词典+文法分析)

收录27万中文词汇,

支持用户词典扩展定义、支持自定义停止词

paoding

中文

支持不限制个数的用户自定义词库

MMAnalyzer

支持英文、数字、中文(简体)混合分词

正向最大匹配算法

支持动态扩展

MMSeg4j

中文,包括一些字符的处理英文、俄文、希腊、数字(包括①㈠⒈)的分出一连串的。目前版本没有处理小数字问题

用Chih-HaoTsai的MMSeg算法。MMSeg算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。在complex基础上实现了最多分词(max-word)

强制使用UTF-8)

使用sougou词库,也可自定义覆盖

imdict

中文、英文、数字

隐马尔科夫模型

仅coredict核心字典、bigramdict词典,不含人名、地名词典。不支持自定义词典

中文分词工具 ffm分词系统

分词工具

特点

速度

文档完整性

大小

Lucene版本

备注

StandardAnalyzer

ChineseAnalyzer

Lucenecontrib中附带的分析器

CJKAnalyzer

Lucenecontrib中附带的二元分词

IKAnalyzer

3.2.8

83万字/秒(1600KB/S)

详细

2.62MB

Lucene2.9、

Lucene3.0

支持细粒度和最大词长两种切分模式

paoding

100万字/秒

几乎无

1.3MB

Lucene3.0

MMAnalyzer

第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平

原始网站已经找不到下载,不提供维护和支持

内存消耗30M+

lucene1.9到2.4之间

MMSeg4j

complex1200kb/s左右,simple1900kb/s左右

MMSeg算法是英文的,但原理比较简单。实现也比较清晰。

内存开销了50M左右

mmseg4j1.8.3只支持lucene2.9/3.0接口。mmseg4j1.8.5支持lucene3.1。

imdict

259517字/秒

较全

词典大小7.26MB

Lucene2.9直接收录

分词效果演示:

消歧义效果:

分词工具

效果

张三买了张三角桌

南京市长江大桥

StandardAnalyzer

张|三|买|了|张|三|角|桌

南|京|市|长|江|大|桥

ChineseAnalyzer

张|三|买|了|张|三|角|桌

南|京|市|长|江|大|桥

CJKAnalyzer

张三|三买|买了|了张|张三|三角|角桌

南京|京市|市长|长江|江大|大桥

IK

Analyzer

最大词长

张三|买了|张三|三角|桌

南京市|市长|长江大桥

最细粒度

张三|三|买了|张三|三角|三|角|桌

南京市|南京|市长|长江大桥|长江|大桥

paoding

张三|买了|张三|三角|桌

南|南京|南京市|长|市长|长江|大|大桥

MMAnalyzer

张三|买了|张三角|桌

南京市|长江大桥

MMSeg4j

SimpleSeg

张三|买了|张三|角|桌

南京市|长江大桥

ComplexSeg

张三|买了|张三|角|桌

南京市|长江大桥

imdict

张|三|买|了|张|三|三角|桌

南京市|长江|大桥

数字、英文混合分词效果:

分词工具

效果

我的QQ号是******

StandardAnalyzer

我|的|qq|号|是|******

ChineseAnalyzer

我|的|qq|号|是

CJKAnalyzer

我的|qq|号|是|******

IKAnalyzer

IK

我|的|qq|号|是|******

MIK

我|的|qq|号|是|******

MMAnalyzer

我的|qq|号|是|******

MMSeg4j

SimpleSeg

我的|qq|号|是|******

ComplexSeg

我的|qq|号|是|******

paoding

我的|qq|号|******

Imdict

我|的|qq|号|******

  

爱华网本文地址 » http://www.413yy.cn/a/25101015/259214.html

更多阅读

win7系统激活最简单方法 windows系统激活工具

利用激活工具快速激活WIN7系统!win7系统激活最简单方法——工具/原料小马Oem7、未激活的WIN7系统win7系统激活最简单方法——步骤/方法win7系统激活最简单方法 1、复制BT种子 http://www.pccppc.com/download/oem7F.rar粘贴到迅雷,

Baidu分词算法分析 中文分词算法

随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,

Win7系统加速 win7启动盘制作工具

Win7系统加速——简介很多朋友在装了Win7系统之后,都抱怨没有xp流畅稳定,这有许多原因。我就来教大家几个设置,使Win7快速流畅稳定。Win7系统加速——工具/原料装有Win7系统的电脑。Win7系统加速——关闭Aero释放你的内存。Win7系统加

MMSEG 中文分词算法 java中文分词算法

Nov 1st, 2009 | Comments由于学习需要,我尝试翻译MMSEG算法,目前处于初稿状态,很许多地方的翻译仍不尽准确,在以下几天会加以修改。 算法原文位于:http://technology.chtsai.org/mmseg/MMSEG :一个基于最大匹配算法的两种变体的中文单词

济南市情中文导游词 济南大明湖中文导游词

   (2011-06-19 00:14:50)标签:导游词导游考试山东省旅游分类:★全国中文导游词各位朋友,早上好!热烈欢迎大家来到美丽的泉城济南参观游览。济南是山东省的省会城市,是全省的政治、文化、科研、教育、交通等中心。它位于山东省中西部,南

声明:《中文分词工具 ffm分词系统》为网友蓝色树叶熊分享!如侵犯到您的合法权益请联系我们删除