日文分词系统 mecab 的中文文档
取自 自然语言处理百科
mecab (http://mecab.sourceforge.net/) 是日本奈良先端科学技术大学院的工藤拓开发 的日文分词系统, 该作者写过多个 machine learning 方面的软件包, 最有名的就是 CRF++, 目前该作者在 google@Japan 工作。
mecab 是基于CRF 的一个日文分词系统,代码使用 c++ 实现, 基本上内嵌了 CRF++ 的代 码,同时提供了多种脚本语言调用的接口(python, perl, ruby 等).整个系统的架构采用 通用泛化的设计,用户可以通过配置文件定制CRF训练中需要使用的特征模板。 甚至,如 果你有中文的分词语料作为训练语料,可以在该架构下按照其配置文件的规范定制一个中 文的分词系统。
日文NLP 界有几个有名的开源分词系统, Juman, Chasen, Mecab. Juman 和 Chasen 都 是比较老的系统了, Mecab 系统比较新, 在很多方面都优于 Juman 和 Chasen, mecab 目前开发也比较活跃。 Mecab 虽然使用 CRF 实现, 但是解析效率上却相当高效, 据作 者的介绍, Mecab 比基于 HMM 的 Chasen 的解析速度要快。笔者在一台 Linux 机器上粗 略测试过其速度,将近达到 2MB/s, 完全达到了工程应用的需求, 该系统目前在日文 NLP 界被广泛使用。
中文和日文的有着类似的分词需求,因此mecab 对于中文处理来说有着很好的借鉴价值, 由于mecab 的内部模块化很清晰,如果能读懂其文档的话,是比较容易能看懂整套代码 的。 可惜目前中文的资料很少, 而其自带的文档又都是日文的,所以了解它的中国读 者不多。
我把 mecab 自带的文档的绝大部分从日文翻译成中文, 希望 mecab 对于中文分词有兴趣 的读者能有借鉴价值。日语水平很烂, 大家凑合着看吧。 对于自由的文档翻译,有一句 话:
Document is like sex. If it's good, it's very very good. If it's bad, it's better than nothing.
文档下载和原文均在:http://www.newsmth.net/bbscon.php?bid=1018&id=6417

