补丁包括了nzinfo在coreseek中贡献的mmseg补丁,以及我提交的日语假名补丁(详见这篇博客)。详细更改见这里。
打上补丁之后,可以使用mmseg来做分词器。如果是对大篇幅的文章做索引,推荐使用mmseg处理结巴分词的词库来生成一个比较靠谱的词库。
编译
从 这个项目 编译mmseg
1 2 3 4 5 6 |
git clone https://github.com/nzinfo/mmseg cd mmseg automake --add-missing ./bootstrap ./configure --prefix=/usr/local/mmseg make && make install |
编译Sphinx/Coreseek
1 2 3 4 5 6 7 8 9 10 11 |
wget http://sphinxsearch.com/files/sphinx-2.2.11-release.tar.gz tar zxf sphinx-2.2.11-release.tar.gz cd sphinx-2.2.11-release wget https://github.com/fffonion/csft/releases/download/mmseg/csft-sphinx-2.2.11.patch patch -p1 < csft-sphinx-2.2.11.patch sh buildconf.sh automake --add-missing sh buildconf.sh ./configure --prefix=/usr/local/coreseek --with-mysql \ --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib make -j$(nproc) |