補丁包括了nzinfo在coreseek中貢獻的mmseg補丁,以及我提交的日語假名補丁(詳見這篇博客)。詳細更改見這裡。
打上補丁之後,可以使用mmseg來做分詞器。如果是對大篇幅的文章做索引,推薦使用mmseg處理結巴分詞的詞庫來生成一個比較靠譜的詞庫。
編譯
從 這個項目 編譯mmseg
1 2 3 4 5 6 |
git clone https://github.com/nzinfo/mmseg cd mmseg automake --add-missing ./bootstrap ./configure --prefix=/usr/local/mmseg make && make install |
編譯Sphinx/Coreseek
1 2 3 4 5 6 7 8 9 10 11 |
wget http://sphinxsearch.com/files/sphinx-2.2.11-release.tar.gz tar zxf sphinx-2.2.11-release.tar.gz cd sphinx-2.2.11-release wget https://github.com/fffonion/csft/releases/download/mmseg/csft-sphinx-2.2.11.patch patch -p1 < csft-sphinx-2.2.11.patch sh buildconf.sh automake --add-missing sh buildconf.sh ./configure --prefix=/usr/local/coreseek --with-mysql \ --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib make -j$(nproc) |