让Coreseek支持索引日语假名 ; 论野生技术&二次元

让Coreseek支持索引日语假名

coreseek是一个修改版的sphinx，用mmseg来做中文分词。但是发现一个问题，日语搜索总是效果很差，全部是假名的关键词会返回一个空结果。

开始猜想是不是词库没有包含日语的关系，后来仔细想了一想，mmseg对于没有在词典里的词应该是直接一元分词的，按理说也不应该出现无法索引日语的关系。我们可以通过mmseg命令行工具来证明这一点：

$ /usr/local/mmseg/bin/mmseg -d /usr/local/mmseg/etc/ 1.txt
ヨ/x ス/x ガ/x ノ/x ソ/x ラ/x

1 2	$ /usr/local/mmseg/bin/mmseg -d /usr/local/mmseg/etc/ 1.txt ヨ/x ス/x ガ/x ノ/x ソ/x ラ/x

证明mmseg进行了一元分词。

那么为什么coreseek搜不到假名呢？我找啊找啊终于发现在coreseek使用mmseg进行分词的过程中，对输入字符做了一个过滤，并且有一个注释：

// BEGIN CJK There is no case folding, should do this in remote tokenizer.
// Here just make CJK Charactor will remain. --coreseek
dRemaps.Add ( CSphRemapRange ( 0x4e00, 0x9FFF, 0x4e00 ) );
dRemaps.Add ( CSphRemapRange ( 0xFF00, 0xFFFF, 0xFF00 ) );
dRemaps.Add ( CSphRemapRange ( 0x3040, 0x303F, 0x3040 ) );

// BEGIN CJK There is no case folding, should do this in remote tokenizer.

// Here just make CJK Charactor will remain. --coreseek

dRemaps.Add ( CSphRemapRange ( 0x4e00, 0x9FFF, 0x4e00 ) );

dRemaps.Add ( CSphRemapRange ( 0xFF00, 0xFFFF, 0xFF00 ) );

dRemaps.Add ( CSphRemapRange ( 0x3040, 0x303F, 0x3040 ) );

可见coreseek虽然将CJK (Chinese, Japanese, Korean) 中所有汉字、全角字符和标点加入了范围，但是却漏掉了平假名和片假名。因此我们将第三个range改成0x3000, 0x30FF, 0x3000就可以修正这个问题。

其中：

// 4e00 - 9fff CJK unified ideographs
// 3000 - 303f CJK symbols and punctuation
// 3040 - 30ff Hiragana/Katagana
// ff00 - ffff half/fullwidth forms

// 4e00 - 9fff CJK unified ideographs

// 3000 - 303f CJK symbols and punctuation

// 3040 - 30ff Hiragana/Katagana

// ff00 - ffff half/fullwidth forms

我把修改后的版本放到了github

另外，这里可以查询到Unicode编码范围对应的字符内容；unicode.org有一个database，但是是一个列出了全部字符的大pdf，我似乎没有找到类似的分类。

对于Ubuntu/Debian，这里有编译好的coreseek的deb包：i386 amd64；依赖于mmseg：i386 amd64；mmseg自带的词典

对于>2.2.10的版本，我在这篇博客里提供了完整的补丁，可以应用在sphinx的源码上编译。

coreseek这个项目自从去年6月未见进展，要是有人能将其升级至最新的sphinx 2.2.10 功德无量

fffonion on 2016 年 5 月 10 日 at 下午 2:11 said:

现在github上的就是2.2.10了啊

额，没找到文件。。。

window的要改该怎么改？

fffonion on 2016 年 12 月 27 日 at 上午 7:27 said:

我已经发pr给原作者，现在可以直接下载分支编译https://github.com/nzinfo/csft/tree/t/seg
- liu on 2016 年 12 月 28 日 at 下午 3:06 said:
  
  具体该怎么做，我不是很明白
  - fffonion on 2016 年 12 月 30 日 at 上午 6:28 said:
    
    点https://github.com/nzinfo/csft/archive/t/seg.zip下载压缩包然后打开解决方案编译。不过我没试过windows能不能编译出来
    - liu on 2016 年 12 月 30 日 at 上午 11:10 said:
      
      我试试
    - liu on 2016 年 12 月 30 日 at 上午 11:21 said:
      
      要不你直接帮我编译一下日文的词库，我txt的词库给你，你直接给我一个lib的文件呗
    - fffonion on 2016 年 12 月 31 日 at 上午 2:49 said:
      
      这个和词库没关系，只是把假名加到了索引的字符范围里，之前程序会把假名当做符号忽略掉。词库的问题你自己生成一下嘛，没词库就是一元分词