Category Archives

10 Articles

让Coreseek支持索引日语假名

10   15156 转为繁体

coreseek是一个修改版的sphinx,用mmseg来做中文分词。但是发现一个问题,日语搜索总是效果很差,全部是假名的关键词会返回一个空结果。

开始猜想是不是词库没有包含日语的关系,后来仔细想了一想,mmseg对于没有在词典里的词应该是直接一元分词的,按理说也不应该出现无法索引日语的关系。我们可以通过mmseg命令行工具来证明这一点:

证明mmseg进行了一元分词。

那么为什么coreseek搜不到假名呢?我找啊找啊终于发现在coreseek使用mmseg进行分词的过程中,对输入字符做了一个过滤,并且有一个注释:

可见coreseek虽然将CJK (Chinese, Japanese, Korean) 中所有汉字、全角字符和标点加入了范围,但是却漏掉了平假名和片假名。因此我们将第三个range改成0x3000, 0x30FF, 0x3000就可以修正这个问题。

其中:

我把修改后的版本放到了github

另外,这里可以查询到Unicode编码范围对应的字符内容;unicode.org有一个database,但是是一个列出了全部字符的大pdf,我似乎没有找到类似的分类。

对于Ubuntu/Debian,这里有编译好的coreseek的deb包:i386 amd64;依赖于mmseg:i386 amd64;mmseg自带的词典

对于>2.2.10的版本,我在这篇博客里提供了完整的补丁,可以应用在sphinx的源码上编译。

sscanf简单正则表达式的一点探讨

5   87064 转为繁体

最近在写C++的 一个比赛,要求只能用标准库,tr命名空间也不能用;其中一项功能是sql语句的处理

看这个例子:

输入

update TBNAME set (C, s,ss) = (sds,  sds, ds) where COL == value;

首先你不知道括号里有几个参数,最要命的是逗号之间是允许空格的;最最要命的是c++标准库里木有正则表达式支持。 Read More