C/C++ Archives - 第2頁共2頁 - 論野生技術&二次元

coreseek是一個修改版的sphinx，用mmseg來做中文分詞。但是發現一個問題，日語搜索總是效果很差，全部是假名的關鍵詞會返回一個空結果。

開始猜想是不是詞庫沒有包含日語的關係，後來仔細想了一想，mmseg對於沒有在詞典里的詞應該是直接一元分詞的，按理說也不應該出現無法索引日語的關係。我們可以通過mmseg命令行工具來證明這一點：

$ /usr/local/mmseg/bin/mmseg -d /usr/local/mmseg/etc/ 1.txt
ヨ/x ス/x ガ/x ノ/x ソ/x ラ/x

1 2	$ /usr/local/mmseg/bin/mmseg -d /usr/local/mmseg/etc/ 1.txt ヨ/x ス/x ガ/x ノ/x ソ/x ラ/x

證明mmseg進行了一元分詞。

那麼為什麼coreseek搜不到假名呢？我找啊找啊終於發現在coreseek使用mmseg進行分詞的過程中，對輸入字符做了一個過濾，並且有一個注釋：

// BEGIN CJK There is no case folding, should do this in remote tokenizer.
// Here just make CJK Charactor will remain. --coreseek
dRemaps.Add ( CSphRemapRange ( 0x4e00, 0x9FFF, 0x4e00 ) );
dRemaps.Add ( CSphRemapRange ( 0xFF00, 0xFFFF, 0xFF00 ) );
dRemaps.Add ( CSphRemapRange ( 0x3040, 0x303F, 0x3040 ) );

// BEGIN CJK There is no case folding, should do this in remote tokenizer.

// Here just make CJK Charactor will remain. --coreseek

dRemaps.Add ( CSphRemapRange ( 0x4e00, 0x9FFF, 0x4e00 ) );

dRemaps.Add ( CSphRemapRange ( 0xFF00, 0xFFFF, 0xFF00 ) );

dRemaps.Add ( CSphRemapRange ( 0x3040, 0x303F, 0x3040 ) );

可見coreseek雖然將CJK (Chinese, Japanese, Korean) 中所有漢字、全角字符和標點加入了範圍，但是卻漏掉了平假名和片假名。因此我們將第三個range改成0x3000, 0x30FF, 0x3000就可以修正這個問題。

其中：

// 4e00 - 9fff CJK unified ideographs
// 3000 - 303f CJK symbols and punctuation
// 3040 - 30ff Hiragana/Katagana
// ff00 - ffff half/fullwidth forms

// 4e00 - 9fff CJK unified ideographs

// 3000 - 303f CJK symbols and punctuation

// 3040 - 30ff Hiragana/Katagana

// ff00 - ffff half/fullwidth forms

我把修改後的版本放到了github

另外，這裡可以查詢到Unicode編碼範圍對應的字符內容；unicode.org有一個database，但是是一個列出了全部字符的大pdf，我似乎沒有找到類似的分類。

對於Ubuntu/Debian，這裡有編譯好的coreseek的deb包：i386 amd64；依賴於mmseg：i386 amd64；mmseg自帶的詞典

對於>2.2.10的版本，我在這篇博客里提供了完整的補丁，可以應用在sphinx的源碼上編譯。

shellcode, ptrace, x64及其他

這學期選了軟件安全課，做題的過程中獲得了不少新姿♂勢，在這裡記錄一下。

雖然做題搞的我每個周一晚上都熬夜QAQ

兩道疼迅實習筆試題

今天去筆試了，碰到幾道有意思的題來和大家討論討論

啦啦啦啦啦啦啦啦啦啦啦這個沒有保密協議吧23333

sscanf簡單正則表達式的一點探討

最近在寫C++的一個比賽，要求只能用標準庫，tr命名空間也不能用；其中一項功能是sql語句的處理

看這個例子：

輸入

update TBNAME set (C, s,ss) = (sds, sds, ds) where COL == value;

首先你不知道括號里有幾個參數，最要命的是逗號之間是允許空格的；最最要命的是c++標準庫里木有正則表達式支持。 Read More→

Category Archives

讓Coreseek支持索引日語假名

shellcode, ptrace, x64及其他

兩道疼迅實習筆試題

sscanf簡單正則表達式的一點探討