Category Archives

10 Articles

讓Coreseek支持索引日語假名

10   15156 轉為簡體

coreseek是一個修改版的sphinx,用mmseg來做中文分詞。但是發現一個問題,日語搜索總是效果很差,全部是假名的關鍵詞會返回一個空結果。

開始猜想是不是詞庫沒有包含日語的關係,後來仔細想了一想,mmseg對於沒有在詞典里的詞應該是直接一元分詞的,按理說也不應該出現無法索引日語的關係。我們可以通過mmseg命令行工具來證明這一點:

證明mmseg進行了一元分詞。

那麼為什麼coreseek搜不到假名呢?我找啊找啊終於發現在coreseek使用mmseg進行分詞的過程中,對輸入字符做了一個過濾,並且有一個注釋:

可見coreseek雖然將CJK (Chinese, Japanese, Korean) 中所有漢字、全角字符和標點加入了範圍,但是卻漏掉了平假名和片假名。因此我們將第三個range改成0x3000, 0x30FF, 0x3000就可以修正這個問題。

其中:

我把修改後的版本放到了github

另外,這裡可以查詢到Unicode編碼範圍對應的字符內容;unicode.org有一個database,但是是一個列出了全部字符的大pdf,我似乎沒有找到類似的分類。

對於Ubuntu/Debian,這裡有編譯好的coreseek的deb包:i386 amd64;依賴於mmseg:i386 amd64;mmseg自帶的詞典

對於>2.2.10的版本,我在這篇博客里提供了完整的補丁,可以應用在sphinx的源碼上編譯。

sscanf簡單正則表達式的一點探討

5   87064 轉為簡體

最近在寫C++的 一個比賽,要求只能用標準庫,tr命名空間也不能用;其中一項功能是sql語句的處理

看這個例子:

輸入

update TBNAME set (C, s,ss) = (sds,  sds, ds) where COL == value;

首先你不知道括號里有幾個參數,最要命的是逗號之間是允許空格的;最最要命的是c++標準庫里木有正則表達式支持。 Read More