1號晚上聽到兩聲春雷,我覺得它是在告訴我,春天到了,該發點什麼了。

我說好啊好啊,這就來發博客。

我們先來看這段網頁:

無限好文,盡在jjwxc

注意HTML中,許多字符的顯示是方框。檢查HTML源代碼後發現,有些字符被替換成了&#xe7ba這樣的編碼。

在第一張圖中,可以發現當前的段落應用了名為jjwxcfont_00294的自定義字體。“氣”字對應的UTF-8編碼是6c14,GBK編碼是c6f8,BIG5中是c9a,我覺得按照jj的技術水平,應該不會想到用別的編碼集;所以e7ba應該不屬於任何標準的編碼集。而‌ 是防止粘連的特殊字符,因為使用非標準的編碼,瀏覽器渲染時可能會把字符誤當成粘連字符而和一個正常的字符重疊;在爬蟲處理過程中直接去除即可。

解析字體

我們把這個自定義字體下載下來,然後用python的fonttools列舉出其中所有的字符:

注意有些TTF字體中包含一個編碼的多個字形,所以我們用set()來去重;並且捨棄了”x”字符。

因為無法辨認自定義字體中的編碼對應的真實漢字,我們使用ImageMagick工具包中的convert來渲染字體,並且每行20個字符來分段,防止出現超長的棍子圖片:

完成後得到如下圖片:

我合理懷疑這就是微軟雅黑

可以看到其中包含了200個常用字。通過翻閱章節可以發現自定義字體有複數多個,且其中每個字對應的內部編碼均不相同,所以接下來我們需要一種自動化的方法來將自定義字體中的編碼映射回原始文字。

識別字體

這裡我們使用開源的tesseract工具來進行OCR識別。2021年了,tesseract都用上神經網絡了,你還有理由不學點AI嗎?

機器學習高階訓練營.jpg

隨便找的圖,並不是恰飯

因為tesseract默認只能識別英語和數字,我們需要安裝簡體中文訓練數據(chi_sim),可以從tessdata項目獲得。安裝完成後,驗證訓練數據能被加載:

然後我們調用tesseract來識別字符:

注意因為自動分段和分詞的問題,tesseract會識別出奇怪的拉丁字符和數字,我們通過正則表達式把它們連同空白字符一起去除。

最後得到結果:

之前看到的e7ba確實被成功識別成了“氣”。

提高效率和準確率

使用OCR當然是簡單,但是一來速度慢(包好200個字符的單個字體需要5~10秒),二來由於沒人知道神經網絡裡面具體發生了什麼,在不同的字符排列順序下,可能會出現誤識別。通過比較OCR識別結果和字體中的Glyph(可以認為是字體中每個字的矢量表示)我們可以發現:

  1. 這個網站的所有字體中使用了相同的200個常用字
  2. 所有字體中代表相同字的Glyph路徑完全相同

那麼我們可以作出以下的優化:

  1. 在生成圖片時,將字符按已知可正確識別的特定順序排序(但實現起來還是比較冗雜)
  2. 比較所有的OCR結果,如果有多個字體的OCR結果相同,則認為是可信的
  3. 將可信結果中的某個字體的Glyph路徑作為參考,與新字體的Glyph路徑比較;如果相同則認為是同一個字
  4. 如果未來jj隨機化Glyph中的坐標點,也可以分別計算每個點的距離,在一定範圍內則認為近似相同
  5. 持續用OCR結果來驗證路徑比較結果

我把除了第一點的完整實現代碼分享到了JJGet項目,鏈接中是一個服務端,將處理結果返回給JJGet。目前測試結果非常理想,感興趣的朋友可以去康康。