1号晚上听到两声春雷,我觉得它是在告诉我,春天到了,该发点什么了。

我说好啊好啊,这就来发博客。

我们先来看这段网页:

无限好文,尽在jjwxc

注意HTML中,许多字符的显示是方框。检查HTML源代码后发现,有些字符被替换成了&#xe7ba这样的编码。

在第一张图中,可以发现当前的段落应用了名为jjwxcfont_00294的自定义字体。“气”字对应的UTF-8编码是6c14,GBK编码是c6f8,BIG5中是c9a,我觉得按照jj的技术水平,应该不会想到用别的编码集;所以e7ba应该不属于任何标准的编码集。而‌ 是防止粘连的特殊字符,因为使用非标准的编码,浏览器渲染时可能会把字符误当成粘连字符而和一个正常的字符重叠;在爬虫处理过程中直接去除即可。

解析字体

我们把这个自定义字体下载下来,然后用python的fonttools列举出其中所有的字符:

注意有些TTF字体中包含一个编码的多个字形,所以我们用set()来去重;并且舍弃了”x”字符。

因为无法辨认自定义字体中的编码对应的真实汉字,我们使用ImageMagick工具包中的convert来渲染字体,并且每行20个字符来分段,防止出现超长的棍子图片:

完成后得到如下图片:

我合理怀疑这就是微软雅黑

可以看到其中包含了200个常用字。通过翻阅章节可以发现自定义字体有复数多个,且其中每个字对应的内部编码均不相同,所以接下来我们需要一种自动化的方法来将自定义字体中的编码映射回原始文字。

识别字体

这里我们使用开源的tesseract工具来进行OCR识别。2021年了,tesseract都用上神经网络了,你还有理由不学点AI吗?

机器学习高阶训练营.jpg

随便找的图,并不是恰饭

因为tesseract默认只能识别英语和数字,我们需要安装简体中文训练数据(chi_sim),可以从tessdata项目获得。安装完成后,验证训练数据能被加载:

然后我们调用tesseract来识别字符:

注意因为自动分段和分词的问题,tesseract会识别出奇怪的拉丁字符和数字,我们通过正则表达式把它们连同空白字符一起去除。

最后得到结果:

之前看到的e7ba确实被成功识别成了“气”。

提高效率和准确率

使用OCR当然是简单,但是一来速度慢(包好200个字符的单个字体需要5~10秒),二来由于没人知道神经网络里面具体发生了什么,在不同的字符排列顺序下,可能会出现误识别。通过比较OCR识别结果和字体中的Glyph(可以认为是字体中每个字的矢量表示)我们可以发现:

  1. 这个网站的所有字体中使用了相同的200个常用字
  2. 所有字体中代表相同字的Glyph路径完全相同

那么我们可以作出以下的优化:

  1. 在生成图片时,将字符按已知可正确识别的特定顺序排序(但实现起来还是比较冗杂)
  2. 比较所有的OCR结果,如果有多个字体的OCR结果相同,则认为是可信的
  3. 将可信结果中的某个字体的Glyph路径作为参考,与新字体的Glyph路径比较;如果相同则认为是同一个字
  4. 如果未来jj随机化Glyph中的坐标点,也可以分别计算每个点的距离,在一定范围内则认为近似相同
  5. 持续用OCR结果来验证路径比较结果

我把除了第一点的完整实现代码分享到了JJGet项目,链接中是一个服务端,将处理结果返回给JJGet。目前测试结果非常理想,感兴趣的朋友可以去康康。