论野生技术&二次元

Go中JSON解码非UTF-8二进制值的问题

我们在一个项目中创(luan)新(xie)地用JSON来编码msgpack编码后的结果(即encoded = json_encode(msgpack_encode(txt))),结果发现Golang侧无法解码。

首先我们可以确定msgpack没有问题,因为输入给msgpack解码数据就与输入值不一致。

我们使用lua-cjson来编码一个JSON,因为结果不是printable的,所以在外面加一层base64.encode

结果是eyJhIjoihjEyMyJ9。

在Python里解码它:

结果是{‘a’: ‘\x86123’}。没有问题,和输入一致。

在Go里解码它:

结果是[239 191 189 49 50 51],可以看到\x86被解码成了\239 \191 \189即\xefbfbd,表示无效的UTF8字符。

这是因为Go默认采用UTF-8解码,如果field被标记为string,则json.Unmarshal会使用utf8.DecodeRune来尝试解码输入https://github.com/golang/go/blob/master/src/encoding/json/decode.go#L1304。但在我们的场景中,\x86是一个单字节的非UTF-8字符,所以utf8.DecodeRune返回了utf8.RuneError并把它放到了结果里。

那么到底是哪里出了问题呢?

首先,JSON的RFC指出,其中的字符串必须以UTF-8编码(https://datatracker.ietf.org/doc/html/rfc8259#section-8.1),但是同时也提到,除了几个特殊的字符外,其中的字符可以被escape也可以不escape(https://datatracker.ietf.org/doc/html/rfc8259#section-7)。所以lua-cjson的这种编码方式似乎也是合法的?

解决办法是写一个自己的Unmarshal方法。首先把结构体中的field标记为自定义类型:

然后我们魔改unquote方法,在原来的基础上加上对解码结果是否为utf8.RuneError的判断

还需要注意的是,Go的json包默认对[]byte类型的field进行base64编解码:

结果是> [123 34 120 34 58 34 107 119 61 61 34 125] {“x”:”kw==”};同理Unmarshal时也会需要输入为base64编码结果。

因此在上面这个解决方法中,我们用rawBytes这个新类型来alias到[]byte,而并不直接使用[]byte类型再在之后自己解码。

发了一个issue:https://github.com/golang/go/issues/51094。

另外的JSON库没有这个问题,测试了https://github.com/json-iterator/go 和 https://github.com/bytedance/sonic

退出移动版