【踩坑记录】字节流数据按照string的方式读取然后按照string的方案存储，编码导致二进制数据发生变化，原理记录

您当前的位置：首页 > 快讯 > 正文

来源：博客园时间：2023-06-02 01:25:03

问题缘由

背后原理

(资料图片仅供参考)

C#代码示例

总结

问题缘由

由于公司需求，需要读取游戏Redis数据做内外网数据迁移，没有与游戏组过多的沟通。使用的数据类型是Hash， key是string，value是byte[]。以前对于编码的理解是:计算机底层存储的永远是01的二进制数据，编码是一种对于计算机二进制数据的字符映射，也就是约定好哪个值对应哪个字符。是为了便于在显示器上展示。

那么基于这个理解，我就以为不需要关心存储的数据类型，因为我不需要用到数据，我只是负责做数据的搬运。于是我用的是HGetAsync方法去读的字符串。然后HSetAsync把数据存到另一个Redis。结果发现数据发生了编码。基于我上边对于编码的理解，也就是按照不同的编码读取字符串，只是显示器上会乱码，但是底层的01二进制没有发生变化，这次问题打破了我的认知。

背后原理

当一个byte[]在计算机中存储时，它就是以二进制形式保存的。如果这个byte[]中的每一个字节代表的是ASCII码（一个字节表示一个字符），那么它在不同的编码下读取应该没有问题。但是，如果它代表的是Unicode字符集（UTF-8和UTF-16等），那么在不同的编码下读取就会发生问题。因为不同的编码方式对存储方式和字节长度都有不同的要求。

以UTF-8为例，它对不同字符分配的位数不同。对于ASCII字符，UTF-8使用一个字节表示，而对于其他字符，它需要两个字节、三个字节或四个字节来表示。因此，在按照UTF-8格式读取一个byte[]时，如果它的编码确实是UTF-8，那么就可以读取正确的字符。但是，如果重新以UTF-8的格式存储它时，就会按照UTF-8的编码方式重新把这个字符转换成二进制。如果这个字符之前的编码不是UTF-8，那么它在转换为UTF-8的二进制时，就会变成不同的值，因此数据也就变了。

C#代码示例

var data = Encoding.UTF32.GetBytes("爱");var word = Encoding.UTF8.GetString(data);var word1 = Encoding.UTF32.GetString(data);File.WriteAllText($@"{AppDomain.CurrentDomain.BaseDirectory}/code.txt", word);File.WriteAllText($@"{AppDomain.CurrentDomain.BaseDirectory}/code1.txt", word1);foreach (var d in File.ReadAllBytes($@"{AppDomain.CurrentDomain.BaseDirectory}/code.txt")){    Console.WriteLine(d);}Console.WriteLine("------------");foreach (var d in File.ReadAllBytes($@"{AppDomain.CurrentDomain.BaseDirectory}/code1.txt")){    Console.WriteLine(d);}

例如，我们有一个Unicode字符“爱”，其二进制表示为：0000 0100 1110 0111。按照UTF-8编码的规则，在存储这个字符时，我们需要使用3个字节的二进制数据：1110XXXX 10XXXXXX 10XXXXXX（X表示对应字符的二进制数据的高位）

我们将其存储到一个byte[]中，再将其存储到文件中。然后按照UTF-8的格式读取，解析出Unicode字符“爱”，再将其按照UTF-8的格式存储回文件。这时，由于使用了UTF-8编码，我们需要将Unicode字符“爱”转换为UTF-8编码的二进制数据，即，使用3个字节的二进制数据：11100100 10101110 10011111。

通过运行代码，可以看到，由于存储使用了UTF-8编码，而读取和重新存储又使用了UTF-8编码，因此二进制数据发生了变化。

总结

当一个byte[]在计算机中存储时，它就是以二进制形式保存的。如果这个byte[]中的每一个字节代表的是ASCII码（一个字节表示一个字符），那么它在不同的编码下读取应该没有问题。但是，如果它代表的是Unicode字符集（UTF-8和UTF-16等），那么在不同的编码下读取就会发生问题。

标签：