首页 > 关于mysql乱码的纠结

关于mysql乱码的纠结

在win命令行中操作mysql,命令行是gbk编码
mysql数据库的默认编码是Latin1
如果我在客户端set names utf8; 创建的表为gbk,存储中文肯定就出现乱码了(给一个占仨字节的,gbk表存储不了)
而我将表创建为utf8,在客户端set names gbk,存储中文则不会出现乱码(给一个占俩字节的,utf8依然能够存储)
到这里还没什么问题,但是····
我创建一张不声明字符集的表,在客户端set names latin1,存储中文也不会出现乱码(客户端、转换器、服务器编码一致),这里依然可以理解
① 如果说Latin1是单字节编码,为什么我用length(字段),测试的结果是一个中文是两个字节呢?
② 如果说Latin1中文也占一个字节,那么我创建的表不声明字符集,在客户端也不声明字符集,这样会字节丢失、造成乱码,可它偏偏占两个字节;那我就不明白了,为什么创建的表不声明字符集,在客户端也不声明字符集、gbk和Latin1都可以存中文,且占两个字节,这种情况依然会乱码呢

ps:感谢几位的回答,不过我纠结的是我提出的问题,而不是应该怎样···呵呵


原则上,所有的地方都要用utf8,不要自己瞎搞,事儿多。


对于问题1,看后面
对于问题2,我之前说了不声明字符集不等于没有设置字符集,mysql是有默认字符集这个东西的

你的问题归纳起来无非就是latin-1保存的中文是两个字节,对不对?
问题是你怎么知道这件事的呢?程序员很重要的一点就是要客观的去看待问题,而不是主观的论断。

1- 从计算机的角度考虑,它知道什么是英文什么是中文吗?所以一个字节就是一个字节
2- 不同编码导致了中文的长度不同,如GBK是2字节,UTF-8是3字节
3- 你录入的中文是所你使用的电脑对其编码的,你看到的中文是你所使用的电脑对其解码的,mysql仅仅是存储,事实上那边根本不关心这个问题,就是按字节存储。

所以为什么latin-1保存的中文是两个字节呢?因为你发送给mysql的就是两字节,那边就这么存了,mysql也从来没有表示过这两个字节代表什么。

关于乱码,不好解释,做个不太恰当的描述吧。
为了区别,我们将计算机能处理的字符编码称为 机器码 ,那么显示给人的时候要进行某种处理,从而现在有utf-8, gbk, latin-1等方式。
那么如果mysql认为字符是latin-1,但是输出端认为字符集是gbk,那么什么事情会发生呢?
mysql将数据用latin-1解码,恢复成 机器码 的格式,然后用gbk对机器码编码输出
这就是乱码的根源,明明是gbk,你偏要告诉mysql是latin-1,然后输出的时候mysql自然会按照latin-1的解码方式去解码gbk格式的数据,还能对吗?


楼上说的没错,要让使用utf8成为习惯。另外,git bash、msys 等常用工具的

【热门文章】
【热门文章】