暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

MySQL中的utf8,真假?

108

点击标题下「蓝色微信名」可快速关注

MySQL建表过程中,可能会碰到这个问题,

    Warning | 3719 | 'utf8' is currently an alias for the character set UTF8MB3, but will be an alias for UTF8MB4 in a future release. Please consider using UTF8MB4 in order to be unambiguous.

    究其原因,MySQL的"utf8"实际上不是真正的UTF-8。"utf8"只支持每个字符最多三个字节,而真正的UTF-8是每个字符最多四个字节。

    MySQL之前没修复这个bug,而是在2010年发布了一个叫作"utf8mb4"的字符集,绕过了这个问题。

    简单概况:

    • MySQL的"utf8mb4"是真正的"UTF-8"。

    • MySQL的"utf8"是一种"专属的编码",它能够编码的Unicode字符并不多。

    所有在使用"utf8"的MySQL和MariaDB用户都应该改用"utf8mb4",不要再使用"utf8"。

    可能有朋友会问到什么是编码?什么是UTF-8?

    我们都知道,计算机使用0和1来存储文本。比如字符"C"被存成"01000011",那么计算机显示这个字符时需要经过两个步骤:
    (1)计算机读取"01000011",得到数字67,因为67被编码成"01000011"。
    (2)计算机在Unicode字符集中查找67,找到了"C"。
    同样的,我的电脑将"C"映射成Unicode字符集中的67,我的电脑将67编码成"01000011",并发送给Web服务器。
    几乎所有的网络应用都使用了Unicode字符集,因为没有理由使用其他字符集。

    Unicode字符集包含了上百万个字符。最简单的编码是UTF-32,每个字符使用32位。这样做最简单,因为一直以来,计算机将32位视为数字,而计算机最在行的就是处理数字。但问题是,这样太浪费空间了。

    UTF-8可以节省空间,在UTF-8中,字符"C"只需要8位,一些不常用的字符,比如""需要32位。其他的字符可能使用16位或24位。一篇类似本文这样的文章,如果使用UTF-8编码,占用的空间只有UTF-32的四分之一左右。

    归根结底,文章开头提到的问题,就是因为MySQL的"utf8"字符集与其他程序不兼容,因此,如果你在使用MySQL或MariaDB,不要用"utf8"编码,改用"utf8mb4"。

    这里提供了一个指南用于将现有数据库的字符编码从"utf8"转成"utf8mb4",

    https://mathiasbynens.be/notes/mysql-utf8mb4#utf8-to-utf8mb4

    如果只是建表,可以在建表语句中将原来的CHARSET=utf8修改为CHARSET=utf8mb4即可。


    如果您认为这篇文章有些帮助,还请不吝点下文章末尾的"点赞"和"在看",或者直接转发朋友圈,



    近期更新的文章:
    如何用Kubernetes实现GPU资源高效调度?
    运维岗人员能力画像
    富时中国A50科普帖
    "运维场景"的理解和实践
    什么是哥尼斯堡七桥问题?

    热文鉴赏:
    揭开"仿宋"和"仿宋_GB2312"的神秘面纱
    中国队“自己的”世界杯
    你不知道的C罗-Siu庆祝动作
    架构设计的15个关键概念
    大阪环球影城避坑指南和功略
    推荐一篇Oracle RAC Cache Fusion的经典论文
    "红警"游戏开源代码带给我们的震撼

    文章分类和索引:
    公众号1600篇文章分类和索引

    文章转载自bisal的个人杂货铺,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

    评论