暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

[ACDU 翻译 ] MySQL 8.4.1优化数据大小

原创 由迪 2021-05-18
363

设计表以最小化它们在磁盘上的空间。通过减少写入磁盘和从磁盘读取的数据量,这可以带来巨大的改进。较小的表通常在查询执行期间主动处理其内容时需要较少的主内存。表数据的任何空间减少都会导致索引变小,从而可以更快地处理索引。

MySQL支持许多不同的存储引擎(表类型)和行格式。对于每个表,您可以决定使用哪种存储和索引方法。为您的应用程序选择适当的表格式可以大大提高性能。请参阅 第15章,InnoDB存储引擎第16章,备用存储引擎

通过使用此处列出的技术,可以提高表的性能,并最大程度地减少存储空间:

表格栏

  • 尽可能使用最有效(最小)的数据类型。MySQL具有许多专门的类型,可以节省磁盘空间和内存。例如,如果可能,使用较小的整数类型以获得较小的表。 MEDIUMINT通常比INT因为MEDIUMINT列占用的空间少25%更好,这 是一个更好的选择。
  • NOT NULL尽可能 声明列。通过更好地使用索引并消除测试每个值是否为的开销,可以使SQL操作更快NULL。您还节省了一些存储空间,每列一位。如果您确实需要NULL表中的值,请使用它们。只是避免使用默认设置,该默认设置允许 NULL每一列中的值。

行格式

  • InnoDBDYNAMIC默认情况下使用行格式创建 。要使用以外的行格式DYNAMIC,请配置 innodb_default_row_format,或ROW_FORMATCREATE TABLEorALTER TABLE语句中明确指定选项。

    紧凑的行格式系列(包括 COMPACTDYNAMICCOMPRESSED)减少了行存储空间,但增加了某些操作的CPU使用率。如果您的工作量是典型的工作,并且受高速缓存命中率和磁盘速度的限制,则可能会更快。如果在极少数情况下受CPU速度的限制,则它可能会变慢。

    CHAR当使用可变长度字符集(例如utf8mb3或)时 ,紧凑的行格式系列还可以优化 列存储 utf8mb4。使用ROW_FORMAT=REDUNDANT, 占×字符集的最大字节长度。许多语言主要可以使用单字节字符编写 ,因此固定的存储长度通常会浪费空间。使用紧凑的行格式系列,可以 在到的范围内分配可变的存储量 CHAR(*N*)Nutf8``InnoDB*N**N×通过删除尾随空格来删除这些列的字符集的最大字节长度。N*在典型情况下,最小存储长度为 字节,以方便就地更新。有关更多信息,请参见 第15.10节“ InnoDB行格式”

  • 通过以压缩形式存储表数据来进一步减少空间,请ROW_FORMAT=COMPRESSED在创建InnoDB表时 指定 ,或在现有表上运行 myisampack命令 MyISAM。(InnoDB压缩表是可读写的,而MyISAM压缩表是只读的。)

  • 对于MyISAM表中,如果没有任何可变长度列(VARCHARTEXT,或 BLOB列),一个固定大小的行格式被使用。这样比较快,但可能会浪费一些空间。请参见第16.2.3节“ MyISAM表存储格式”。即使您有VARCHAR带有CREATE TABLE选项的 列,也可以暗示您希望具有固定长度的行ROW_FORMAT=FIXED

索引

  • 表的主索引应尽可能短。这使得识别每一行变得容易且有效。对于InnoDB表,主键列在每个辅助索引条目中重复,因此如果您有许多辅助索引,则较短的主键可节省大量空间。
  • 仅创建需要提高查询性能的索引。索引很适合检索,但是会降低插入和更新操作的速度。如果您主要通过搜索列的组合来访问表,请在表上创建单个复合索引,而不是为每个列创建单独的索引。索引的第一部分应该是最常用的列。如果从表中选择时总是使用许多列,则索引中的第一列应该是重复次数最多的列,以更好地压缩索引。
  • 如果长字符串列很可能在第一个字符数上具有唯一的前缀,则最好使用MySQL支持在该列的最左边部分创建索引来仅对该前缀进行索引(请参见13.1.15节)。 ,“ CREATE INDEX语句”)。较短的索引会更快,这不仅是因为它们需要较少的磁盘空间,而且还因为它们还会使索引缓存中的命中次数增加,从而减少了磁盘寻道。请参见 第5.1.1节“配置服务器”

连接

  • 在某些情况下,将经常扫描的表分成两部分可能会有所帮助。如果它是动态格式的表,并且可以使用较小的静态格式的表(在扫描表时可以用来查找相关的行),则尤其如此。
  • 在具有相同数据类型的不同表中声明具有相同信息的列,以加快基于相应列的联接。
  • 保持列名简单,以便您可以在不同的表中使用相同的名称并简化联接查询。例如,在名为的表中customer,使用列名name代替 customer_name。为了使您的名称可移植到其他SQL Server中,请考虑使名称短于18个字符。

范式化

  • 通常,请尝试使所有数据保持非冗余(请注意数据库理论中称为 第三范式的内容)。不必重复冗长的值(例如名称和地址),而是给它们分配唯一的ID,在多个较小的表中根据需要重复这些ID,然后通过引用join子句中的ID在查询中联接这些表。
  • 如果速度比磁盘空间和保留多个数据副本的维护成本更为重要,例如在商业智能场景中,您分析大型表中的所有数据,则可以放宽规范化规则,复制信息或创建汇总表以提高速度。
最后修改时间:2021-05-18 16:19:23
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论