MySQL 8.0对count(*)的优化

bisal的个人杂货铺 2023-07-18

324

count(*)统计技术的操作，不同的数据库可能实现不同，当然性能上也会有一些坑，例如Oracle中，如果索引中存在空值，count(*)还会用全表扫，而不是索引全扫描的访问，因为怕统计错了。

MySQL中的count(*)，不同引擎，实现上略有区别，参考技术社群的这篇文章《新特新解读 | MySQL 8.0 对 count(*)的优化》，了解下对count(*)所做的优化，知其然，更要知其所以然。

我们知道，MySQL一直依赖对count(*)的执行很头疼。很早的时候，MyISAM引擎自带计数器，可以秒回；但是InnoDB就需要实时计算，所以很头疼。以前有多方法可以变相解决此类问题，例如，

1. 模拟MyISAM的计数器

例如表ytt1，要获得总数，我们建立两个触发器分别对insert/delete来做记录到表ytt1_count，这样只需要查询表ytt1_count就能拿到总数。

ytt1_count这张表足够小，可以长期固化到内存里。不过缺点就是有多余的触发器针对ytt1的每行操作，写性能降低。这里需要权衡。

2. 用MySQL自带的sql_calc_found_rows特性来隐式计算

还是ytt1，不过每次查询的时候用sql_calc_found_rows和found_rows()来获取总数，比如：

   mysql> select sql_calc_found_rows * from ytt1 where 1  order by id desc limit 1;
    +------+------+
    | id   | r1   |
    +------+------+
    | 3072 |   73 |
    +------+------+
    1 row in set, 1 warning (0.00 sec)

    mysql> show warnings;
    +---------+------+-------------------------------------------------------------------------------------------------------------------------+
    | Level   | Code | Message                                                                                                                 |
    +---------+------+-------------------------------------------------------------------------------------------------------------------------+
    | Warning | 1287 | SQL_CALC_FOUND_ROWS is deprecated and will be removed in a future release. Consider using two separate queries instead. |
    +---------+------+-------------------------------------------------------------------------------------------------------------------------+
    1 row in set (0.00 sec)

    mysql> select found_rows() as 'count(*)';
    +----------+
    | count(*) |
    +----------+
    |     3072 |
    +----------+
    1 row in set, 1 warning (0.00 sec)

这样的好处是写法简单，用的是MySQL自己的语法。缺点也有，大概有两点，

1. sql_calc_found_rows是全表扫。

2. found_rows()函数是语句级别的存储，有很大的不确定性，所以在MySQL主从架构里，语句级别的行级格式下，从机数据可能会不准确。不过行记录格式改为ROW就OK。所以最大的缺点还是第一点。

从warnings信息看，这种是MySQL 8.0之后要淘汰的语法。

3. 从数据字典里面拿出来粗略的值

   mysql> select table_rows from information_schema.tables where table_name = 'ytt1';
    +------------+
    | TABLE_ROWS |
    +------------+
    |       3072 |
    +------------+
    1 row in set (0.12 sec)

那这样的适合新闻展示，比如行数非常多，每页显示几行，一般后面的很多大家也都不怎么去看。缺点是数据不是精确值。

4. 根据表结构特性特殊的取值

这里假设表ytt1的主键是连续的，并且没有间隙，那么可以直接，

  mysql> select max(id) as cnt from ytt1;
    +------+
    | cnt  |
    +------+
    | 3072 |
    +------+
    1 row in set (0.00 sec)

不过这种对表的数据要求比较高。

5. 标准推荐取法（MySQL 8.0.17建议）

MySQL 8.0建议用常规的写法来实现，

   mysql> select * from ytt1 where 1 limit 1;
    +----+------+
    | id | r1   |
    +----+------+
    | 87 |    1 |
    +----+------+
    1 row in set (0.00 sec)

    mysql> select count(*) from ytt1;
    +----------+
    | count(*) |
    +----------+
    |     3072 |
    +----------+
    1 row in set (0.01 sec)

第五种写法是MySQL 8.0.17推荐的，也就是说以后大部分场景直接实时计算就OK了。

MySQL 8.0.17以及在未来的版本都取消了sql_calc_found_rows特性，可以查看第二种方法里的warnings信息。相比MySQL 5.7，8.0对count(*)做了优化，没有必要在用第二种写法了。我们来看看8.0比5.7在此类查询是否真的有优化？

MySQL 5.7，

  mysql> select version();
    +------------+
    | version()  |
    +------------+
    | 5.7.27-log |
    +------------+
    1 row in set (0.00 sec)

    mysql> explain format=json select count(*) from ytt1\G
    *************************** 1. row ***************************
    EXPLAIN: {
      "query_block": {
        "select_id": 1,
        "cost_info": {
          "query_cost": "622.40"
        },
        "table": {
          "table_name": "ytt1",
          "access_type": "index",
          "key": "PRIMARY",
          "used_key_parts": [
            "id"
          ],
          "key_length": "4",
          "rows_examined_per_scan": 3072,
          "rows_produced_per_join": 3072,
          "filtered": "100.00",
          "using_index": true,
          "cost_info": {
            "read_cost": "8.00",
            "eval_cost": "614.40",
            "prefix_cost": "622.40",
            "data_read_per_join": "48K"
          }
        }
      }
    }
    1 row in set, 1 warning (0.00 sec)

MySQL 8.0下执行同样的查询，

   mysql> select version();
    +-----------+
    | version() |
    +-----------+
    | 8.0.17    |
    +-----------+
    1 row in set (0.00 sec)

    mysql> explain format=json select count(*) from ytt1\G
    *************************** 1. row ***************************
    EXPLAIN: {
      "query_block": {
        "select_id": 1,
        "cost_info": {
          "query_cost": "309.95"
        },
        "table": {
          "table_name": "ytt1",
          "access_type": "index",
          "key": "PRIMARY",
          "used_key_parts": [
            "id"
          ],
          "key_length": "4",
          "rows_examined_per_scan": 3072,
          "rows_produced_per_join": 3072,
          "filtered": "100.00",
          "using_index": true,
          "cost_info": {
            "read_cost": "2.75",
            "eval_cost": "307.20",
            "prefix_cost": "309.95",
            "data_read_per_join": "48K"
          }
        }
      }
    }
    1 row in set, 1 warning (0.00 sec)