9.3 9.4 9.5 9.6 10 11 12 13 14 Current(15)
阿里云PostgreSQL 问题报告 纠错本页面

75.2. 多变量统计例子

75.2.1. 函数依赖
75.2.2. N 个不同变量的计数
75.2.3. MCV 列表

75.2.1. 函数依赖

多元相关性可以用一个非常简单的数据集来演示 — 一个有两列的表,它们都包含相同的值:

CREATE TABLE t (a INT, b INT);
INSERT INTO t SELECT i % 100, i % 100 FROM generate_series(1, 10000) s(i);
ANALYZE t;

第 14.2 节所述,规划人员可以使用从 pg_class获取的页面和行数来确定 t的基数:

SELECT relpages, reltuples FROM pg_class WHERE relname = 't';

 relpages | reltuples
----------+-----------
       45 |     10000

他的数据分布非常简单;每列中只有100个不同的值,均匀分布。

以下示例显示了在a列上估算WHERE条件的结果:

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1;
                                 QUERY PLAN
-------------------------------------------------------------------​------------
 Seq Scan on t  (cost=0.00..170.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: (a = 1)
   Rows Removed by Filter: 9900

规划器检查条件并确定此子句的选择性为1%。通过比较此估计值和实际行数,我们看到估计非常准确 (实际上是精确的,因为表非常小)。将WHERE条件更改为使用b列, 生成相同的计划。但是请注意,如果我们在两列上应用相同条件,将它们与AND组合:

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                 QUERY PLAN
-------------------------------------------------------------------​----------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

规划器分别估算每个条件的选择性,得出与上述相同的1%估计值。然后假设条件是独立的,因此将它们的选择性相乘, 产生最终的选择性估计仅为0.01%。 这是一个显著的低估,因为与条件匹配的实际行数(100)高出两个数量级。

这个问题可以通过创建一个统计对象来解决,该对象指导ANALYZE计算两列上的功能依赖多变量统计信息:

CREATE STATISTICS stts (dependencies) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                  QUERY PLAN
-------------------------------------------------------------------​------------
 Seq Scan on t  (cost=0.00..195.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

75.2.2. N 个不同变量的计数

估计多列集合的基数时也会出现类似的问题,比如通过GROUP BY子句生成的组数。 当GROUP BY列出单个列时,n-distinct估计值(可通过HashAggregate节点返回的行数估计值查看)非常准确:

EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a;
                                       QUERY PLAN
-------------------------------------------------------------------​----------------------
 HashAggregate  (cost=195.00..196.00 rows=100 width=12) (actual rows=100 loops=1)
   Group Key: a
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=4) (actual rows=10000 loops=1)

但是在没有多变量统计信息的情况下,对于具有两列的GROUP BY查询中组数的估计,如下例所示,会有一个数量级的偏差:

EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a, b;
                                       QUERY PLAN
-------------------------------------------------------------------​-------------------------
 HashAggregate  (cost=220.00..230.00 rows=1000 width=16) (actual rows=100 loops=1)
   Group Key: a, b
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=8) (actual rows=10000 loops=1)

通过重新定义统计对象以包括两列的n-distinct计数,估计值得到了很大的改善:

DROP STATISTICS stts;
CREATE STATISTICS stts (dependencies, ndistinct) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT COUNT(*) FROM t GROUP BY a, b;
                                       QUERY PLAN
-------------------------------------------------------------------​-------------------------
 HashAggregate  (cost=220.00..221.00 rows=100 width=16) (actual rows=100 loops=1)
   Group Key: a, b
   ->  Seq Scan on t  (cost=0.00..145.00 rows=10000 width=8) (actual rows=10000 loops=1)

75.2.3. MCV 列表

第 75.2.1 节中所述,函数依赖是非常廉价和高效的统计类型,但它们的主要限制是其全局特性(仅跟踪列级别的依赖项,而不是在单个列值之间)。

本节介绍MCV(最常见值)列表的多变量变体, 第 75.1 节 中描述的每列统计数据的简单扩展。 这些统计数据通过存储单独的值来解决这个限制,但是就构建ANALYZE中的统计数据、存储和规划时间而言,它的成本自然更高。

让我们再看看来自第 75.2.1 节的查询,但这次在相同列集上创建了MCV列表(请确保删除函数依赖,以确保规划器使用新创建的统计数据)。

DROP STATISTICS stts;
CREATE STATISTICS stts2 (mcv) ON a, b FROM t;
ANALYZE t;
EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 1;
                                   QUERY PLAN
-------------------------------------------------------------------​------------
 Seq Scan on t  (cost=0.00..195.00 rows=100 width=8) (actual rows=100 loops=1)
   Filter: ((a = 1) AND (b = 1))
   Rows Removed by Filter: 9900

The estimate is as accurate as with the functional dependencies, mostly thanks to the table being fairly small and having a simple distribution with a low number of distinct values. Before looking at the second query, which was not handled by functional dependencies particularly well, let's inspect the MCV list a bit. 估计值与函数依赖一样准确,这主要是由于表相当小而且具有少量不同值的简单分布。 在查看第二个查询之前,这个函数依赖处理得不是很好,让我们先检查一下MCV列表。

检查MCV列表可以使用pg_mcv_list_items返回集函数。

SELECT m.* FROM pg_statistic_ext join pg_statistic_ext_data on (oid = stxoid),
                pg_mcv_list_items(stxdmcv) m WHERE stxname = 'stts2';
 index |  values  | nulls | frequency | base_frequency
-------+----------+-------+-----------+----------------
     0 | {0, 0}   | {f,f} |      0.01 |         0.0001
     1 | {1, 1}   | {f,f} |      0.01 |         0.0001
   ...
    49 | {49, 49} | {f,f} |      0.01 |         0.0001
    50 | {50, 50} | {f,f} |      0.01 |         0.0001
   ...
    97 | {97, 97} | {f,f} |      0.01 |         0.0001
    98 | {98, 98} | {f,f} |      0.01 |         0.0001
    99 | {99, 99} | {f,f} |      0.01 |         0.0001
(100 rows)

这证实了这两列中有100个不同的组合,而且它们都是大致相等的(每个组合的频率为1%)。基础频率是从每列统计数据计算出的频率,就好像没有多列统计数据一样。如果任一列中有任何空值,这将在nulls列中标识出来。

在估计选择性时,规划器对MCV列表中的项目应用所有条件,然后对匹配项的频率求和。 详情请参阅src/backend/statistics/mcv.c中的mcv_clauselist_selectivity

与函数依赖相比,MCV列表有两大主要优点。 首先,列表存储实际值,从而可以决定哪些组合是兼容的。

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a = 1 AND b = 10;
                                 QUERY PLAN
-------------------------------------------------------------------​--------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=0 loops=1)
   Filter: ((a = 1) AND (b = 10))
   Rows Removed by Filter: 10000

第二,MCV 列表处理更广泛的子句类型,而不仅仅是类似函数依赖的相等子句。 例如,请考虑对同一表的以下范围查询:

EXPLAIN (ANALYZE, TIMING OFF) SELECT * FROM t WHERE a <= 49 AND b > 49;
                                QUERY PLAN
-------------------------------------------------------------------​--------
 Seq Scan on t  (cost=0.00..195.00 rows=1 width=8) (actual rows=0 loops=1)
   Filter: ((a <= 49) AND (b > 49))
   Rows Removed by Filter: 10000