67.4. 实现

67.4.1. B-Tree 结构
67.4.2. Bottom-up 索引删除
67.4.3. 去重

本节介绍 B-Tree 索引实现详细信息，这些对高级用户可能有用。更多信息请参见在源分发中的src/backend/access/nbtree/README文件，内部聚焦的 B-Tree 实现描述。

67.4.1. B-Tree 结构

PostgreSQL B-Tree 索引是多级树结构，其中树的每个级别都可以用作双向链表的页。单个元页存储在索引的第一个段文件开始时的固定位置。所有其他页都是叶页或内部页。叶页是在树的最低层上的页。所有其他层级由内部页组成。每个叶页都包含指向表行的元组。每个内部页都包含指向树中下一级别的元组。通常，超过 99% 的页面是叶页。内部页和叶页都使用第 73.6 节中描述的标准页格式。

当已有叶页不能适应传入元组时，新叶页将添加到 B-Tree 索引中。 页拆分 操作通过将部分项目移动到新页面为最初属于溢出页上的项目提供空间。页拆分还必须插入新的 下行链接 到父页中的新页，这可能会导致父页依次拆分。页拆分 “向上级联” 以递归的方式。当根页最终无法适合新的下行链接时，发生 根页拆分 操作。通过创建比原始根页高一个级别的新根页，为树结构添加新级别。

67.4.2. Bottom-up 索引删除

B-Tree索引并不能直接感知到在MVCC机制下，同一个逻辑表行可能存在多个现存版本；对于索引，每个元组都是一个独立的对象，需要自己的索引条目。“版本变动”的元组有时会累积并对查询延迟和吞吐量产生不利影响。这通常发生在以UPDATE为主的工作负载中，其中大多数单个更新无法应用HOT优化。在UPDATE期间仅更改一个索引覆盖的列的值总是需要一组新的索引元组 — 对于表上的每一个索引都需要一个。特别注意，这包括那些并未被UPDATE“逻辑修改”的索引。所有索引都需要一个指向表中最新版本的后继物理索引元组。每个索引中的新元组通常需要与原始“更新”元组共存一段时间（通常直到UPDATE事务提交后不久）。

B-Tree索引通过执行bottom-up index deletion传递，增量地删除版本混杂索引元组。每个删除传递都是在预期的“version churn page split”反应时触发的。这只发生在没有被UPDATE语句逻辑修改的索引上，否则将会出现集中生成特定页面中的过时版本。通常会避免页分割，尽管某些实现级别的启发式方法可能无法识别和删除即使一个垃圾索引元组（在这种情况下，页分割或重复数据删除传递解决传入的新元组不适合叶页的问题）。任何索引扫描必须遍历的最坏版本数（对于单个逻辑行），是整个系统响应能力和吞吐量的重要因素。自下而上的索引删除通道基于涉及逻辑行和版本的定性区分，针对单个叶页中的可疑垃圾元组。这与“top-down”索引清理形成对比，其由autovacuum workers执行，在某些quantitative表级阈值超过时触发（参见第 25.1.6 节）。

注意

不是所有在B-Tree索引中执行的删除操作，都是bottom-up删除操作。这有一个索引元组删除的独特类别：simple index tuple deletion。这是一个延迟维护操作，用以删除已知的可以安全删除的索引元组（那些项标识符LP_DEAD位已经被设置的）。就像bottom-up索引删除，简单索引删除发生在预期将进行页分割的时候，作为避免分割的一种方式。

某种意义上说，简单删除是具有机会性的，因为它只能在当前索引扫描设定传递所影响项目的LP_DEAD位的时候发生。在PostgreSQL 14之前，唯一的B-Tree删除类别是简单删除。它和bottom-up删除的主要区别是，前者（简单删除）是由传递索引扫描活动在适当的时候驱动的，而后者专门针对没有进行逻辑修改索引列的UPDATE所带来的版本混杂。

Bottom-up索引删除为具有某些工作负载的特定索引执行绝大多数垃圾索引元组清理。对任何B-Tree索引，如果它从UPDATE受到明显的版本混杂，而几乎没有或从未有逻辑更改该索引所覆盖的列，这是可以预见的。每个逻辑行的平均和最坏情况的版本数可以通过目标增量删除传递以保持较低。尽管从UPDATE进行constant版本混杂，但某些索引的磁盘大小很可能永远不会增加哪怕一个页面/块。尽管如此，一个由VACUUM操作（通常在autovacuum worker进程中运行）的彻底的“clean sweep”将最终需要作为表和它的每个索引的集体清理的一部分。

不像VACUUM，bottom-up索引删除不提供任何关于最古老的垃圾索引元组有多长时间的强保证。没有索引可以被允许保留在由表和所有它的索引共享的保守截止点之前已经失效的“floating garbage”索引元组。这个基本的表级不变量使得回收利用表的TID是安全的。这就是为什么不同的逻辑行可以随着时间的推移而重新使用相同的表TID（尽管这在生命周期跨越相同的VACUUM周期的两个逻辑行中永远不会发生）。

67.4.3. 去重

重复项是叶页元组（指向表行的元组），其中所有索引键列的值与同一索引中至少一个其他叶页元组的相应列值匹配。重复元组在实践中很常见。当启用可选技术：去重时，B-Tree索引可以对重复项使用特殊的、节省空间的表达方式。

去重通过定期将重复元组合并在一起，为每个组构建一个倒排列表元组。列键值在此表示形式中仅显示一次。后面跟着指向表中行的TID的排序数组。这显著减少了索引的存储大小，在其中每个值（或列值的每个不同组合）平均出现多次时。查询的延迟可以显著降低。总体查询吞吐量可能会显著增加。常规索引清理的开销也可以显著降低。

注意

B-Tree去重对于包含NULL值的“重复项”同样有效，即使根据任何B-Tree操作符类的=成员，NULL值永远不会彼此相等。对于理解磁盘上B-Tree结构的实现的任何部分，NULL只是索引值域中的另一个值。

当插入的新项无法适应现有叶页时，去重过程进行延迟，虽然只有当索引元组删除不能为新项释放足够的空间时（通常删除会被简单考虑然后跳过）。不像GIN倒排列表元组，B-Tree倒排列表元组不需要在每次插入新重复项时展开；它们仅仅是叶页原始逻辑内容的替代物理表示方式。此设计优先考虑混合读写工作负载的一致性能。大多数客户端应用程序可以从使用去重中获得适度的性能收益。默认情况下，将启用去重。

CREATE INDEX和REINDEX应用去重来创建倒排列表元组，尽管它们使用的策略有所不同。每组重复的普通元组遇到从表中取出的排序输入将合并到倒排列表元组，在添加到当前挂起的叶页之前。单独倒排列表元组尽可能以TIDs封装。叶页以通常的方式写出，没有任何分开的去重步骤。此策略非常适合CREATE INDEX和REINDEX，因为它们是一次性的批处理操作。

由于索引中重复值很少或没有重复值，因此无法从去重中获益的写频繁工作负载将产生少量的、固定性能损耗（除非显式禁用去重）。 deduplicate_items存储参数可用于禁用单个索引中的去重。只读工作负载永远不会有任何性能损失，因为读取倒排列表元组至少与读取标准元组表示一样高效。禁用去重通常没有帮助。

有时唯一索引（以及唯一约束）可能会使用去重。这允许叶页临时“吸收”额外的版本混杂副本。唯一索引中的去重增强了自下而上的索引删除，特别是在长时间运行的事务持有阻塞垃圾收集的快照的情况下。目的是为了自下而上的索引删除策略再次生效争取时间。延迟分页分割，直到单个长时间运行的事务自然消失，可以允许自下而上的删除过程成功，在较早的删除过程中失败的地方。

提示

应用一种特殊的启发式方法来确定是否应在唯一索引中进行去重操作。它通常可以直接跳到拆分叶页，避免在无益的去重过程中浪费周期而降低性能。如果你担心去重的开销，可以考虑deduplicate_items = off。在唯一索引中启用去重没有什么坏处。

由于实现级别的限制，不能在所有情况下使用重复数据消除。在CREATE INDEX 或 REINDEX时决定重复数据消除的安全性。

请注意，重复数据消除被认为是不安全的，不能用于下列涉及相同数据之间语义显著差异的情况:

text, varchar, 和 char在使用nondeterministic排序规则时不能使用重复数据消除。在等值数据之间必须保留大小写和重音差异。
numeric不能使用重复数据消除。数字显示比例必须在相等的数据之间保留。
jsonb不能使用重复数据消除，因为jsonbB-Tree操作符类在内部使用numeric。
float4和float8不能使用重复数据消除。这些类型对 -0 和 0具有不同的表示形式，但被视为相等。必须保留此差异。

在未来版本的PostgreSQL中，还有一个实现级别限制可能取消：

容器类型（例如复合类型、数组或范围类型）不能使用重复数据消除。

无论使用操作符类或排序规则如何，还有一个实现级别限制适用：

INCLUDE 索引不能使用重复数据消除。

上一页	上一级	下一页
67.3. B-树支持函数	起始页	第 68 章 GiST 索引