62.3. PostgreSQL 中的遗传查询优化（GEQO）

62.3.1. 用GEQO生成可能的计划
62.3.2. PostgreSQL GEQO的未来实现任务

GEQO模块把查询优化问题当做著名的旅行推销员问题（TSP）来处理。可能的查询计划被编码为整数的串。每一个串表示从查询中一个关系到下一个关系的连接顺序。例如，连接树

   /\
  /\ 2
 /\ 3
4  1

被编码为整数串 '4-1-3-2'，它表示首先连接关系 '4' 和 '1'，然后连接 '3'，最后连接 '2'。这里 1、2、3、4 是PostgreSQL优化器中的关系 ID。

PostgreSQL中GEQO实现的特点有：

一种稳态 GA（在种群中替换适应度最差的个体，而不是整代替换）的使用允许对改进的查询计划快速收敛。这对在合理时间内处理查询是至关重要的；
边重组交叉的使用特别适合于通过GA为TSP的解决方案保持低边损失；
遗传操作符变异被废弃，这样不需要修补机制来产生合法的TSP旅行。

GEQO模块的一部分是从 D. Whitley 的 Genitor 算法中改编而来。

GEQO模块允许PostgreSQL查询优化器支持通过非穷举搜索高效地处理大量连接查询。

62.3.1. 用GEQO生成可能的计划

GEQO规划过程使用标准的规划器代码来生成用于扫描个体关系的计划。然后使用遗传方法发展连接计划。如上所示，每个候选连接计划被表示为一个连接基本关系的序列。在初始阶段，GEQO代码简单地随机生成一些可能的连接序列。对于被考虑的每个连接序列，标准规划器代码被调用来估算使用该连接序列执行查询的代价。（对于连接序列的每一步，所有三种连接策略都被考虑；并且所有初始确定的关系扫描计划都可用。估计的代价是这些可能性中最低的那个。）具有较低估计代价的连接序列被认为比具有较高代价的“更适合”。遗传算法会丢弃最不适应的候选。然后通过组合更适合的候选的基因来生成新的候选 — 即通过使用已知低代价连接序列的随机选择部分来创建新的待考虑序列。这个过程会重复，直到考虑的连接序列数量达到预设值；然后在搜索中任何时候找到的最佳连接序列将被用来生成最终的计划。

由于在初始种群选择和后续最佳候选的“变异”过程中都采用了随机选择，所以这种处理天生就是非确定性的。要避免被选中计划发生出乎意料的改变，每次GEQO算法的运行都会使用当前geqo_seed参数设置来重启它的随机数生成器。只要geqo_seed以及其他GEQO参数保持固定（以及其他规划器输入，如统计信息），对一个给定的查询将产生相同的计划。要试验不同的搜索路径，可以尝试改变geqo_seed。

62.3.2. PostgreSQL GEQO的未来实现任务

仍需对改进遗传算法的参数设置做一些工作。在文件src/backend/optimizer/geqo/geqo_main.c、例程gimme_pool_size和gimme_number_generations中，我们必须为参数设置找到一种折中来满足两个互相竞争的需求：

查询计划的最优性
计算时间

在当前的实现中，每个候选连接序列的适应度通过运行标准规划器的连接选择和代价估计代码从零估算而来。即使不同的候选中使用了相似的连接子序列，仍然需要重复大量的工作。通过保留子连接的代价估计可以在这种情况下显著加快速度。问题在于要避免为了保留那样的状态而不合理地占用过多内存。

在更基础的层面上，用一个为 TSP 设计的 GA 算法来解决查询优化问题是否合适也还需要探讨。在 TSP 情况中，与任何子串（部分旅程）相关的代价独立于剩余的旅程，但是对于查询优化肯定不是这样。因此边重组交叉是否是最有效的变异过程还存有疑问。

上一页	上一级	下一页
62.2. 遗传算法	起始页	62.4. 进一步阅读