和大多数其它关系数据库产品一样,PostgreSQL支持聚集函数。 一个聚集函数从多个输入行中计算出一个结果。 比如,我们有在一个行集合上计算count
(计数)、sum
(和)、avg
(均值)、max
(最大值)和min
(最小值)的函数。
比如,我们可以用下面的语句找出所有记录中最低温度中的最高温度:
SELECT max(temp_lo) FROM weather;
max ----- 46 (1 row)
SELECT city FROM weather WHERE temp_lo = max(temp_lo); 错误
不过这个方法不能运转,因为聚集max
不能被用于WHERE
子句中(存在这个限制是因为WHERE
子句决定哪些行可以被聚集计算包括;因此显然它必需在聚集函数之前被计算)。 不过,我们通常都可以用其它方法实现我们的目的;这里我们就可以使用子查询:
SELECT city FROM weather WHERE temp_lo = (SELECT max(temp_lo) FROM weather);
city --------------- San Francisco (1 row)
这样做是 OK 的,因为子查询是一次独立的计算,它独立于外层的查询计算出自己的聚集。
聚集同样也常用于和GROUP BY
子句组合。比如,我们可以获取每个城市观测到的最低温度的最高值:
SELECT city, max(temp_lo) FROM weather GROUP BY city;
city | max ---------------+----- Hayward | 37 San Francisco | 46 (2 rows)
这样给我们每个城市一个输出。每个聚集结果都是在匹配该城市的表行上面计算的。我们可以用HAVING
过滤这些被分组的行:
SELECT city, max(temp_lo) FROM weather GROUP BY city HAVING max(temp_lo) < 40;
city | max ---------+----- Hayward | 37 (1 row)
这样就只给出那些所有temp_lo
值曾都低于 40的城市。最后,如果我们只关心那些名字以“S
”开头的城市,我们可以用:
SELECT city, max(temp_lo) FROM weather WHERE city LIKE 'S%' -- (1) GROUP BY city HAVING max(temp_lo) < 40;
理解聚集和SQL的WHERE
以及HAVING
子句之间的关系对我们非常重要。WHERE
和HAVING
的基本区别如下:WHERE
在分组和聚集计算之前选取输入行(因此,它控制哪些行进入聚集计算), 而HAVING
在分组和聚集之后选取分组行。因此,WHERE
子句不能包含聚集函数; 因为试图用聚集函数判断哪些行应输入给聚集运算是没有意义的。相反,HAVING
子句总是包含聚集函数(严格说来,你可以写不使用聚集的HAVING
子句, 但这样做很少有用。同样的条件用在WHERE
阶段会更有效)。
在前面的例子里,我们可以在WHERE
里应用城市名称限制,因为它不需要聚集。这样比放在HAVING
里更加高效,因为可以避免那些未通过 WHERE
检查的行参与到分组和聚集计算中。
选择进入聚合计算的行的另一种方法是使用FILTER
,这是一个针对每个聚合的选项:
SELECT city, count(*) FILTER (WHERE temp_lo < 45), max(temp_lo) FROM weather GROUP BY city;
city | count | max ---------------+-------+----- Hayward | 1 | 37 San Francisco | 1 | 46 (2 rows)
FILTER
与 WHERE
非常相似,不同之处在于它仅从其所附加的特定聚合函数的输入中删除行。此处,count
聚合仅对 temp_lo
低于 45 的行进行计数;但 max
聚合仍然应用于所有行,因此它仍然找到读数 46。