MySQL入门-9:分组数据
大纲1、创建分组
2、过滤分组
3、SELECT 子句顺序
分组允许把数据分为多个逻辑组,以便能对每个分组进行聚集计算。
一、创建分组
mysql> SELECT vend_id, COUNT(*) AS num_prods
-> FROM products
-> GROUP BY vend_id;
+---------+-----------+
| vend_id | num_prods |
+---------+-----------+
| 1001 | 3 |
| 1002 | 2 |
| 1003 | 7 |
| 1005 | 2 |
+---------+-----------+
GROUP BY子句指示MySQL分组数据,然后对每个分组而不是整个结果集进行聚集, 引擎会自动完成这种工作。
在具体使用 GROUP BY 子句前,需要知道一些重要的规定。
[*] GROUP BY 子句可以包含任意数目的列。这使得能对分组进行嵌套,为数据分组提供更细致的控制。
group by a,b,c -- 先按a分组,如果a相同,再按b分组,如果b相同,再按c分组,最终统计的是最小分组的信息如果在GROUP BY子句中嵌套了分组,数据将在最后规定的分组上进行汇总。如果使用了聚集函数,那么聚合函数针对操作的是最小的分组后的信息, 根据最小分组来分别统计信息
[*] GROUP BY子句中列出的每个列都必须是检索列或有效的表达式(但不能是聚集函数)。如果在SELECT中使用表达式,则必须在GROUP BY子句中指定相同的表达式。不能使用别名。因为GROUP BY优先于SELECT执行。
除聚集计算语句外,SELECT 语句中的每个列都必须在GROUP BY子句中列出。
使用group by 分组之后, select 语句只能指定聚合函数或者包含在group by中指定的字段(SELECT只能出现分组后的整体信息,不能出现组内的详细信息),否则返回的行数不一致
[*] 如果分组列中具有NULL值,则NULL将作为一个分组返回。如果列中有多行NULL值,它们将分为一组。
[*] GROUP BY子句必须出现在WHERE子句之后,ORDER BY 子句之前。
构建查询时,Projection 子句的投影列表中的所有非聚集列还必须包含在 GROUP BY 子句中。具有 GROUP BY 子句的 SELECT 语句必须针对每一组返回一行。列示在 GROUP BY 后面的列能够在一组中只反映一个特异值,并且可以返回该值。但是,未列示在 GROUP BY 后面的列可在包含在组中的行中包含不同的值。
二、过滤分组 HAVING
除了能用GROUP BY分组数据外,MySQL还允许过滤分组,规定包括哪些分组,排除哪些分组。基于【完整的分组】而不是【个别的行】进行过滤。
提到过滤,肯定想到WHERE子句。不过WHERE过滤指定的是"行"而不是"分组"。事实上,WHERE没有分组的概念。
为此MySQL提供了另外一个子句,HAVING。HAVING 非常类似于WHERE 。唯一的差别是WHERE 过滤“行”,而HAVING 过滤“分组”。所有关于WHERE 的技术和选项都适用于HAVING,它们的句法是相同的,只是关键字不同而已。HAVING支持所有WHERE操作符。
HAVING 和 WHERE 区别:
WHERE在数据分组前进行过滤,HAVING在数据分组后进行过滤。这是一个重要的区别,WHERE排除的行不包括在分组中。这可能会改变计算值,从而影响HAVING子句中基于这些值过滤掉的分组。WHERE是过滤行,而HAVING必须基于完整的分组过滤。(其他用法都相同)
三、SELECT 子句顺序
SELECT
FROM
WHERE -- 行级过滤
GROUP BY
HAVING -- 组级过滤
ORDER BY
LIMIT
SQL执行的逻辑顺序:
(1) FROM left_table
(3) join_type JOIN right_table (2) ON join_condition
(4) WHERE where_condition
(5) GROUP BY group_by_list
(6) WITH {cube | rollup}
(7) HAVING having_condition
(8) SELECT (9) DISTINCT (11) top_specification select_list
(9) ORDER BY order_by_list
(10) LIMIT
逻辑查询处理阶段简介
[*] FROM:对FROM子句中的前两个表执行笛卡尔积(Cartesian product)(交叉联接),生成虚拟表VT1
[*] ON:对VT1应用ON筛选器。只有那些使为真的行才被插入VT2。
[*] OUTER(JOIN):如 果指定了OUTER JOIN(相对于CROSS JOIN 或(INNER
JOIN),保留表(preserved
table:左外部联接把左表标记为保留表,右外部联接把右表标记为保留表,完全外部联接把两个表都标记为保留表)中未找到匹配的行将作为外部行添加到
VT2,生成VT3.如果FROM子句包含两个以上的表,则对上一个联接生成的结果表和下一个表重复执行步骤1到步骤3,直到处理完所有的表为止。
[*] WHERE:对VT3应用WHERE筛选器。只有使为true的行才被插入VT4.
[*] GROUP BY:按GROUP BY子句中的列列表对VT4中的行分组,生成VT5.
[*] CUBE|ROLLUP:把超组(Suppergroups)插入VT5,生成VT6.
[*] HAVING:对VT6应用HAVING筛选器。只有使为true的组才会被插入VT7.
[*] SELECT:处理SELECT列表,产生VT8.
[*] DISTINCT:将重复的行从VT8中移除,产生VT9.
[*] ORDER BY:将VT9中的行按ORDER BY 子句中的列列表排序,生成游标(VC10).
[*] LIMIT:从VC10的开始处选择指定数量或比例的行,生成表VT11,并返回调用者。
注:步骤10,按ORDER
BY子句中的列列表排序上步返回的行,返回游标VC10.这一步是第一步也是唯一一步可以使用SELECT列表中的列别名的步骤。这一步不同于其它步骤的是,它不返回有效的表,而是返回一个游标。SQL是基于集合理论的。集合不会预先对它的行排序,它只是成员的逻辑集合,成员的顺序无关紧要。对表进行排序的查询可以返回一个对象,包含按特定物理顺序组织的行。ANSI把这种对象称为游标。理解这一步是正确理解SQL的基础。
因为这一步不返回表(而是返回游标),使用了ORDER BY子句的查询不能用作表表达式。表表达式包括:视图、内联表值函数、子查询、派生表和共用表达式。它的结果必须返回给期望得到物理记录的客户端应用程序。
页:
[1]