1-1 CASE表达式
在SQL里表达条件分支
CASE
表达式是SQL里非常重要而且使用起来非常便利的技术,我们应该学会用它来描述条件分支。能熟练掌握 CASE
表达式,可以说是SQL初级者和中级者之间的区别。本节将通过行列转换、已有数据重分(分类)、与约束的结合使用、针对聚合结果的条件分支等例题,来介绍 CASE
表达式的用法。
写在前面
CASE
表达式是从SQL-92 标准开始被引入的。它虽然已经被引入了二十多年,但在主流 DBMS 中仍然可以正常使用。不过,可能因为它是相对较新的技术,所以尽管使用起来非常便利,但人们(尤其是初级者)并不怎么理解其真正的价值。很多人不用它,或者用它的简略版函数,例如 DECODE
(Oracle)、IF
(MySQL)等。然而,正如著名的SQL专家乔 · 塞尔科所说,CASE
表达式也许是SQL-92 标准里加入的最有用的特性。如果能用好它,那么SQL能解决的问题就会更广泛,写法也会更加漂亮。而且,CASE
表达式是不依赖于具体数据库的技术,具有提高SQL代码的可移植性等优点 1。
1 例如,DECODE
是 Oracle 用户很熟悉的函数,它有以下 4 个不如 CASE
表达式的地方。
· 它是 Oracle 独有的函数,所以不具有可移植性
· 分支数最多支持 127 个(参数上限为 255 个,1 个分支需要 2 个参数)
· 如果分支数增加,代码会变得非常难读
· 表达能力较弱。具体来说,就是参数里不能使用谓词,也不能嵌套子查询
CASE 表达式的写法
首先,我们来学习一下基本的写法。CASE
表达式有简单 CASE
表达式(simple case expression)和搜索 CASE
表达式(searched case expression)两种写法,它们分别如下所示。
■ CASE 表达式的写法
--简单 CASE 表达式
CASE sex
WHEN '1' THEN '男'
WHEN '2' THEN '女'
ELSE '其他' END
--搜索 CASE 表达式
CASE WHEN sex = '1' THEN '男'
WHEN sex = '2' THEN '女'
ELSE '其他' END
这两种写法的执行结果是相同的,sex
列(字段)如果是 '1'
,那么结果为男;如果是 '2'
,那么结果为女。简单 CASE
表达式正如其名,写法简单,但能实现的事情比较有限。简单 CASE
表达式能写的条件,搜索 CASE
表达式也能写,所以本书基本上采用搜索 CASE
表达式的写法。
我们在编写SQL语句的时候需要注意,在发现结果为真的 WHEN
子句时,CASE
表达式的真假值判断就会中止,而剩余的 WHEN
子句会被忽略(不再判断)2。为了避免引起不必要的混乱,使用 WHEN
子句时要注意条件的排他性。
2 该评价方法称为短路求值(short-circuit evaluation)或最小化求值(minimal evaluation)。当确定了整个表达式的值时,判断就会中止,而剩余的判断将不再执行,这是一种“省力”的判断方式。Java 和 Python 等编程语言中也有执行这种判断的运算符(有些语言只会进行短路求值)。
■ 剩余的 WHEN 子句被忽略的写法示例
-- 例如,这样写的话,结果里不会出现“第二”
CASE WHEN col_1 IN ('a', 'b') THEN '第一'
WHEN col_1 IN ('a') THEN '第二'
ELSE '其他' END
此外,使用 CASE
表达式的时候,还需要注意以下几点。
注意事项 1 统一各分支返回的数据类型
虽然这一点无须多言,但这里还是要强调一下:一定要注意 CASE
表达式里各个分支返回的数据类型是否一致。某个分支返回字符型,而其他分支返回数值型的写法是不正确的。这是因为,CASE
表达式是最终要得出单一值的表达式,这一点与“< 数值 > + < 数值 >”是一样的。如果“<数值 > + < 数值 >”的结果会随具体情况而发生变化,有时是数值,有时是日期,那运算就不成立了。
注意事项 2 不要忘了写 END
使用 CASE
表达式的时候,最容易出现的语法错误是忘记写 END
。END
是必不可少的,如果忘记写,就会发生语法错误。虽然我们忘记写的时候,程序会返回比较容易理解的错误消息,不算多么致命的错误,但是感觉自己写得没问题,执行时却出错的情况大多是由这个原因引起的,所以请一定注意一下。
注意事项 3 养成写 ELSE
子句的习惯
与 END
不同,ELSE
子句是可选的,不写也不会出错。不写 ELSE
子句时,CASE
表达式的执行结果是 NULL
,但是不写可能会造成“语法没有错误,结果却不对”这种不易追查原因的麻烦,所以最好明确地写上 ELSE
子句(即便是在结果可以为 NULL
的情况下)。养成这样的习惯后,我们从代码上就可以清楚地看到这种条件下会生成 NULL
,而且将来代码有修改时也能减少失误。
如果单纯地看 CASE
表达式的使用方法,大家可能会有“CASE
表达式只是将标签换种说法而已”之类的感觉。
实际上也确实如此(图 1.1.1)。
图 1.1.1 CASE 表达式就是将标签换种说法
在单独使用 CASE
表达式的情况下,它只是一个将某列的值换为其他值的工具。这样的话,它与 IF
或 DECODE
等依赖于具体实现的函数没有什么区别。当与其他的SQL工具搭配使用时,CASE
表达式才能发挥出真正的价值,特别是与聚合函数(SUM
或 AVG
)和 GROUP BY
子句一起使用时,甚至会发挥出巨大的威力。接下来,我们通过几个示例,来看一下 CASE
表达式的真正价值。
将已有编号方式转换为新的方式并统计
在进行非定制化统计时,我们经常会遇到将已有编号方式转换为另外一种便于分析的方式并进行统计的需求。例如,现在有一张以北海道、青森等县(日本的县级市)为单位记录人口的表,我们需要以东北、关东、九州等地区 3 为单位来分组,并统计人口数量。具体来说,就是统计下页表 PopTbl 中的内容,得出如右表“统计结果”所示的结果。从表的设计上来说,这种表其实最好使用“县的编号”作为键,但这里为了方便理解,我们使用“县的名称”作为键(本书的讲解优先考虑SQL语句的可读性,示例中基本上使用的是名称,而不是键)。
3 日本的省级行政单位有都、道、府、县,包含一都(东京都)、二府(京都府和大阪府)、一道(北海道)和诸多的县,统称都道府县。多个较近的县被划归到一个地区,如关东地区、九州地区等,类似我国的华北地区、华南地区等概念。——译者注
4在“统计结果”这张表中,“四国”对应的是表 PopTbl 中的“德岛、香川、爱媛、高知”,“九州”对应的是表 PopTbl 中的“福冈、佐贺、长崎”。——编者注
大家会怎么实现呢?定义一个包含“地区编号”列的视图是一种做法,但是这样一来,需要添加的列的数量将等同于统计对象的编号个数,而且很难动态地修改。
如果使用 CASE
表达式,则用如下所示的一条SQL语句就可以完成。
-- 把县名转换成地区名(1)
SELECT CASE pref_name
WHEN '德岛' THEN '四国'
WHEN '香川' THEN '四国'
WHEN '爱媛' THEN '四国'
WHEN '高知' THEN '四国'
WHEN '福冈' THEN '九州'
WHEN '佐贺' THEN '九州'
WHEN '长崎' THEN '九州'
ELSE '其他' END AS district,
SUM(population)
FROM PopTbl
GROUP BY CASE pref_name
WHEN '德岛' THEN '四国'
WHEN '香川' THEN '四国'
WHEN '爱媛' THEN '四国'
WHEN '高知' THEN '四国'
WHEN '福冈' THEN '九州'
WHEN '佐贺' THEN '九州'
WHEN '长崎' THEN '九州'
ELSE '其他' END;
这里将 SELECT
子句里的 CASE
表达式复制到 GROUP BY
子句里。需要注意的是,如果对转换前的 pref_name
列进行 GROUP BY
,就得不到正确的结果(因为这并不会引起语法错误,所以容易被忽视)。
同样地,也可以将数值按照适当的级别进行分类统计。例如,要按人口数量等级(pop_class
)查询都道府县个数的时候,就可以像下面这样写SQL语句。
-- 按人口数量等级划分都道府县
SELECT CASE WHEN population < 100 THEN '01'
WHEN population >= 100 AND population < 200 THEN '02'
WHEN population >= 200 AND population < 300 THEN '03'
WHEN population >= 300 THEN '04'
ELSE NULL END AS pop_class,
COUNT(*) AS cnt
FROM PopTbl
GROUP BY CASE WHEN population < 100 THEN '01'
WHEN population >= 100 AND population < 200 THEN '02'
WHEN population >= 200 AND population < 300 THEN '03'
WHEN population >= 300 THEN '04'
ELSE NULL END;
■ 执行结果
pop_class cnt
--------- ----
01 1
02 3
03 3
04 2
这个技巧非常好用。不过,必须在 SELECT
子句和 GROUP BY
子句这两处写一样的 CASE
表达式,这有点麻烦。后期需要修改的时候,很容易发生只改了这一处而忘掉改另一处的失误。
所以,如果我们可以像下页这样写,这就方便多了。
没错,这里的 GROUP BY
子句使用的正是 SELECT
子句里定义的列的别称——district
。有的 DBMS 支持这种SQL语句。例如在 PostgreSQL和 MySQL中,这个查询语句就可以顺利执行,因为这些数据库在执行查询语句时,会先对 SELECT
子句里的列表进行扫描,并对列进行计算。但遗憾的是,在 Oracle、DB2、SQLServer 等数据库里采用这种写法时,程序就会报错 5。由于 DBMS 之间并不兼容,所以这里不是很推荐大家使用这种写法。不过,按照这种方式写出来的SQL语句确实非常简洁,而且可读性很好。希望将来所有的 DBMS 都能够支持这种语法。
5 例如,在 Oracle 中执行该 SELECT
子句,就会出现下面的错误消息。
第 12
行发生了错误。:ORA-00904:'DISTRICT'
:无效的标识符。
这表示“PopTbl 中并没有列名 DISTRICT
”,倒也确实如此,但笔者觉得这个查询也可以更灵活一点,比如去查询 SELECT
子句中定义的虚拟列名。
用一条SQL语句进行多条件统计
多条件统计是 CASE
表达式的著名用法之一。例如,我们需要往存储各县人口数量的表 PopTbl 里添加上“性别”列,然后求按性别、县名汇总的人数。具体来说,就是统计表 PopTbl2 中的数据,然后求出如表“统计结果”所示的结果。其中,1 表示男性,2 表示女性。
通常的做法是像下面这样,分别在 WHERE
子句里写上不同的条件,然后执行两条SQL语句。
-- 男性人口
SELECT pref_name,
population
FROM PopTbl2
WHERE sex = '1';
-- 女性人口
SELECT pref_name,
population
FROM PopTbl2
WHERE sex = '2';
接着,还需要通过宿主语言或者应用程序将查询结果按列展开。如果使用 UNION
,只用一条SQL语句就可以实现查询,但使用这种做法时,工作量是一样的,性能并没有得到优化,SQL语句也会变得很长。如果使用 CASE
表达式,一条简单的SQL语句就可以搞定。
SELECT pref_name,
-- 男性人口
SUM( CASE WHEN sex = '1' THEN population ELSE 0 END) AS cnt_m,
-- 女性人口
SUM( CASE WHEN sex = '2' THEN population ELSE 0 END) AS cnt_f
FROM PopTbl2
GROUP BY pref_name;
■ 执行结果
pref_name cnt_m cnt_f
----------- ----- -----
德岛 60 40
香川 100 100
爱媛 100 50
高知 100 100
福冈 100 200
佐贺 20 80
长崎 125 125
东京 250 150
上面这段代码所做的是,分别统计每个县的男性(即 '1'
)人口和女性(即 '2'
)人口。也就是说,这里是将“行结构”的数据转换成了“列结构”的数据。除了 SUM
,COUNT
、AVG
等聚合函数也都可以用于将行结构的数据转换成列结构的数据。
这个技巧可贵的地方在于,它能将SQL的查询结果转换为二维表的格式。如果只是简单地用 GROUP BY
进行聚合,那么查询后必须通过宿主语言或者 Excel 等应用程序将结果的格式转换一下,才能使之成为交叉表。看上面的执行结果会发现,此时输出的已经是侧栏为县名、表头为性别的交叉表了。在制作统计表时,这个功能非常方便。如果用一句话来形容这个技巧,可以这样说:
新手用 WHERE
子句进行条件分支,高手用 SELECT
子句进行条件分支。
如此好的技巧,请大家多使用。
第一次看到这个 SELECT
语句,可能会有人产生疑问:“又不是计算人口总数,有必要使用这个 SUM
函数吗?”(笔者也曾有过这样的疑问)。
从结论来讲,该 SUM
函数是必须使用的。我们试着去掉 SUM
函数,再进行查询,就知道原因了。
SELECT pref_name,
-- 男性人口
CASE WHEN sex = '1' THEN population ELSE 0 END AS cnt_m,
-- 女性人口
CASE WHEN sex = '2' THEN population ELSE 0 END AS cnt_f
FROM PopTbl2;
■ 执行结果
pref_name cnt_m cnt_f
----------- ----- -----
德岛 60 0
德岛 0 40
香川 100 0
香川 0 100
爱媛 100 0
爱媛 0 50
高知 100 0
高知 0 100
福冈 100 0
福冈 0 200
佐贺 20 0
佐贺 0 80
长崎 125 0
长崎 0 125
东京 250 0
东京 0 150
看到这样的结果,大家应该都能理解了吧?确实,通过使用 CASE
表达式,我们就可以创建男性人口列(cnt_m
)和女性人口列(cnt_f
)。不过,仅这样并不能聚合记录,因此原始的表 PopTbl2 中的记录数就直接作为结果输出了。因此,聚合记录就要用到聚合函数 SUM
,CASE
表达式本身并没有聚合记录的功能。正如前面所讲,CASE
表达式只是将标签换种说法而已,这里就是性别条件不满足时将人口换为 0
了。
用 CHECK 约束定义多个列的条件关系
其实,CASE
表达式和 CHECK
约束是很般配的一对组合。也许有很多数据库工程师不怎么用 CHECK
约束,但是一旦他们了解了 CHECK
约束和 CASE
表达式结合使用之后的强大威力,就一定会跃跃欲试的 6。
6 MySQL8.0 还不支持 CHECK 约束。
假设某公司规定“女性员工的工资必须在 20 万日元以下”,而在这个公司的人事表中,这条无理的规定是使用 CHECK
约束来描述的,代码如下所示。
CONSTRAINT check_salary CHECK
( CASE WHEN sex = '2'
THEN CASE WHEN salary <= 200000
THEN 1 ELSE 0 END
ELSE 1 END = 1 )
在这段代码里,CASE
表达式被嵌入 CHECK
约束里,描述了“如果是女性员工,则工资是 20 万日元以下”这个命题(判断事情的语句)。在命题逻辑中,该命题是名为蕴含式(conditional)的逻辑表达式,记作 P → Q。这里的 P 和 Q 表示任意命题,整体读作“P 蕴含 Q”。
这里需要重点理解的是蕴含式和逻辑与(logical product)的区别。逻辑与也是一个逻辑表达式,意思是“P 且 Q”,记作 P ∧ Q。用逻辑与改写的 CHECK
约束如下所示。
CONSTRAINT check_salary CHECK
( sex = '2' AND salary <= 200000 )
当然,这两个约束的程序行为不一样。究竟哪里不一样呢?请先思考一下,再看下面的答案和解释。
答案
如果在 CHECK
约束里使用逻辑与,该公司将不能雇佣男性员工。而如果使用蕴含式,男性也可以在这里工作。
解释
要想让逻辑与 P ∧ Q 为真,需要命题 P 和命题 Q 均为真,或者一个为真且另一个无法判定真假。也就是说,能在这家公司工作的是“性别为女且工资在 20 万日元以下”的员工,以及性别或者工资无法确定的员工(如果一个条件为假,那么即使另一个条件无法确定真假,也不能在这里工作)。
而要想让蕴含式 P → Q 为真,需要命题 P 和命题 Q 均为真,或者 P 为假,或者 P 无法判定真假。也就是说如果不满足“是女性”这个前提条件,则无须考虑工资约束。
请参考下面这个关于逻辑与和蕴含式的真值表。U 是SQL中三值逻辑的特有值 unknown
的缩写(关于三值逻辑,1-4 节将详细介绍)。
如上表所示,蕴含式在员工性别不是女性(或者无法确定性别)的时候为真,可以说相比逻辑与约束,它更加宽松。
在 UPDATE 语句里进行条件分支
下面思考一下这样一种需求:以某数值型的列的当前值为判断对象,将其更新成别的值。这里的问题是,此时 UPDATE
操作的条件会有多个分支。例如,我们通过下面这样一张出自某公司人事部的员工工资信息表 Salaries 来看一下这种情况。
假设现在需要根据以下条件对该表的数据进行更新。
01.对当前工资为 30 万日元以上的员工,降薪 10%。
02.对当前工资为 25 万日元以上且不满 28 万日元的员工,加薪 20%。
按照这些要求更新完的数据应该如下表所示。
乍一看,分别执行下面两个 UPDATE
操作好像就可以做到,但这样做的结果是不正确的。
-- 条件 1
UPDATE Salaries
SET salary = salary * 0.9
WHERE salary >= 300000;
-- 条件 2
UPDATE Salaries
SET salary = salary * 1.2
WHERE salary >= 250000 AND salary < 280000;
我们来分析一下不正确的原因。例如这里有一个员工,当前工资是 30 万日元,按“条件 1”执行 UPDATE
操作后,工资会被更新为 27 万日元,但继续按“条件 2”执行 UPDATE
操作后,工资又会被更新为 32.4 万日元。这样一来,本来应该被降薪的员工却被加薪了 2.4 万日元。
这样的结果当然并非人事部所愿。员工相田的工资必须被准确地降为 27 万日元。问题在于,第 1 次的 UPDATE
操作执行后,“当前工资”发生了变化,如果还拿它当作第 2 次 UPDATE
的判定条件,结果就会不准确。然而,即使将两条SQL语句的执行顺序颠倒一下,当前工资为 27 万日元的员工,其工资的更新结果也会出现问题。为了避免出现这些问题,准确地表达出可恶的人事部长的意图,可以像下面这样用 CASE
表达式来写SQL。
UPDATE Personnel
SET salary = CASE WHEN salary >= 300000
THEN salary * 0.9
WHEN salary >= 250000 AND salary < 280000
THEN salary * 1.2
ELSE salary END;
这条SQL语句不仅执行结果正确,而且因为只需执行 1 次,所以性能也更高。这样的话,人事部长就会满意了吧?
需要注意的是,SQL语句最后一行的 ELSE salary
非常重要,必须写上。因为如果没有它,条件 1 和条件 2 都不满足的员工的工资就会被更新成 NULL
。这一点与 CASE
表达式的设计有关,在前面介绍 CASE
表达式的时候我们就已经了解到,如果 CASE
表达式里没有明确指定 ELSE
子句,执行结果会被默认地处理成 ELSE NULL
。现在大家明白笔者最开始强调使用 CASE
表达式时要习惯性地写上 ELSE
子句的理由了吧?
这个技巧的应用范围很广。例如,可以用它轻松完成主键值调换这种繁重的工作。通常,当我们想调换主键值 a
和 b
时,需要将主键值临时转换成某个中间值。使用这种方法时需要执行 3 次 UPDATE
操作,但是如果使用 CASE
表达式,1 次就可以做到。
如果在调换上表的主键值 a
和 b
时不用 CASE
表达式,则需要像下页这样写 3 条SQL语句。
--1. 将 a 转换为中间值 d
UPDATE SomeTable
SET p_key = 'd'
WHERE p_key = 'a';
--2. 将 b 调换为 a
UPDATE SomeTable
SET p_key = 'a'
WHERE p_key = 'b';
--3. 将 d 调换为 b
UPDATE SomeTable
SET p_key = 'b'
WHERE p_key = 'd';
像上面这样做,结果确实没有问题。只是,这里没有必要执行 3 次 UPDATE
操作,而且中间值 d
是否总能使用也是问题。如果使用 CASE
表达式,就不必担心这些,1 次就可以完成调换。
-- 用 CASE 表达式调换主键值
UPDATE SomeTable
SET p_key = CASE WHEN p_key = 'a'
THEN 'b'
WHEN p_key = 'b'
THEN 'a'
ELSE p_key END
WHERE p_key IN ('a', 'b');
显而易见,这条SQL语句按照“如果是 a
则更新为 b
,如果是 b
则更新为 a
”这样的条件分支进行了 UPDATE
操作。不只是主键,唯一键的调换也可以用同样的方法进行。本例的关键点和上一例的加薪与降薪一样,即用 CASE
表达式的条件分支进行的更新操作是一气呵成的,因此可以避免出现主键重复所导致的错误 7。
7 如果在 PostgreSQL和 MySQL数据库执行这条SQL语句,会因主键重复而出现错误。例如,PostgeSQL数据库中会显示下面的错误消息。Error
:重复键违反唯一约束 "sometable_pkey"
DETAIL
:键 (p_key)=(b)
已经存在
之所以会发生错误,是因为在将主键为 'a'
的行的主键修改为 'b'
时,主键 'b'
还是修改前的值。但是,约束的检查本来就发生在更新完成后,因此在更新过程中主键一时出现重复也没有问题。事实上,在 Oracle、DB2 和SQLServer 数据库中执行该 UPDATE
语句也都没有问题。在 PostgreSQL数据库中,建表时如果使用延迟约束(DEFERRABLE
)选项,执行也不会发生错误。
但是,一般来说需要进行这样的调换是因为表的设计出现了问题,所以请先重新审视一下表的设计,去掉不必要的约束。
表之间的数据匹配
与 DECODE
函数等相比,CASE
表达式的一大优势在于能够判断表达式。也就是说,在 CASE
表达式里,我们能使用 BETWEEN
、LIKE
和 <
、>
等便利的谓词组合,还能嵌套子查询的 IN
和 EXISTS
谓词。因此,CASE
表达式具有非常强大的表达能力。
如下所示,这里有一张培训学校的课程一览表和一张展示每个月所设课程的表。
我们要用这两张表来生成下面这样的交叉表,以便于一目了然地知道每个月开设的课程。
■ 执行结果
course_name 6 月 7 月 8 月
----------- ---- ---- ----
会计入门 ○ × ×
财务知识 × × ○
簿记考试 ○ × ×
税务师 ○ ○ ○
我们需要做的是,检查表 OpenCourses 中的各月里有表 CourseMaster 中的哪些课程。这个匹配条件可以用 CASE
表达式来写。
-- 表的匹配:使用 IN 谓词
SELECT course_name,
CASE WHEN course_id IN
(SELECT course_id FROM OpenCourses
WHERE month = 201806) THEN '○'
ELSE '×' END AS "6 月",
CASE WHEN course_id IN
(SELECT course_id FROM OpenCourses
WHERE month = 201807) THEN '○'
ELSE '×' END AS "7 月",
CASE WHEN course_id IN
(SELECT course_id FROM OpenCourses
WHERE month = 201808) THEN '○'
ELSE '×' END AS "8 月"
FROM CourseMaster;
-- 表的匹配:使用 EXISTS 谓词
SELECT CM.course_name,
CASE WHEN EXISTS
(SELECT course_id FROM OpenCourses OC
WHERE month = 201806
AND OC.course_id = CM.course_id) THEN '○'
ELSE '×' END AS "6 月",
CASE WHEN EXISTS
(SELECT course_id FROM OpenCourses OC
WHERE month = 201807
AND OC.course_id = CM.course_id) THEN '○'
ELSE '×' END AS "7 月",
CASE WHEN EXISTS
(SELECT course_id FROM OpenCourses OC
WHERE month = 201808
AND OC.course_id = CM.course_id) THEN '○'
ELSE '×' END AS "8 月"
FROM CourseMaster CM;
这样的查询没有进行聚合,因此也不需要排序,月份增加的时候仅修改 SELECT
子句就可以了,扩展性比较好。
无论使用 IN
还是 EXISTS
,得到的结果是一样的,但从性能方面来说,EXISTS
更好。通过 EXISTS
进行的子查询能够用到“month, course_id
”这样的主键索引,因此当表 OpenCourses 里的数据比较多时,使用 EXISTS
的优势会更大。
换个角度来看,表之间的数据匹配就是生成一张表侧栏固定的交叉表,因此使用外连接的方法也可以完成。关于外连接的思路,我们将在 1-8 节进行学习。
在 CASE 表达式中使用聚合函数
接下来介绍一下稍微高级的用法。这个用法乍一看可能让人觉得是语法错误,实际上并非如此,而且它在所有的 DBMS 中都可以使用。我们来看一道例题,假设这里有一张显示了学生及其加入的社团的一览表。这张表的主键是“学号、社团 ID”。
有的学生同时加入了多个社团(如学号为 100、200 的学生),有的学生只加入了一个社团(如学号为 300、400、500 的学生)。对于加入了多个社团的学生,我们通过将其“主社团标志”列设置为 Y 或者 N 来表明哪一个社团是他的主社团;对于只加入了一个社团的学生,我们将其“主社团标志”列设置为 N。
接下来,我们按照下面的条件查询这张表里的数据。
01.获取只加入了一个社团的学生的社团 ID。
02.获取加入了多个社团的学生的主社团 ID。
很容易想到的办法是,针对两个条件分别写SQL语句来查询。要想知道学生“是否加入了多个社团”,我们需要用 HAVING
子句对聚合结果进行判断。
■ 条件 1 的SQL
-- 条件 1 :选择只加入了一个社团的学生
SELECT std_id, MAX(club_id) AS main_club
FROM StudentClub
GROUP BY std_id
HAVING COUNT(*) = 1;
■ 执行结果 1
std_id main_club
------ ----------
300 4
400 5
500 6
■ 条件 2 的SQL
-- 条件 2 :选择加入了多个社团的学生
SELECT std_id, club_id AS main_club
FROM StudentClub
WHERE main_club_flg = 'Y' ;
■ 执行结果 2
std_id main_club
------ ----------
100 1
200 3
这样做也能得到正确的结果,但需要写多条SQL语句,存在性能问题。如果使用 CASE
表达式,下面这一条SQL语句就可以了。
SELECT std_id,
CASE WHEN COUNT(*) = 1 -- 只加入了一个社团的学生
THEN MAX(club_id)
ELSE MAX(CASE WHEN main_club_flg = 'Y'
THEN club_id
ELSE NULL END) END AS main_club
FROM StudentClub
GROUP BY std_id;
■ 执行结果
std_id main_club
------ ----------
100 1
200 3
300 4
400 5
500 6
这条SQL语句在 CASE
表达式里使用了聚合函数,又在聚合函数里使用了 CASE
表达式。这种嵌套的写法让人有点眼花缭乱,其主要目的是用 CASE WHEN COUNT(*) = 1 ... ELSE ...
这样的 CASE
表达式来表示“只加入了一个社团还是加入了多个社团”这样的条件分支。
这种写法比较新颖,因为我们在初学SQL的时候,都学过对聚合结果进行条件判断时要用 HAVING
子句,但从这道例题可以看出,在 SELECT
语句里使用 CASE
表达式也可以完成同样的工作,如果用一句话来形容这个技巧,可以这样说:
新手用 HAVING
子句进行条件分支,高手用 SELECT
子句进行条件分支。
通过这道例题我们可以明白:CASE
表达式用在 SELECT
子句里时,既可以写在聚合函数内部,也可以写在聚合函数外部。这种高度自由的写法正是 CASE
表达式的魅力所在。那么,为什么 CASE
表达式中可以使用聚合函数呢?这是因为聚合函数是函数,而 SELECT
子句中的最终结果是单个数值,所以这个数值可以成为外部 CASE
表达式的输入。
本节小结
本节,我们一起领略了 CASE
表达式的灵活性和强大的表达能力。CASE
表达式是支撑SQL声明式编程的根基之一,也是灵活运用SQL时不可或缺的基础技能,请一定要学会它。即便在本书的后半部分,也几乎没有哪一节是不用 CASE
表达式的,这也是笔者把它放在本书开头来介绍的原因。
面向过程语言中也有“CASE
语句”这样的条件分支,因此 CASE
表达式经常会与其混淆,被叫作 CASE
“语句”。这是错误的。准确来说,它并不是语句,而是和 1+1
或者 a/b
一样,属于表达式的范畴。结束符 END
确实看起来像是在标记一连串处理过程的终结,所以初次接触 CASE
表达式的人容易对这一点感到困惑。“表达式”和“语句”的名称区别恰恰反映了二者在功能处理方面的差异。
作为表达式,CASE
表达式在执行时会被判定为一个固定值,因此它可以写在聚合函数内部;也正因为它是表达式,所以还可以写在 SELECT
子句、GROUP BY
子句、WHERE
子句、ORDER BY
子句里。简单点说,在能写列名和常量的地方,通常都可以写 CASE
表达式。从这个意义上来说,与 CASE
表达式最接近的不是面向过程语言里的 CASE
语句,而是 Lisp 和 Scheme 等函数式语言里的 case
和 cond
这样的条件表达式。关于SQL和函数式语言的对比,第 2 章会进行介绍。
CASE
表达式可以写在任何地方
-SELECT
子句
-WHERE
子句
-GROUP BY
子句
-HAVING
子句
-ORDER BY
子句
-PARTITION BY
子句
-在 CHECK
约束中
-函数的参数
-谓词的参数
-在其他表达式中(也包含 CASE
表达式本身)
我们来回顾一下本节要点。
01.在 GROUP BY
子句里使用 CASE
表达式,可以灵活地选择聚合单位的编号或等级。这一点在进行非定制化统计时能发挥巨大的威力。
02.在聚合函数中使用 CASE
表达式,可以轻松地将行结构的数据转换成列结构的数据。
03.聚合函数也可以嵌套进 CASE
表达式里,因此可以在不使用 HAVING
子句的情况下汇总查询。
04.相比依赖于具体数据库的函数,CASE
表达式拥有更强大的表达能力和更好的可移植性。
05.正因为 CASE
表达式是一种表达式而不是语句,才有了这诸多的优点。
06.使用 CASE
表达式,可以将多条SQL语句汇总为一条,可读性和性能都能得到提升。
如果想了解更多关于 CASE
表达式的内容,请参考下页的文献资料。
● 塞尔科 .SQL权威指南(第 4 版)[M]. 王渊,钟鸣,朱巍,译 . 北京:人民邮电出版社,2013. 请参考 15.3.5 节“在 UPDATE 中使用 CASE 表达式”和 18.1 节“CASE 表达式”等。从 CASE 表达式的详细用法到具体事例,这两节都有细致的介绍。
● 塞尔科 .SQL解惑(第 2 版)[M]. 米全喜,译 . 北京:人民邮电出版社,2008. 关于在 CASE 表达式中嵌入聚合函数,请参考“谜题 13 教师”“谜题 36 双重职务”“谜题 43 毕业”。另外,“谜题 44 成对的款式”运用了在 UPDATE 里进行条件分支的技巧,“谜题 45 辣味香肠比萨饼”用 CASE 表达式巧妙地将行结构的数据转换成了列结构的数据。
练习题
● 练习题 1-1-1:多列数据的最大值
用SQL从多行数据里选出最大值或最小值很容易——通过 GROUP BY
子句对合适的列进行聚合操作,并使用 MAX
或 MIN
聚合函数就可以求出。那么,从多列数据里选出最大值该怎么做呢?
样本数据如下表所示。
先思考一下从表里选出 x 和 y 二者中较大的值的情况。此时,求得的结果应该如下所示。
■ 执行结果
key greatest
----- ---------
A 2
B 5
C 7
D 3
Oracle、PostgreSQL和 MySQL数据库直接提供了可以实现这个需求的 GREATEST
函数,但是这里请不要用这些函数,而是用标准SQL的方法来实现。
求出 x 和 y 二者中较大的值后,再试着将列数扩展到 3 列以上吧。这次求的是 x、y 和 z 三者中的最大值,因此结果应该如下所示。
■ 执行结果
key greatest
----- ---------
A 3
B 5
C 7
D 8
● 练习题 1-1-2:转换行列——在表头里加入汇总和再揭8
8 “再揭”一词常用于表示再次使用前述内容,这里指的是在表格中以合计值的形式再次体现德岛、香川、爱媛和高知这 4 个县的数据。——译者注
使用正文中的表 PopTbl2 作为样本数据,练习一下把行结构的数据转换为列结构的数据吧。
这次请生成下面这样的表头里带有汇总和再揭的二维表。
■ 执行结果
性别 全国 德岛 香川 爱媛 高知 四国(再揭)
---- ------ ----- ------ ------ ------- ----------
1 855 60 100 100 100 360
2 845 40 100 50 100 290
“全国”列里是表 PopTbl2 中所有都道府县(限于篇幅,还有一些都道府县未列出)人口的合计值。另外,最右边的“四国(再揭)”列里是四国地区 4 个县的合计值。
● 练习题 1-1-3:用 ORDER BY 生成“排序”列
最后这个练习题用到的是比较小众的技巧,但有时又必须使用它,所以我们也来看一下。
对练习题 1-1-1 里用过的表 Greatests 正常执行 SELECT key FROM Greatests ORDER BY key;
这个查询后,结果通常会按照 key
列的值的字母表顺序显示出来。
那么,请思考一个查询语句,使得结果按照 B-A-D-C
这样的指定顺序进行排列。这个顺序并没有什么具体的意义,大家也可以在实现完上述需求后,试着实现让结果按照其他顺序排列。