窗口函数

例子

1 北京 海淀 10

2 北京 朝阳 20

3 上海 黄埔 30

4 上海 长宁 10

CREATE TABLE sales(
id INT PRIMARY KEY AUTO_INCREMENT,
city VARCHAR(15),
county VARCHAR(15),
sales_value DECIMAL
);
INSERT INTO sales(city,county,sales_value) 
VALUES
('北京','海淀',10.00),
('北京','朝阳',20.00),
('上海','黄埔',30.00),
('上海','长宁',10.00);
  1. 现在计算这个网站在每个城市的销售总额、在全国的销售总额、每个区的销售额占所在城市销售 额中的比率,以及占总销售额中的比率。

SELECT city AS 城市,county AS 区,sales_value AS 区销售额,
SUM(sales_value) OVER(PARTITION BY city) AS 市销售额, -- 计算市销售额
sales_value/SUM(sales_value) OVER(PARTITION BY city) AS 市比率,
SUM(sales_value) OVER() AS 总销售额, -- 计算总销售额
sales_value/SUM(sales_value) OVER() AS 总比率
FROM sales
ORDER BY city,county;

分类

数据表定义

CREATE TABLE goods(
id INT PRIMARY KEY AUTO_INCREMENT,
category_id INT,
category VARCHAR(15),
NAME VARCHAR(30),
price DECIMAL(10,2),
stock INT,
upper_time DATETIME
);
INSERT INTO goods(category_id,category,NAME,price,stock,upper_time)
VALUES
(1, '女装/女士精品', 'T恤', 39.90, 1000, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '连衣裙', 79.90, 2500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '卫衣', 89.90, 1500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '牛仔裤', 89.90, 3500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '百褶裙', 29.90, 500, '2020-11-10 00:00:00'),
(1, '女装/女士精品', '呢绒外套', 399.90, 1200, '2020-11-10 00:00:00'),
(2, '户外运动', '自行车', 399.90, 1000, '2020-11-10 00:00:00'),
(2, '户外运动', '山地自行车', 1399.90, 2500, '2020-11-10 00:00:00'),
(2, '户外运动', '登山杖', 59.90, 1500, '2020-11-10 00:00:00'),
(2, '户外运动', '骑行装备', 399.90, 3500, '2020-11-10 00:00:00'),
(2, '户外运动', '运动外套', 799.90, 500, '2020-11-10 00:00:00'),
(2, '户外运动', '滑板', 499.90, 1200, '2020-11-10 00:00:00');

序号函数

ROW_NUMBER()函数

ROW_NUMBER() 函数能够对数据中的序号进行顺序显示。

Rank() 函数

使用 RANK() 函数能够对序号进行并列排序,并且会跳过重复的序号,比如序号为 1、1、3。

举例:使用 RANK() 函数获取 goods 数据表中各类别的价格从高到低排序的各商品信息。

可以看到,使用RANK()函数得出的序号为1、2、2、4,相同价格的商品序号相同,后面的商品序号是不 连续的,跳过了重复的序号。

DENSE_RANK()函数

DENSE_RANK() 函数对序号进行并列排序,并且不会跳过重复的序号,比如序号为 1、1、2。

举例:使用 DENSE_RANK() 函数获取 goods 数据表中各类别的价格从高到低排序的各商品信息。

使用 DENSE_RANK() 函数获取 goods 数据表中类别为 “女装 / 女士精品” 的价格最高的 4 款商品信息。

SELECT
	* 
FROM
	(
        SELECT
        DENSE_RANK() OVER ( PARTITION BY category_id ORDER BY price DESC ) AS row_num,
        id,
        category_id,
        category,
        `name`,
        price,
        stock 
        FROM
        goods 
    ) t 
WHERE
	category_id = 1 
	AND row_num <= 3

分布函数

PERCENT_RANK() 函数

PERCENT_RANK() 函数是等级值百分比函数。按照如下方式进行计算。

(rank - 1) / (rows - 1)

其中,rank 的值为使用 RANK() 函数产生的序号,rows 的值为当前窗口的总记录数。

计算 goods 数据表中名称为“女装/女士精品”的类别下的商品的PERCENT_RANK值。

SELECT RANK() OVER w as r,
PERCENT_RANK() OVER w as pr,
id, category_id, category, `name`, price, stock
FROM goods
WHERE category_id = 1 WINDOW w as (
	PARTITION BY category_id ORDER BY price DESC
);

CUME_DIST() 函数

CUME_DIST() 函数主要用于查询小于或等于某个值的比例。

查询 goods 数据表中小于或等于当前价格的比例。

SELECT CUME_DIST() OVER(PARTITION BY category_id ORDER BY price ASC)
AS cd, id, category, `name`, price
FROM goods;

前后函数

LAG(expr,n)函数

AG(expr,n) 函数返回当前行的前 n 行的 expr 的值

SELECT id, category, NAME, price, pre_price, price - pre_price AS diff_price
FROM (
SELECT id, category, NAME, price,LAG(price,1) OVER w AS pre_price
FROM goods
WINDOW w AS (PARTITION BY category_id ORDER BY price)) t;

LEAD(expr,n) 函数

LEAD(expr,n) 函数返回当前行的后 n 行的 expr 的值。

首尾函数

FIRST_VALUE(expr) 函数

FIRST_VALUE(expr) 函数返回第一个 expr 的值。

LAST_VALUE(expr) 函数

LAST_VALUE(expr) 函数返回最后一个 expr 的值。

其他函数

NTH_VALUE(expr,n)

NTH_VALUE(expr,n) 函数返回第 n 个 expr 的值。

查询 goods 数据表中排名第 2 和第 3 的价格信息。

SELECT id, category, NAME, price,NTH_VALUE(price,2) OVER w AS second_price,
NTH_VALUE(price,3) OVER w AS third_price
FROM goods WINDOW w AS (PARTITION BY category_id ORDER BY price);

NTILE(n) 函数

NTILE(n) 函数将分区中的有序数据分为 n 个桶,记录桶编号。

将 goods 表中的商品按照价格和类别分为 3 组。

SELECT NTILE(3) OVER w as nt, id, category, `name`, price
FROM goods WINDOW w as (PARTITION BY category_id ORDER BY price)
ORDER BY nt;

总结

窗口函数的特点是可以分组,而且可以在分组内排序。另外,窗口函数不会因为分组而减少原表中的行数,这对我们在原表数据的基础上进行统计和排序非常有用。