oracle分析函数.doc_咨信网zixin.com.cn

资源描述

Oracle开发专题之：分析函数(OVER) 1 Oracle开发专题之：分析函数2(Rank, Dense_rank, row_number) 6 Oracle开发专题之：分析函数3(Top/Bottom N、First/Last、NTile) 10 Oracle开发专题之：窗口函数 14 Oracle开发专题之：报表函数 20 Oracle开发专题之：分析函数总结 22 Oracle开发专题之：26个分析函数 24 PLSQL开发笔记和小结 28 分析函数简述 60 说明: 1)Oracle开发专题99%收集自: 2) PLSQL开发笔记和小结收集自 3)分析函数简述收集自昆明小虫收集,并补充了一点点1% Oracle开发专题之：分析函数(OVER) 目录： =============================================== 1.Oracle分析函数简介 2. Oracle分析函数简单实例 3.分析函数OVER解析一、Oracle分析函数简介：在日常的生产环境中，我们接触得比较多的是OLTP系统(即Online Transaction Process)，这些系统的特点是具备实时要求，或者至少说对响应的时间多长有一定的要求；其次这些系统的业务逻辑一般比较复杂，可能需要经过多次的运算。比如我们经常接触到的电子商城。在这些系统之外，还有一种称之为OLAP的系统(即Online Aanalyse Process)，这些系统一般用于系统决策使用。通常和数据仓库、数据分析、数据挖掘等概念联系在一起。这些系统的特点是数据量大，对实时响应的要求不高或者根本不关注这方面的要求，以查询、统计操作为主。我们来看看下面的几个典型例子： ①查找上一年度各个销售区域排名前10的员工 ②按区域查找上一年度订单总额占区域订单总额20%以上的客户 ③查找上一年度销售最差的部门所在的区域 ④查找上一年度销售最好和最差的产品我们看看上面的几个例子就可以感觉到这几个查询和我们日常遇到的查询有些不同，具体有： ①需要对同样的数据进行不同级别的聚合操作 ②需要在表内将多条数据和同一条数据进行多次的比较 ③需要在排序完的结果集上进行额外的过滤操作分析函数语法: FUNCTION_NAME(<argument>,<argument>...) OVER (<Partition-Clause><Order-by-Clause><Windowing Clause>) 例: sum(sal) over (partition by deptno order by ename) new_alias sum就是函数名 (sal)是分析函数的参数,每个函数有0~3个参数,参数可以是表达式,例如:sum(sal+comm) over 是一个关键字,用于标识分析函数,否则查询分析器不能区别sum()聚集函数和sum()分析函数 partition by deptno 是可选的分区子句,如果不存在任何分区子句,则全部的结果集可看作一个单一的大区 order by ename 是可选的order by 子句,有些函数需要它,有些则不需要.依靠已排序数据的那些函数,如:用于访问结果集中前一行和后一行的LAG和LEAD,必须使用,其它函数,如AVG,则不需要.在使用了任何排序的开窗函数时,该子句是强制性的,它指定了在计算分析函数时一组内的数据是如何排序的. 1)FUNCTION子句 ORACLE提供了26个分析函数,按功能分5类分析函数分类等级(ranking)函数:用于寻找前N种查询开窗(windowing)函数:用于计算不同的累计,如SUM,COUNT,AVG,MIN,MAX等,作用于数据的一个窗口上例: sum(t.sal) over (order by t.deptno,t.ename) running_total, sum(t.sal) over (partition by t.deptno order by t.ename) department_total 制表(reporting)函数:与开窗函数同名,作用于一个分区或一组上的所有列例: sum(t.sal) over () running_total2, sum(t.sal) over (partition by t.deptno ) department_total2 制表函数与开窗函数的关键不同之处在于OVER语句上缺少一个ORDER BY子句! LAG,LEAD函数:这类函数允许在结果集中向前或向后检索值,为了避免数据的自连接,它们是非常用用的. VAR_POP,VAR_SAMP,STDEV_POPE及线性的衰减函数:计算任何未排序分区的统计值 2)PARTITION子句按照表达式分区(就是分组),如果省略了分区子句,则全部的结果集被看作是一个单一的组 3)ORDER BY子句分析函数中ORDER BY的存在将添加一个默认的开窗子句,这意味着计算中所使用的行的集合是当前分区中当前行和前面所有行,没有ORDER BY时,默认的窗口是全部的分区在Order by 子句后可以添加nulls last,如:order by comm desc nulls last 表示排序时忽略comm列为空的行. 4)WINDOWING子句用于定义分析函数将在其上操作的行的集合 Windowing子句给出了一个定义变化或固定的数据窗口的方法,分析函数将对这些数据进行操作默认的窗口是一个固定的窗口,仅仅在一组的第一行开始,一直继续到当前行,要使用窗口,必须使用ORDER BY子句根据2个标准可以建立窗口:数据值的范围(RANGES)或与当前行的行偏移量. 5)Rang窗口 Range 5 preceding:将产生一个滑动窗口,他在组中拥有当前行以前5行的集合 ANGE窗口仅对NUMBERS和DATES起作用,因为不可能从VARCHAR2中增加或减去N个单元另外的限制是ORDER BY中只能有一列,因而范围实际上是一维的,不能在N维空间中例: avg(t.sal) over(order by t.hiredate asc range 100 preceding) 统计前100天平均工资 6)Row窗口利用ROW分区,就没有RANGE分区那样的限制了,数据可以是任何类型,且ORDER BY 可以包括很多列 7)Specifying窗口 UNBOUNDED PRECEDING:这个窗口从当前分区的每一行开始,并结束于正在处理的当前行 CURRENT ROW:该窗口从当前行开始(并结束) Numeric Expression PRECEDING:对该窗口从当前行之前的数字表达式(Numeric Expression)的行开始,对RANGE来说,从从行序值小于数字表达式的当前行的值开始. Numeric Expression FOLLOWING:该窗口在当前行Numeric Expression行之后的行终止(或开始),且从行序值大于当前行Numeric Expression行的范围开始(或终止) range between 100 preceding and 100 following:当前行100前,当前后100后注意:分析函数允许你对一个数据集进排序和筛选,这是SQL从来不能实现的.除了最后的Order by子句之外,分析函数是在查询中执行的最后的操作集,这样的话,就不能直接在谓词中使用分析函数,即不能在上面使用where或having子句!!! 二、Oracle分析函数简单实例：下面我们通过一个实际的例子：按区域查找上一年度订单总额占区域订单总额20%以上的客户，来看看分析函数的应用。【1】测试环境： SQL> desc orders_tmp; Name Null? Type ----------------------- -------- ---------------- CUST_NBR NOT NULL NUMBER(5) REGION_ID NOT NULL NUMBER(5) SALESPERSON_ID NOT NULL NUMBER(5) YEAR NOT NULL NUMBER(4) MONTH NOT NULL NUMBER(2) TOT_ORDERS NOT NULL NUMBER(7) TOT_SALES NOT NULL NUMBER(11,2) 【2】测试数据： SQL> select * from orders_tmp; CUST_NBR REGION_ID SALESPERSON_ID YEAR MONTH TOT_ORDERS TOT_SALES ---------- ---------- -------------- ---------- ---------- ---------- ---------- 11 7 11 2001 7 2 12204 4 5 4 2001 10 2 37802 7 6 7 2001 2 3 3750 10 6 8 2001 1 2 21691 10 6 7 2001 2 3 42624 15 7 12 2000 5 6 24 12 7 9 2000 6 2 50658 1 5 2 2000 3 2 44494 1 5 1 2000 9 2 74864 2 5 4 2000 3 2 35060 2 5 4 2000 4 4 6454 2 5 1 2000 10 4 35580 4 5 4 2000 12 2 39190 13 rows selected. 【3】测试语句： SQL> select o.cust_nbr customer, 2 o.region_id region, 3 sum(o.tot_sales) cust_sales, 4 sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales 5 from orders_tmp o 6 where o.year = 2001 7 group by o.region_id, o.cust_nbr; CUSTOMER REGION CUST_SALES REGION_SALES ---------- ---------- ---------- ------------ 4 5 37802 37802 7 6 3750 68065 10 6 64315 68065 11 7 12204 12204 三、分析函数OVER解析：请注意上面的绿色高亮部分，group by的意图很明显：将数据按区域ID，客户进行分组，那么Over这一部分有什么用呢？假如我们只需要统计每个区域每个客户的订单总额，那么我们只需要group by o.region_id,o.cust_nbr就够了。但我们还想在每一行显示该客户所在区域的订单总额，这一点和前面的不同：需要在前面分组的基础上按区域累加。很显然group by和sum是无法做到这一点的(因为聚集操作的级别不一样，前者是对一个客户，后者是对一批客户)。这就是over函数的作用了！它的作用是告诉SQL引擎：按区域对数据进行分区，然后累积每个区域每个客户的订单总额(sum(sum(o.tot_sales)))。现在我们已经知道2001年度每个客户及其对应区域的订单总额，那么下面就是筛选那些个人订单总额占到区域订单总额20%以上的大客户了 SQL> select * 2 from (select o.cust_nbr customer, 3 o.region_id region, 4 sum(o.tot_sales) cust_sales, 5 sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales 6 from orders_tmp o 7 where o.year = 2001 8 group by o.region_id, o.cust_nbr) all_sales 9 where all_sales.cust_sales > all_sales.region_sales * 0.2; CUSTOMER REGION CUST_SALES REGION_SALES ---------- ---------- ---------- ------------ 4 5 37802 37802 10 6 64315 68065 11 7 12204 12204 SQL> 现在我们已经知道这些大客户是谁了！哦，不过这还不够，如果我们想要知道每个大客户所占的订单比例呢？看看下面的SQL语句，只需要一个简单的Round函数就搞定了。 SQL> select all_sales.*, 2 100 * round(cust_sales / region_sales, 2) || '%' Percent 3 from (select o.cust_nbr customer, 4 o.region_id region, 5 sum(o.tot_sales) cust_sales, 6 sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales 7 from orders_tmp o 8 where o.year = 2001 9 group by o.region_id, o.cust_nbr) all_sales 10 where all_sales.cust_sales > all_sales.region_sales * 0.2; CUSTOMER REGION CUST_SALES REGION_SALES PERCENT ---------- ---------- ---------- ------------ ---------------------------------------- 4 5 37802 37802 100% 10 6 64315 68065 94% 11 7 12204 12204 100% SQL> 总结： ①Over函数指明在那些字段上做分析，其内跟Partition by表示对数据进行分组。注意Partition by可以有多个字段。 ②Over函数可以和其它聚集函数、分析函数搭配，起到不同的作用。例如这里的SUM，还有诸如Rank，Dense_rank等。 Oracle开发专题之：分析函数2(Rank, Dense_rank, row_number) 目录 =============================================== 1.使用rownum为记录排名 2.使用分析函数来为记录排名 3.使用分析函数为记录进行分组排名一、使用rownum为记录排名：在前面一篇《Oracle开发专题之：分析函数》，我们认识了分析函数的基本应用，现在我们再来考虑下面几个问题： ①对所有客户按订单总额进行排名 ②按区域和客户订单总额进行排名 ③找出订单总额排名前13位的客户 ④找出订单总额最高、最低的客户 ⑤找出订单总额排名前25%的客户按照前面第一篇文章的思路，我们只能做到对各个分组的数据进行统计，如果需要排名的话那么只需要简单地加上rownum不就行了吗？事实情况是否如此想象般简单，我们来实践一下。【1】测试环境： SQL> desc user_order; Name Null? Type ----------------------------------------- -------- ---------------------------- REGION_ID NUMBER(2) CUSTOMER_ID NUMBER(2) CUSTOMER_SALES NUMBER 【2】测试数据： SQL> select * from user_order order by customer_sales; REGION_ID CUSTOMER_ID CUSTOMER_SALES ---------- ----------- -------------- 5 1 151162 10 29 903383 6 7 971585 10 28 986964 9 21 1020541 9 22 1036146 8 16 1068467 6 8 1141638 5 3 1161286 5 5 1169926 8 19 1174421 7 12 1182275 7 11 1190421 6 10 1196748 6 9 1208959 10 30 1216858 5 2 1224992 9 24 1224992 9 23 1224992 8 18 1253840 7 15 1255591 7 13 1310434 10 27 1322747 8 20 1413722 6 6 1788836 10 26 1808949 5 4 1878275 7 14 1929774 8 17 1944281 9 25 2232703 30 rows selected. 注意这里有3条记录的订单总额是一样的。假如我们现在需要筛选排名前12位的客户，如果使用rownum会有什么样的后果呢？ SQL> select rownum, t.* 2 from (select * 3 from user_order 4 order by customer_sales desc) t 5 where rownum <= 12 6 order by customer_sales desc; ROWNUM REGION_ID CUSTOMER_ID CUSTOMER_SALES ---------- ---------- ----------- -------------- 1 9 25 2232703 2 8 17 1944281 3 7 14 1929774 4 5 4 1878275 5 10 26 1808949 6 6 6 1788836 7 8 20 1413722 8 10 27 1322747 9 7 13 1310434 10 7 15 1255591 11 8 18 1253840 12 5 2 1224992 12 rows selected. 很明显假如只是简单地按rownum进行排序的话，我们漏掉了另外两条记录(参考上面的结果)。二、使用分析函数来为记录排名：针对上面的情况，Oracle从8i开始就提供了3个分析函数：rand，dense_rank，row_number来解决诸如此类的问题，下面我们来看看这3个分析函数的作用以及彼此之间的区别： Rank，Dense_rank，Row_number函数为每条记录产生一个从1开始至N的自然数，N的值可能小于等于记录的总数。这3个函数的唯一区别在于当碰到相同数据时的排名策略。 ①ROW_NUMBER： Row_number函数返回一个唯一的值，当碰到相同数据时，排名按照记录集中记录的顺序依次递增。 ②DENSE_RANK： Dense_rank函数返回一个唯一的值，除非当碰到相同数据时，此时所有相同数据的排名都是一样的。 ③RANK： Rank函数返回一个唯一的值，除非遇到相同的数据时，此时所有相同数据的排名是一样的，同时会在最后一条相同记录和下一条不同记录的排名之间空出排名。这样的介绍有点难懂，我们还是通过实例来说明吧，下面的例子演示了3个不同函数在遇到相同数据时不同排名策略： SQL> select region_id, customer_id, sum(customer_sales) total, 2 rank() over(order by sum(customer_sales) desc) rank, 3 dense_rank() over(order by sum(customer_sales) desc) dense_rank, 4 row_number() over(order by sum(customer_sales) desc) row_number 5 from user_order 6 group by region_id, customer_id; REGION_ID CUSTOMER_ID TOTAL RANK DENSE_RANK ROW_NUMBER ---------- ----------- ---------- ---------- ---------- ---------- 8 18 1253840 11 11 11 5 2 1224992 12 12 12 9 23 1224992 12 12 13 9 24 1224992 12 12 14 10 30 1216858 15 13 15 30 rows selected. 请注意上面的绿色高亮部分，这里生动的演示了3种不同的排名策略： ①对于第一条相同的记录，3种函数的排名都是一样的：12 ②当出现第二条相同的记录时，Rank和Dense_rank依然给出同样的排名12；而row_number则顺延递增为13，依次类推至第三条相同的记录 ③当排名进行到下一条不同的记录时，可以看到Rank函数在12和15之间空出了13,14的排名，因为这2个排名实际上已经被第二、三条相同的记录占了。而Dense_rank则顺序递增。row_number函数也是顺序递增比较上面3种不同的策略，我们在选择的时候就要根据客户的需求来定夺了： ①假如客户就只需要指定数目的记录，那么采用row_number是最简单的，但有漏掉的记录的危险 ②假如客户需要所有达到排名水平的记录，那么采用rank或dense_rank是不错的选择。至于选择哪一种则看客户的需要，选择dense_rank或得到最大的记录三、使用分析函数为记录进行分组排名：上面的排名是按订单总额来进行排列的，现在跟进一步：假如是为各个地区的订单总额进行排名呢？这意味着又多了一次分组操作：对记录按地区分组然后进行排名。幸亏Oracle也提供了这样的支持，我们所要做的仅仅是在over函数中order by的前面增加一个分组子句：partition by region_id。 SQL> select region_id, customer_id, sum(customer_sales) total, 2 rank() over(partition by region_id order by sum(customer_sales) desc) rank, 3 dense_rank() over(partition by region_id order by sum(customer_sales) desc) dense_rank, 4 row_number() over(partition by region_id order by sum(customer_sales) desc) row_number 5 from user_order 6 group by region_id, customer_id; REGION_ID CUSTOMER_ID TOTAL RANK DENSE_RANK ROW_NUMBER ---------- ----------- ---------- ---------- ---------- ---------- 5 4 1878275 1 1 1 5 2 1224992 2 2 2 5 5 1169926 3 3 3 6 6 1788836 1 1 1 6 9 1208959 2 2 2 6 10 1196748 3 3 3 30 rows selected. 现在我们看到的排名将是基于各个地区的，而非所有区域的了！Partition by 子句在排列函数中的作用是将一个结果集划分成几个部分，这样排列函数就能够应用于这各个子集。前面我们提到的5个问题已经解决了2个了(第1,2)，剩下的3个问题(Top/Bottom N，First/Last, NTile)会在下一篇讲解。 Oracle开发专题之：分析函数3(Top/Bottom N、First/Last、NTile) 目录 ======

展开阅读全文