踩坑CBO,解决那些坑爹的SQL优化问题

2021/4/10 20:37:57

本文主要是介绍踩坑CBO,解决那些坑爹的SQL优化问题,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

踩坑CBO,解决那些坑爹的SQL优化问题


本文根据DBAplus社群第93期线上分享整理而成


讲师介绍   640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

丁俊

新炬网络首席性能优化专家

SQL审核产品经理


  • DBAplus社群联合发起人,《剑破冰山-Oracle开发艺术》副主编。

  • Oracle ACEA,ITPUB开发版资深版主,十年电信行业从业经验。


本次分享大纲:

  1. CBO优化器存在哪些坑

  2. CBO优化器坑的解决之道

  3. 加强SQL审核,将性能问题扼杀于襁褓之中

  4. 分享现场FAQ


CBO( Cost Based Optimizer)优化器是目前Oracle广泛使用的优化器,其使用统计信息、查询转换等计算各种可能的访问路径成本,并生成多种备选执行计划,最终Oracle会选择成本最低的作为最优执行计划。与“远古”时代的RBO(Rule Based Optimizer)相比,显然更加符合数据库实际情况,能够适应更多的应用场景。但是,由于其自身非常复杂,CBO并未解决的实际问题以及存在的BUG非常多,在日常优化过程中,你可能会遇到一些,不管怎么收集统计信息,都无法走正确执行计划的情形,这时候,你可能踩坑CBO了。


本次分享,主要以日常常见优化器问题作为引子,一起探讨CBO的那些坑的解决之道。


一、CBO优化器存在哪些坑


先来看一下,CBO优化器的组件:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


从上图可以看出,一条SQL进入ORACLE中,实际上经过解析会将各部分进行分离,每个分离的部分独立成为一个查询块(query blocks),比如子查询会成为一个查询块,外部查询又是一个查询块,那么ORACLE优化器要做的工作就是各查询块内部走什么样的访问路径更好(走索引、全表、分区?),其次就是各查询块之间应该走什么样的JOIN方式以及JOIN顺序,最终计算出那种执行计划更好。


优化器的核心就是查询转换器、成本估算器以及执行计划生成器。


Transformer(查询转换器):


从图上可以看出,优化器的第一核心装置就是查询转换器,查询转换器的主要作用就是研究各种查询块之间的关系,并从语法上甚至语义上给予SQL等价重写,重写后的SQL更容易被核心装置成本估算器和执行计划生成器处理,从而利用统计信息生成最优执行计划。


查询转换器在优化器中有两种方式:启发式查询转换(基于规则)和基于COST的查询转换。启发式查询转换的一般是比较简单的语句,基于成本的一般比较复杂,也就是说,符合基于规则的ORACLE不管什么情况下都会进行查询转换,不符合的ORACLE可能考虑基于成本的查询转换。启发式查询转换历史悠久,问题较少,一般查询转换过的效率比不经过查询转换的要高,而基于成本的查询转换,因其与CBO优化器紧密关联,在10G引入,内部非常复杂,所以BUG也比较多,在日常优化过程中,各种疑难SQL,往往就出现在查询转换失败中,因为查询转换一旦失败,Oracle就不能将原始SQL转换成结构更良好的SQL(更易于被优化器处理),显然可选择的执行路径就要少很多,比如子查询不能UNNEST,那么,往往就是灾难的开始。其实,查询转换中Oracle做的最多的就是将各种查询转换成JOIN方式,这样就可以利用各种高效的JOIN方法了,比如HASH JOIN。


查询转换共有30种以上的方式,下面列出一些常见启发式和基于COST的查询转换。


启发式查询转换(一系列的RULE):


很多启发式查询转换在RBO情况下就已经存在。常见的有:


Simple View merge (简单视图合并)、SU (Subquery unnest 子查询展开)、OJPPD (old style Join predicate push-down 旧的连接谓词推入方式)、FPD (Filter push-down 过滤谓词推入)、OR Expansion (OR扩展)、OBYE(Order by Elimination 排序消除)、JE (Join Elimination 连接消除或连接中的表消除)、Transitive Predicate (谓词传递)等技术。


基于COST的查询转换(通过COST计算):


针对复杂的语句进行基于COST的查询转换,常见的有:


CVM (Complex view Merging 复杂视图合并)、JPPD (Join predicate push-down 关联谓词推入)、DP (Distinct  placement)、GBP(Group by placement)等技术。


通过一系列查询转换技术,将原始SQL转为优化器更容易理解和分析的SQL,从而能够使用更多的谓词、连接条件等,达到获得最佳计划的目的。查询转换的过程,可以通过10053获取详细信息。查询转换是否能够成功和版本、优化器限制、隐含参数、补丁等有关。


随便在MOS上搜索一下查询转换,就会出现一堆BUG:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


竟然还是Wrong result(错误的结果),遇到这种BUG不是性能问题了,而是严重的数据正确性问题,当然,在MOS里随便可以找到一堆这样的BUG,但是,在实际应用中,我相信,你可能碰到的较少,如果有一天,你看到一条SQL查询的结果可能不对,那你也得大胆质疑,对于Oracle这种庞然大物来说,遇到问题,质疑是非常正确的思考方式,这种Wrong result问题,在数据库大版本升级过程中可能见到,主要有两类问题:


  1. 原来结果正确,现在结果错误。--遇到新版本BUG

  2. 现在结果正确,原来结果错误。--新版本修复了老版本BUG


第一种情况很正常,第二种情况也可能存在,我就看到过一客户质疑升级后的结果不正确,结果经过查证之后,竟然是老版本执行计划就是错的,新版本执行计划是正确的,也就是错误了很多年,都没有发现,结果升级后是正确的,却以为是错了。


遇到错误结果,如果不是非核心功能,真的可能被深埋很多年。


Estimator(估算器):


很显然,估算器会利用统计信息(表、索引、列、分区等)来估算对应执行计划操作中的选择性,从而计算出对应操作的cardinality,生成对应操作的COST,并最终计算整个计划的COST。对于估算器来说,很重要的就是其估算模型的准确性以及统计信息存储的准确性,估算的模型越科学,统计信息能反应实际的数据分布情况,能够覆盖更多的特殊数据,那么生成的COST则更加准确。


然而,这是不可能的情况,估算器模型以及统计信息中存在诸多问题,比如针对字符串计算选择性,ORACLE内部会将字符串转换为RAW类型,在将RAW类型转换成数字,然后左起ROUND 15位,这样会出现可能字符串相差很大的,由于转换成数字后超过15位,那么内部转换后可能结果相近,最终导致计算的选择性不准确。


Plan Generator(计划生成器):


计划生成器也就是分析各种访问路径、JOIN方法、JOIN顺序,从而生产不同执行计划。那么如果这个部分出现问题,也就是对应的部分可能算法不够完善或者存在限制。比如JOIN的表很多,那么各种访问顺序的选择成几何级数增长,ORACLE内部有限制值,也就是事实不可能全部计算一遍。


比如HASH JOIN算法是普遍做大数据处理的首选算法,但是由于HASH JOIN天生存在一种限制:HASH碰撞,一旦遇到HASH碰撞,必然导致效率大减。


CBO优化器存在很多限制,详细可以参考MOS:Limitations of the Oracle Cost Based Optimizer (文档 ID 212809.1)。


二、CBO优化器坑的解决之道


本部分主要分享下日常常见优化器问题案例,有的问题不仅限于CBO优化器,由于CBO是目前广泛使用的优化器,因此,一律纳入CBO问题。


1   FILTER性能杀手问题  


FILTER操作是执行计划中常见的操作,这种操作有两种情况:


  1. 只有一个子节点,那么就是简单过滤操作。

  2. 有多个子节点,那么就是类似NESTED LOOPS操作,只不过与NESTED LOOPS差别在于,FILTER内部会构建HASH表,对于重复匹配的,不会再次进行循环查找,而是利用已有结果,提高效率。但是一旦重复匹配的较少,循环次数多,那么,FILTER操作将是严重影响性能的操作,可能你的SQL几天都执行不完了。


下面看看各种情况下的FILTER操作:


单子节点:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


很显然ID=1的FILTER操作只有一个子节点ID=2,这种情况下的FILTER操作也就是单纯的过滤操作。


多子节点:


FILTER多子节点往往就是性能杀手,主要出现在子查询无法UNNEST查询转换,经常遇到的情况就是NOT IN子查询、子查询和OR连用、复杂子查询等情况。


(1)NOT IN子查询中的FILTER  


先来看下NOT IN情况:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


针对上面的NOT IN子查询,如果子查询object_id有NULL存在,则整个查询都不会有结果,在11g之前,如果主表和子表的object_id未同时有NOT NULL约束,或都未加IS NOT NULL限制,则ORACLE会走FILTER。11g有新的ANTI NA(NULL AWARE)优化,可以对子查询进行UNNEST,从而提高效率。


对于未UNNEST的子查询,走了FILTER,有至少2个子节点,执行计划还有个特点就是Predicate谓词部分有:B1这种类似绑定变量的东西,内部操作走类似NESTED LOOPS操作。


11g有NULL AWARE专门针对NOT IN问题进行优化,如下所示:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


通过NULL AWARE操作,对无法UNNEST的NOT IN子查询可以转换成JOIN形式,这样效率就大幅度提升了。如果在11g之前,遇到NOT IN无法UNNEST,那该怎么做呢?


  • 将NOT IN部分的匹配条件,针对本例就是ANTI_TEST1.object_id和ANTI_TEST2.object_id均设为NOT NULL约束。

  • 不改NOT NULL约束,则需要两个object_id均增加IS NOT NULL条件。

  • 改为NOT EXISTS。

  • 改为ANTI JOIN形式。


以上四种方式,大部分情况下均能达到让优化器走JOIN的目的。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


以上写法执行计划都是一样的,如下所示:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


说白了,unnest subquery就是转换成JOIN形式,如果能转换成JOIN就可以利用高效JOIN特性来提高操作效率,不能转换就走FILTER,可能影响效率,11g的NULL AWARE从执行计划里可以看出,还是有点区别,没有走INDEX FULL SCAN扫描,因为没有条件让ORACLE知道object_id可能存在NULL,所以也就走不了索引了。


OK,现在来说一个数据库升级过程中碰到的案例,背景是11.2.0.2升级到11.2.0.4后下面SQL出现性能问题:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


执行计划如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


这里的ID=4和ID=8两个FILTER均有2个子节点,很显然是NOT IN子查询无法UNNEST导致的。上面说了在11g ORACLE CBO可以将NOT IN转换成NULL AWARE ANTI JOIN,并且在11.2.0.2上是可以转换的,到11.2.0.4上就不行了。两个FILTER操作的危害到底有多大呢,可以通过查询实际执行计划来看:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


使用ALTER SESSION SET STATISTICS_LEVEL=ALL;截取2分25s的记录查看实际情况,ID=9步骤的CARD=141行就需要2分25s,实际此步骤有:27w行


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


也就是这条SQL要运行10天以上了,简直太恐怖了。


针对此问题的分析如下:

  • 查询和NULL AWARE ANTI JOIN相关的隐含参数是否有效

  • 收集统计信息是否有效

  • 是否是新版本BUG或者升级中修改了参数导致的


针对第一种情况:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


参数是TRUE,显然没有问题。


针对第二种情况:


收集统计信息发现无效。


那么此时,只能寄希望于第三种情况:可能是BUG或者升级过程中修改了其它参数影响了无法走NULL AWARE ANTI JOIN。ORACLE BUG和参数那么多,那么我们怎么快速找到问题根源导致是哪个BUG或者参数导致的呢?这里给大家分享一个神器SQLT,全称(SQLTXPLAIN),这是ORACLE内部性能部门开发的工具,可以在MOS上下载,功能非常强劲。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


此工具详细用法不做赘述,针对此工具,Apress也出了一本书籍,感兴趣的可以学习一下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


回归正题,现在要找出是不是新版本BUG或者修改了某个参数导致问题产生,那么就要用到SQLT的高级方法:XPLORE。XPLORE会针对ORACLE中的各种参数不停打开、关闭,来输出执行计划,最终我们可以通过生成的报告,找到匹配的执行计划来判断是BUG问题还是参数设置问题。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


使用很简单,参考readme.txt将需要测试的SQL单独编辑一个文件,一般,我们测试都使用XPLAIN方法,调用EXPLAIN PLAN FOR进行测试,这样保证测试效率。


SQLT找出问题根源:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1 

最终通过SQLT XPLORE找出问题根源在于新版本关闭了_optimier_squ_bottomup参数(和子查询相关)。从这点上也可以看出来,很多查询转换能够成功,不光是一个参数起作用,可能多个参数共同作用。因此,关闭默认参数,除非有强大的理由,否则,不可轻易修改其默认值。至此,此问题在SQLT的帮助下,快速得以解决,如果不使用SQLT,那么解决问题的过程显然更为曲折,一般情况下,估计是让开发先修改SQL了。


思考一下,原来的SQL是不是还可以更优化呢?


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


很显然,如果要进一步优化,要彻底对SQL进行重写,通过观察,2个子查询部分有相同点,经过分析语义:查找表DT_MBY_TEST_LOG在指定INSERT_TIME范围内的,按照每个TBILL_ID取最小的INSERT_TIME,并且ID不在子查询中,然后结果按照INSERT_TIME排序,最后取TOP 199。


原SQL使用自连接、两个子查询,冗余繁杂。自然想到用分析函数进行改写,避免自连接,从而提高效率。改写后的SQL如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


执行计划:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


至此,这条SQL从原来的走FILTER需要耗时10天,到找出问题根源可以走NULL AWARE ANTI JOIN需要耗时7秒多,最后通过彻底改写耗时3.8s。


(2) OR子查询中的FILTER  


再来看下常见的OR与子查询连用情况,在实际优化过程中,遇到OR与子查询连用,一般都不能unnest subquery了,可能会导致严重性能问题,OR与子查询连用有两种可能:


  • condition or subquery

  • subquery内部包含or,如in (select … from tab where condition1 or condition 2)


还是通过一个具体案例,分享下对于OR子查询优化的处理方式,在某库11g R2中碰到如下SQL,几个小时都没有执行完:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


先来看下执行计划:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1



怎么通过看到这个执行计划,一眼定位性能慢的原因呢?主要通过下列几点来分析定位:


  • 执行计划中的Rows,也就是每个步骤返回的cardinality很少,都是几行,在分析表也不是太大,那么怎么可能导致运行几个小时都执行不完呢?很大原因可能就在于统计信息不准,导致CBO优化器估算错误,错误的统计信息导致错误的执行计划,这是第一点。

  • 看ID=15到18部分,它们是ID=1 FILTER操作的第二子节点,第一子节点是ID=2部分,很显然,如果ID=2部分估算的cardinality错误,实际情况很大的话,那么对ID=15到18部分四个表全扫描次数将会巨大,那么也就导致灾难产生。

  • 很显然,ID=2部分的一堆NESTED LOOPS也是很可疑的,找到ID=2操作的入口在ID=6部分,全表扫描DEALREC_ERR_201608,估算返回1行,很显然,这是导致NESTED LOOPS操作的根源,因此,需要检验其准确性。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


主表DEALREC_ERR_201608在ID=6查询条件中经查要返回2000w行,计划中估算只有1行,因此,会导致NESTED LOOPS次数实际执行千万次,导致效率低下,应该走HASH JOIN,需要更新统计信息。


另外ID=1是FILTER,它的子节点是ID=2和ID=15、16、17、18,同样的ID 15-18也被驱动千万次。


找出问题根源后,逐步解决。首先要解决ID=6部分针对DEALREC_ERR_201608表按照查询条件substr(other_class, 1, 3) NOT IN (‘147’,‘151’, …)获得的cardinality的准确性,也就是要收集统计信息。


然而发现使用size auto,size repeat,对other_class收集直方图均无效果,执行计划中对other_class的查询条件返回行估算还是1(实际2000w行)。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


再次执行后的执行计划如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


  • DEALREC_ERR_201608与B_DEALING_DONE_TYPE原来走NL的现在正确走HASH JOIN。Build table是小结果集,probe table是ERR表大结果集,正确。

  • 但是ID=2与ID=11到14,也就是与TMI_NO_INFOS的OR子查询,还是FILTER,驱动数千万次子节点查询,下一步优化要解决的问题。

  • 性能从12小时到2小时。


现在要解决的就是FILTER问题,对子查询有OR条件的,简单条件如果能够查询转换,一般会转为一个union all view后再进行semi join、anti join(转换成union all view,如果谓词类型不同,则SQL可能会报错)。对于这种复杂的,优化器就无法查询转换了,因此,改写是唯一可行的方法。分析SQL,原来查询的是同一张表,而且条件类似,只是取的长度不同,那么就好办了!


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


如何让带OR的子查询执行计划从FILTER变成JOIN。两种方法:


1)改为UNION ALL/UNION

2)语义改写.前面已经使用语义改写,内部转为了类似UNION的操作,如果要继续减少表的访问,则只能彻改写OR条件,避免转换为UNION操作。


再来分析下原始OR条件:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


上面含义是ERR表的TMISID截取前8,9,10,11位与TMI_NO_INFOS.BILLID_HEAD匹配,对应匹配BILLID_HEAD长度正好为8,9,10,11。很显然,语义上可以这样改写:


ERR表与TMI_NO_INFOS表关联,ERR.TMISID前8位与ITMI_NO_INFOS.BILLID_HEAD长度在8-11之间的前8位完全匹配,在此前提下,TMISID like ‘BILLID_HEAD %’。


现在就动手彻底改变多个OR子查询,让SQL更加精简,效率更高。改写如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


执行计划如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


1)现在的执行计划终于变的更短,更易读,通过逻辑改写走了HASH JOIN,最终一条返回300多万行数据的SQL原先需要12小时运行的SQL,现在3分钟就执行完了。

2)思考:结构良好,语义清晰的SQL编写,有助于优化器选择更合理的执行计划,所以说,写好SQL也是门技术活。


通过这个案例,希望能给大家一些启发,写SQL如何能够自己充当查询转换器,编写的SQL能够减少表、索引、分区等的访问,能够让ORACLE更易使用一些高效算法进行运算,从而提高SQL执行效率。


其实,OR子查询也不一定就完全不能unnest,只是绝大多数情况下无法unnest而已,请看下例:


不可unnest的查询:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


可以unnest的查询:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


这2条SQL的差别也就是将条件or id3 = id2-1000转换成or id3-1000 = id2,前者不可以unnest,后者可以unnest,通过分析10053可以得知:


不可unnest的出现:


SU: Unnesting query blocks in query block SEL$1 (#1) that are valid to unnest.

Subquery Unnesting on query block SEL$1 (#1)SU: Performing unnesting that does not require costing.

SU: Considering subquery unnest on query block SEL$1 (#1).

SU:   Checking validity of unnesting subquery SEL$2 (#2)

SU:     SU bypassed: Invalid correlated predicates.

SU:   Validity checks failed.


可以unnest的出现:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


并且将SQL改写为:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


最终CBO先查询T3条件,做个UNION ALL视图,之后与T2关联。从这里来看,对于OR子查询的unnest要求比较严格,从这条语句分析,ORACLE可进行unnest必须要求对主表列不要进行运算操作,优化器自身并未将+1000条件左移,正因为严格,所以大部分情况下,OR子查询也就无法进行unnest了,从而导致各种性能问题。


(3)类FILTER问题  


类FILTER问题主要体现在UPDATE关联更新和标量子查询中,虽然此类SQL语句中并未显式出现FILTER关键字,但是内部操作和FILTER操作如出一辙。


先看下UPDATE关联更新:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


这里需要更新14999行,执行计划如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


ID=2部分是where exists选择部分,先把需要更新的条件查询出来,之后执行UPDATE关联子查询更新,可以看到ID=5部分出现绑定变量:B1,显然UPDATE操作就类似于原来的FILTER,对于选出的每行与子查询表NEW_TAB关联查询,如果ID列重复值较少,那么子查询执行的次数就会很多,从而影响效率,也就是ID=5的操作要执行很多次。


当然,这里字段ID唯一性很强,可以建立UNIQUE INDEX,普通INDEX灯,这样第5步就可以走索引了。这里为了举例这种UPDATE的优化方式,不建索引,也可以搞定这样的UPDATE:MERGR和UPDATE INLINE VIEW方式。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


MERGE中直接利用HASH JOIN,避免多次访问操作,从而效率大增,再来看看UPDATE LINE VIEW写法:


UPDATE

  (SELECT a.status astatus,

    b.status bstatus

  FROM old_tab a,

    new_tab b

  WHERE a.id=b.id

  AND a.id  >9000000

  )

SET astatus=bstatus;


要求b.id是preserved key (唯一索引、唯一约束、主键),11g bypass_ujvc会报错,类似MERGE操作。


再来看看标量子查询,标量子查询往往也是引发严重性能问题的杀手:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


标量子查询的计划和普通计划的执行顺序不同,标量子查询虽然在上面,但是它由下面的CUSTOMERS表结果驱动,每行驱动查询一次标量子查询(有CACHE例外),同样类似FILTER操作。


如果对标量子查询进行优化,一般就是改写SQL,将标量子查询改为外连接形式(在约束和业务满足的情况下也可改写为普通JOIN):


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


通过改写之后效率大增,并且使用HASH JOIN算法。下面看一下标量子查询中的CACHE(FILTER和UPDATE关联更新类似),如果关联的列重复值特别多,那么子查询执行次数就会很少,这时候效率会比较好:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


标量子查询和FILTER一样,有CACHE,如上面的emp_a有108K的行,但是重复的department_id只有11,这样只查询只扫描11次,扫描子查询表的次数少了,效率会提升。


针对FILTER性能杀手问题,主要分享这3点,当然,还有很多其它值得注意的地方,这需要我们日常多留心和积累,从而熟悉优化器一些问题的处理方法。


2   TABLE函数8168基数问题  


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


此问题来源于binding in list问题,使用TABLE函数构造传入的逗号分隔的值作为子查询条件,一般前端传入的值都较少,但是实际上走了HASH JOIN操作,无法使用T表索引,一旦执行频率高,必然对系统影响较大,为什么ORACLE不知道TABLE函数传入了很少的值呢?

进一步分析:

  

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


从上面结果看出,TABLE函数的默认行数是8168行(TABLE函数创建的伪表是没有统计信息的),这个值不小了,一般比实际应用中的行数要多的多,经常导致执行计划走hash join,而不是nested loop。怎么改变这种情况呢?当然可以通过hint提示来改变执行计划了,对where in list,常常使用的hint有:

first_rows,index,cardinality,use_nl等。


这里特别介绍下cardinality(table|alias,n),这个hint很有用,它可以让CBO优化器认为表的行数是n,这样就可以改变执行计划了。现在改写上面的查询:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


加了cardinality(tab,5)自动走CBO优化器了,优化器把表的基数看成5,前面的where in list查询基数默认为8168的时候走的是hash join,现在有了cardinality,赶紧试试:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


现在走NESTED LOOPS操作,子节点可以走INDEX RANGE SCAN,逻辑读从184变成7,效率提升数十倍。当然,实际应用中,最好不要加hints,可以使用SQL PROFILER绑定。


3   选择性计算不准确问题  


Oracle内部计算选择性都是以数字格式计算,因此,遇到字符串类型,会将字符串转换成RAW类型,再将RAW类型转换成数字,并且ROUND到左起15位,这样对于转换后的数字很大,可能原来字符串相差比较大的,内部转换后的数字比较接近,这样就会引起选择性计算不准确问题。如下例:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


执行计划如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


SQL执行计划走TEM_ID索引,需要运行1小时以上,计划中对应步骤cardinality很少(几十级别),实际很大(百万级别),判断统计信息出错。


为什么走错索引?


由于TEM_ID是CHAR字符串类型,长度20,CBO内部计算选择性会先将字符串转为RAW,然后RAW转为数字,左起ROUND 15位。因此,可能字符串值差别大的,转换成数字后值接近(因为超出15位补0),导致选择性计算错误。以TS_TEM_INFO_DEAD中的TEM_ID列为例:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

            

而实际根据条件查询出的行数  29737305。因此,索引走错了。


解决方法:


收集TEM_ID列直方图,由于内部算法有一定限制,导致值不同的字符串,内部计算值可能一致,所以收集直方图后,针对字符串值不同,但是转换成数字后相同的,ORACLE会将实际值存储到ENDPOINT_ACTUAL_VALUE中,用于校验,提高执行计划的准确性。走正确索引GPYTM_ID后,运行时间从1小时以上到5s内。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


4   新特性引发执行出错问题  


每个版本都会引入很多新特性,对于新特性,使用不当可能会引发一些严重问题,常见的比如ACS、cardinality feedback导致执行计划变动频繁,影响效率,子游标过多等,所以,针对新特性需要谨慎使用,包括前面说的11g null aware anti join也存在很多BUG。


今天要分析的案例是10g到11g大版本升级过程中遇到的SQL,在10g中正常运行,但是到11g中却执行出错。SQL如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


10g正常,升级11g r2后日期转换出错,temp_value_code存多种格式字符串。正确执行计划LT关联查询先执行,之后与外表关联。错误执行计划是TASK_SPRING_VALUES先与外表关联然后分组,作为VIEW再与TASK_SPRING_LABEL关联,再次进行分组,这里有2个GROUP BY操作,与10g执行计划中只有1个GROUP BY操作不同,最终导致报错。


很显然,对于为什么出现两个GROUP BY操作,需要进行研究,首选10053:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


分析按照10053操作,是否找到非日期格式值:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


的确找到非yyyy-mm-dd格式字符串,因此,to_date操作失败。通过10053可以看出,这里使用了Group by/Distinct Placement操作,因此,需要找到对应的控制参数,关闭此查询转换。


关闭GBP隐含参数后正确:_optimizer_group_by_placement。正确执行计划如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


思考:这个问题的本质在于字段用途设计不合理,其中temp_value_code作为varchar2存储普通字符、数字型字符、日期格式yyyy-mm-dd,程序中有to_number,to_date等转换,非常依赖于执行计划中表连接和条件的先后顺序。所以,良好的设计很重要,特别要保证各关联字段类型的一致性以及字段作用的单一性,符合范式要求。


5   坑爹写法CBO无能为力  


结构优良的SQL能够更易被CBO理解,从而更好地进行查询转换操作,从而为后续生成最佳执行计划打下基础,然后实际应用过程中,因为不注重SQL写法,导致CBO也无能为力。下面以分页写法案例作为探讨。


低效分页写法:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


原写法最内层根据use_date等条件查询,然后排序,获取rownum并取别名,最外层使用rn规律。问题在哪?


分页写法如果直接<,<=可在排序后直接rownum获取(两层嵌套),如果需要获取区间值,在最外层获取>,>=(三层嵌套)。


此语句获取<=,而使用三层嵌套,导致无法使用分页查询STOPKEY算法,因为rownum会阻止谓词推入,导致执行计划中没有STOPKEY操作。


<=分页只需要2层嵌套,done_date列有索引,根据条件done_date>to_date(‘20150916’,‘YYYYMMDD’)和只获取前20行,可高效利用索引和STOPKEY算法,改写完成后使用索引降序扫描,执行时间从1.72s到0.01s,逻辑IO 从42648到59,具体如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


高效分页写法应该符合规范,并且能够充分利用索引消除排序。


6   CBO BUG问题  


CBO BUG出现比较多的就是在查询转换中,一旦出现BUG,可能查找就比较困难,这时候应该通过分析10053或者通过使用SQLT XPLORE快速找到问题根源。如下例:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


这个表的oper_type有索引,并且条件oper_type>’D’ or oper_type<’D’走索引较好,但是实际上Oracle却走了全表扫描,通过SQLT XPLORE快速分析:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


其中上面2个是走索引的执行计划,点进去:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


很显然,_fix_control=8275054很可疑,通过查询MOS:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


转换成a<>b,很显然使用不了索引了,可以通过关闭此8275054解决。


7   HASH碰撞问题  


HASHJOIN是专门用来做大数据处理的高效算法,并且只能用于等值连接条件,针对表build table(hash table)和probe table构建HASH运算,查找满足条件的结果集。


一般格式如下:

HASH JOIN

  build table

  probe table


这里的build table应该选择通过过滤条件过滤后,结果集尺寸较小的表(size不是rows),然后按照连接条件进行HASH函数运算,把需要的列和HASH函数运算结果存储到hash bucket中,hash bucket自身是链表结构。同样,对于probe table也需要进行hash函数运算,并根据运算结果到build table的hash bucket中去查询,查到满足,查不到丢弃。当然,ORACLE HASH JOIN内部构造还是很复杂的,具体可以参考Jonathan Lewis的CBO原理书。


HASH查找天生存在的问题:


一旦build table的连接条件列选择性不好(也就是重复值特别多),那么某些hash bucket上可能存储大量数据,由于hash bucket自身是链表结构,那么当查询这些hash bucket时,效率会急剧下降,此问题就是HASH运算的经典问题Hash Collision(HASH碰撞)。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1

 

下面用一个小例子来分析下hash碰撞:

         

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

其中a表61w多条记录,b表7w多条记录,此SQL结果返回8w多条记录,从执行计划来看,做HASH JOIN运算没有什么问题,但是实际此SQL执行10多分钟都没有执行完,效率非常低下,CPU使用率突增,远远大于访问两个表的时间。

         

如果你了解HASHJOIN,这时候,你应当考虑是不是遇到hash collision了,如果很多bucket上存储大量数据,那么对于这样的hash bucket里的数据查找那就类似于nested loops了,必然效率大减。如下进一步分析:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

        

查找一下大于重复数据大于3000条的值,果然有很多,当然剩下数据也有很多比较大,探测HASH JOIN,可以使用EVENT 10104:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


可以看到存储100行+的bucket有61个,而且最多的一个bucket中存储了3782条,也就是和我们查询出来的一致。还是回到原始SQL:


Oralce为什么选择substr(b.object_name,1,2)来构建HASH表呢,如果能将OR展开,原始SQL改为一个UNION ALL形式的,那么HASH表可以采用substr(b.object_name,1,2)和b.object_id以及data_object_id来构建,那么必然唯一性很好,那应该可以解决hash collision问题,改写如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


现在的SQL执行时间从原来的10几分钟都没有结果,到4s执行完毕,再来看内部构建的HASHTABLE信息:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


最多的一个bucket中只存储6条数据,那肯定性能比前面好很多了。Hash碰撞的危害很大,实际应用中,可能比较复杂,如果遇到hash碰撞问题,最好的方式就是进行SQL重写,尽量从业务上分析,能不能增加其它选择性比较好的列进行JOIN。

         

回头来看看,既然我都知道改写成UNION ALL后,就采用2个组合列构建比较好的HASH表,那么Oracle为什么不这样做呢?很简单,我这里只是举例刻意这么做的而已,用以说明HASH碰撞的问题,对于这种简单SQL,有选择性更好的列,收集下统计信息,Oracle就可以将的SQL进行OR展开了。


三、加强SQL审核,解决性能问题于襁褓之中


应用系统SQL众多,如果总是作为救火队员角色解决线上问题,显然不能满足当今IT系统高速发展的需求,基于数据库的系统,主要性能问题在于SQL语句,如果能在开发测试阶段就对SQL语句进行审核,找出待优化SQL,并给予智能化提示,快速辅助优化,则可以避免众多线上问题。另外,还可以对线上SQL语句进行持续监控,及时发现性能存在问题的语句,从而达到SQL的全生命周期管理目的。


为此,公司结合多年运维和优化经验,自主研发了SQL审核工具,极大提升SQL审核优化和性能监控处理效率。


SQL审核工具采用四步法则:SQL采集—SQL分析—SQL优化—上线跟踪,SQL审核四步法区别传统的SQL优化方法,它着眼于系统上线前的SQL分析和优化,重点解决SQL问题于系统上线前,扼杀性能问题于襁褓之中。如下图所示:


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


通过SQL性能管理平台可解决下列问题:

  • 事前:上线前SQL性能审核,扼杀性能问题于襁褓之中;

  • 事中:SQL性能监控处理,及时发现上线后SQL性能发生的变化,在SQL性能变化并且没有引起严重问题时,及时解决;

  • 事后:TOPSQL监控,及时告警处理。

         

SQL性能管理平台实现了SQL性能的360度全生命周期管控,并且通过各种智能化提示和处理,将绝大多数本来因SQL引发的性能问题,解决在问题发生之前,提高系统稳定度。

 

下面是SQL审核的一个典型案例:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


执行计划如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


原SQL执行1688s。通过SQL审核智能优化准确找到优化点—分区列有类型转换。优化后0.86s。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1


SQL审核是新炬数据库性能管理平台DPM的一个模块,想了解更多关于DPM的信息,可加邹德裕大师(微信:carydy)交流探讨。

 

今天主要和大家分享了一些Oracle优化器中存在的问题以及常见问题解决方法,当然,优化器问题不仅限于今天分享的,虽然CBO非常强大,并且在12c中有巨大改进,但是,存在的问题也很多,只有平时多积累和观察,掌握一定的方法,在能在遇到问题事后运筹帷幄,决胜千里。


Q&A  

Q1:hash join是不是有排序,可以简单说说hash join的原理吗?

A1:ORACLE HASH JOIN自身不需要排序,这是区别SORTMERGE JOIN特点之一。ORACLE HASH JOIN原理比较复杂,可以参考Jonathan Lewis的Cost-Based Oracle Fundamentals的HASH JOIN部分,针对HASHJOIN最重要的是在原理基础上搞清楚什么时候会慢,比如HASH_AREA_SIZE过小,HASH TABLE不能完全放到内存中,那么会发生磁盘HASH运算,再比如上面讲的HASH碰撞发生。


Q2:什么时候不走索引?

A2:不走索引情况比较多,首要的原因就是统计信息不准导致的,第二原因就是选择性太低,走索引比走全扫效率更差,还有一个比较常见的就是对索引列进行了运算,导致无法走索引。其它还有很多原因会导致不能走索引,详细参考MOS文档:Diagnosing Why a Query is Not Using an Index (文档 ID 67522.1)。




这篇关于踩坑CBO,解决那些坑爹的SQL优化问题的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程