學會hive中的explain 能為我們在生產實踐中帶來哪些便利？

2021-03-13 09:09

園陌

關注

不懂hive中的explain，說明hive還沒入門，學會explain，能夠給我們工作中使用hive帶來極大的便利！

理論

本節將介紹 explain 的用法及參數介紹

HIVE提供了EXPLAIN命令來展示一個查詢的執行計劃，這個執行計劃對于我們了解底層原理，hive 調優，排查數據傾斜等很有幫助

使用語法如下：

EXPLAIN ［EXTENDED｜CBO｜AST｜DEPENDENCY｜AUTHORIZATION｜LOCKS｜VECTORIZATION｜ANALYZE］ query

explain 后面可以跟以下可選參數，注意：這幾個可選參數不是 hive 每個版本都支持的

EXTENDED：加上 extended 可以輸出有關計劃的額外信息。這通常是物理信息，例如文件名。這些額外信息對我們用處不大

CBO：輸出由Calcite優化器生成的計劃。CBO 從 hive 4．0．0 版本開始支持

AST：輸出查詢的抽象語法樹。AST 在hive 2．1．0 版本刪除了，存在bug，轉儲AST可能會導致OOM錯誤，將在4．0．0版本修復

DEPENDENCY：dependency在EXPLAIN語句中使用會產生有關計劃中輸入的額外信息。它顯示了輸入的各種屬性

AUTHORIZATION：顯示所有的實體需要被授權執行（如果存在）的查詢和授權失敗

LOCKS：這對于了解系統將獲得哪些鎖以運行指定的查詢很有用。LOCKS 從 hive 3．2．0 開始支持

VECTORIZATION：將詳細信息添加到EXPLAIN輸出中，以顯示為什么未對Map和Reduce進行矢量化。從 Hive 2．3．0 開始支持

ANALYZE：用實際的行數注釋計劃。從 Hive 2．2．0 開始支持

在 hive cli 中輸入以下命令（hive 2．3．7）：

explain select sum（id） from test1；

得到結果（請逐行看完，即使看不懂也要每行都看）：

STAGE DEPENDENCIES：
Stage－1 is a root stage
Stage－0 depends on stages： Stage－1
STAGE PLANS：
Stage： Stage－1
Map Reduce
Map Operator Tree：
TableScan
alias： test1
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Select Operator
expressions： id （type： int）
outputColumnNames： id
Statistics： Num rows： 6 Data size： 75 Basic stats： COMPLETE Column stats： NONE
Group By Operator
aggregations： sum（id）
mode： hash
outputColumnNames：＿col0
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
Reduce Output Operator
sort order：
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
value expressions：＿col0 （type： bigint）
Reduce Operator Tree：
Group By Operator
aggregations： sum（VALUE．＿col0）
mode： mergepartial
outputColumnNames：＿col0
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
File Output Operator
compressed： false
Statistics： Num rows： 1 Data size： 8 Basic stats： COMPLETE Column stats： NONE
table：
input format： org．apache．hadoop．mapred．SequenceFileInputFormat
output format： org．apache．hadoop．hive．ql．io．HiveSequenceFileOutputFormat
serde： org．apache．hadoop．hive．serde2．lazy．LazySimpleSerDe
Stage： Stage－0
Fetch Operator
limit：－1
Processor Tree：
ListSink