sqlsemijoin_hive sql 优化的常用手段有哪些

㈠ hive sql 优化的常用手段有哪些

1、join连接时的优化：当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个maprece。
2、join连接时的优化：当多个表进行查询时，从左到右表的大小顺序应该是从小到大。原因：hive在对每行记录操作时会把其他表先缓存起来，直到扫描最后的表进行计算
3、在where字句中增加分区过滤器。
4、当可以使用left semi join 语法时不要使用inner join，前者效率更高。原因：对于左表中指定的一条记录，一旦在右表中找到立即停止扫描。

㈡ spark sql怎么划分stage

其实sql就是关系操作。关系操作跟map，rece这些基础算子对应起来的（spark其实基础算子也是map，rece，只是在此基础上做了扩展）。比如projection，filter是窄依赖，join，semi join，outer join是宽依赖。
具体流程会比较复杂。首先spark会解析这条sql，生成语法树（spark2.0会通过antlr4解析），然后经过逻辑优化（dataframe中有logic plan），然后转换为map rece，生成对应的操作算子（projection，filter，join等）。有了宽依赖，窄依赖，也就能划分stage了。

㈢数据库(比如MYSQL) ,表连结查询与子查询哪个效率高些为什么

in子查询、exists子查询、连接，效率的探讨

以下是SQL的帮助（高级查询优化概念）
Microsoft® SQL Server™ 2000 使用内存中的排序和哈希联接技术执行排序、交集、联合、差分等操作。SQL Server 利用这种类型的查询计划支持垂直表分区，有时称其为分列存储。

SQL Server 使用三种类型的联接操作：
嵌套循环联接
合并联接
哈希联接
如果一个联接输入很小（比如不到 10 行），而另一个联接输入很大而且已在其联接列上创建索引，则索引嵌套循环是最快的联接操作，因为它们需要最少的 I/O 和最少的比较。有关嵌套循环的更多信息，请参见了解嵌套循环联接。

如果两个联接输入并不小但已在二者联接列上排序（例如，如果它们是通过扫描已排序的索引获得的），则合并联接是最快的联接操作。如果两个联接输入都很大，而且这两个输入的大小差不多，则预先排序的合并联接提供的性能与哈希联接相似。然而，如果两个输入的大小相差很大，则哈希联接操作通常快得多。有关更多信息，请参见了解合并联接。

哈希联接可以有效处理很大的、未排序的非索引输入。它们对复杂查询的中间结果很有用，因为：

中间结果未经索引（除非已经显式保存到磁盘上然后创建索引），而且生成时通常不为查询计划中的下一个操作进行适当的排序。

查询优化器只估计中间结果的大小。由于估计的值在复杂查询中可能有很大的误差，因此如果中间结果比预期的大得多，则处理中间结果的算法不仅必须有效而且必须适度弱化。
哈希联接使得对非规范化的使用减少。非规范化一般通过减少联接操作获得更好的性能，尽管这样做有冗余之险（如不一致的更新）。哈希联接则减少使用非规范化的需要。哈希联接使垂直分区（用单独的文件或索引代表单个表中的几组列）得以成为物理数据库设计的可行选项。有关更多信息，请参见了解哈希联接。

㈣关于SQL中的集合查询

比较两个查询的结果，返回非重复值。

EXCEPT 从左查询中返回右查询没有找到的所有非重复值。

INTERSECT 返回 INTERSECT 操作数左右两边的两个查询都返回的所有非重复值。

以下是将使用 EXCEPT 或 INTERSECT 的两个查询的结果集组合起来的基本规则：

所有查询中的列数和列的顺序必须相同。

数据类型必须兼容。

Transact-SQL 语法约定

语法

{ <query_specification> | ( <query_expression> ) }
{ EXCEPT | INTERSECT }
{ <query_specification> | ( <query_expression> ) }

参数
<query_specification> | ( <query_expression> )
查询规范或查询表达式返回与来自另一个查询规范或查询表达式的数据相比较的数据。在 EXCEPT 或 INTERSECT 运算中，列的定义可以不同，但它们必须在隐式转换后进行比较。如果数据类型不同，则用于执行比较并返回结果的类型是基于数据类型优先级的规则确定的。

如果类型相同，但精度、小数位数或长度不同，则根据用于合并表达式的相同规则来确定结果。有关详细信息，请参阅精度、小数位数和长度 (Transact-SQL)。

查询规范或表达式不能返回 xml、text、ntext、image 或非二进制 CLR 用户定义类型列，因为这些数据类型不可比较。

EXCEPT
从 EXCEPT 操作数左边的查询中返回右边的查询未返回的所有非重复值。

INTERSECT
返回 INTERSECT 操作数左右两边的两个查询均返回的所有非重复值。

备注
如果 EXCEPT 或 INTERSECT 操作数左边和右边的查询返回的可比较列的数据类型是具有不同排序规则的字符数据类型，则根据排序规则优先级的规则执行所需的比较。如果无法执行此转换，Microsoft SQL Server 2005 数据库引擎将返回错误。

通过比较行来确定非重复值时，两个 NULL 值被视为相等。

EXCEPT 或 INTERSECT 返回的结果集的列名与操作数左侧的查询返回的列名相同。

ORDER BY 子句中的列名或别名必须引用左侧查询返回的列名。

EXCEPT 或 INTERSECT 返回的结果集中的任何列的为空性与操作数左侧的查询返回的对应列的为空性相同。

如果 EXCEPT 或 INTERSECT 与表达式中的其他运算符一起使用，则在以下优先顺序的上下文中对其进行评估：

括号中的表达式

INTERSECT 操作数

基于在表达式中的位置从左到右求值的 EXCEPT 和 UNION

如果 EXCEPT 或 INTERSECT 用于比较两个以上的查询集，则数据类型转换是通过一次比较两个查询来确定的，并遵循前面提到的表达式求值规则。

EXCEPT 和 INTERSECT 不能在分布式分区视图定义、查询通知中使用，也不能与 COMPUTE 和 COMPUTE BY 子句一起使用。

EXCEPT 和 INTERSECT 可在分布式查询中使用，但只在本地服务器上执行，不会被推送到链接服务器。因此，在分布式查询中使用 EXCEPT 和 INTERSECT 可能会影响性能。

快速只进游标和静态游标与 EXCEPT 或 INTERSECT 运算一起使用时，在结果集中完全受支持。如果由键集驱动的游标或动态游标与 EXCEPT 或 INTERSECT 运算一起使用，则运算的结果集的游标转换为静态游标。

使用 SQL Server Management Studio 中的图形显示计划功能显示 EXCEPT 运算时，该运算显示为 left anti semi join，INTERSECT 运算显示为 left semi join。

sqlsemijoin

与sqlsemijoin相关的内容