网站首页 > 技术文章 正文
新版本的Apache Hive提供了新功能,包括支持Set操作和JDBC存储处理程序。
Hive可用于使用SQL在分布式存储中读取,写入和管理大型数据集。该软件包括用于将用户连接到Hive的命令行工具和JDBC驱动程序。提供用于数据提取/转换/加载(ETL)的工具。它可以用于通过MapReduce,Spark和Tez查询数据。查询检索可以使用Hive LLAP,YARN和Slider。Hive还支持程序使用HPL-SQL。
最新版本添加了通用的JDBC RDBMS存储处理程序,可以将标准DB表导入到Hive中。
此版本还完成了Hive 2.1在set操作中使用的功能。现在可以使用Union,Intersect和Except Set操作来使用关系代数查找数据。
ACID交易的处理有两个方面的改善。首先,新版本启用谓词下推(predicate pushdown)由ACID事务创建的delta文件。在早期版本中,ACID事务创建的delta文件如果包含任何更新/删除事件,则不允许谓词下推。这是为了在多版本事务处理失败的情况下保留正确性。新方法将更新分为删除事件和新的插入事件的组合。这意味着Pushdown可以启用所有delta文件,而不会破坏正确性。
ACID矢量化也通过消除逐行stitching得到改进。在早期版本中,通过在向量化的批次沿着操作管道传递之前,一次填充批次一行创建一个向量化行批次。这样做是因为在发现给定行的实际版本之前,需要将来自各种delta文件的ACID插入/更新/删除事件合并在一起。对delta文件处理的改进意味着这不再需要。更新的版本直接从底层ORC文件读取行批次,并避免任何stitching。
从分割中读取一行批次后,将通过将数据结构交叉引用来删除已删除的事件,从而找到已删除的行。当以矢量化的方式读取ACID文件时,预计会导致较大的性能提升。
其他改进包括通过手动重建添加简单的物化视图;支持类似“展示表”的列表视图;和UDF允许询问uniontype值。
猜你喜欢
- 2024-10-12 大数据分析工具——hive入门 hive数据分析的一般流程是什么
- 2024-10-12 019Hive基本使用03 019Hive基本使用03 #liaoit
- 2024-10-12 手把手教你搭建Hive环境 搭建hive集群
- 2024-10-12 0474-如何使用SQL Developer访问Hive
- 2024-10-12 大数据之-HIVE入门(十四) php hive大数据处理
- 2024-10-12 Hive 迁移参考方案及测试(下) hive表迁移
- 2024-10-12 0263-Hive2.2.0如何与CDH集群中的Spark1.6集成
- 2024-10-12 如何在HUE上通过oozie调用Hive SQL工作流
- 2024-10-12 百度二面:你做过哪些Hive调优啊? hive调优与参数设置
- 2024-10-12 HiveSQL:如何从给定的日期中减去指定数量的天数?
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)