计算机系统应用教程网站

网站首页 > 技术文章 正文

Apache Hive新版本发布,增加了对Set操作和JDBC存储处理程序的支持

btikc 2024-10-12 10:57:41 技术文章 8 ℃ 0 评论

新版本的Apache Hive提供了新功能,包括支持Set操作和JDBC存储处理程序。

Hive可用于使用SQL在分布式存储中读取,写入和管理大型数据集。该软件包括用于将用户连接到Hive的命令行工具和JDBC驱动程序。提供用于数据提取/转换/加载(ETL)的工具。它可以用于通过MapReduce,Spark和Tez查询数据。查询检索可以使用Hive LLAP,YARN和Slider。Hive还支持程序使用HPL-SQL。

最新版本添加了通用的JDBC RDBMS存储处理程序,可以将标准DB表导入到Hive中。

此版本还完成了Hive 2.1在set操作中使用的功能。现在可以使用Union,Intersect和Except Set操作来使用关系代数查找数据。

ACID交易的处理有两个方面的改善。首先,新版本启用谓词下推(predicate pushdown)由ACID事务创建的delta文件。在早期版本中,ACID事务创建的delta文件如果包含任何更新/删除事件,则不允许谓词下推。这是为了在多版本事务处理失败的情况下保留正确性。新方法将更新分为删除事件和新的插入事件的组合。这意味着Pushdown可以启用所有delta文件,而不会破坏正确性。

ACID矢量化也通过消除逐行stitching得到改进。在早期版本中,通过在向量化的批次沿着操作管道传递之前,一次填充批次一行创建一个向量化行批次。这样做是因为在发现给定行的实际版本之前,需要将来自各种delta文件的ACID插入/更新/删除事件合并在一起。对delta文件处理的改进意味着这不再需要。更新的版本直接从底层ORC文件读取行批次,并避免任何stitching。

从分割中读取一行批次后,将通过将数据结构交叉引用来删除已删除的事件,从而找到已删除的行。当以矢量化的方式读取ACID文件时,预计会导致较大的性能提升。

其他改进包括通过手动重建添加简单的物化视图;支持类似“展示表”的列表视图;和UDF允许询问uniontype值。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表