网站首页 > 技术文章正文

Apache Hive新版本发布，增加了对Set操作和JDBC存储处理程序的支持

btikc 2024-10-12 10:57:41 技术文章 8 ℃ 0 评论

新版本的Apache Hive提供了新功能，包括支持Set操作和JDBC存储处理程序。

Hive可用于使用SQL在分布式存储中读取，写入和管理大型数据集。该软件包括用于将用户连接到Hive的命令行工具和JDBC驱动程序。提供用于数据提取/转换/加载（ETL）的工具。它可以用于通过MapReduce，Spark和Tez查询数据。查询检索可以使用Hive LLAP，YARN和Slider。Hive还支持程序使用HPL-SQL。

最新版本添加了通用的JDBC RDBMS存储处理程序，可以将标准DB表导入到Hive中。

此版本还完成了Hive 2.1在set操作中使用的功能。现在可以使用Union，Intersect和Except Set操作来使用关系代数查找数据。

ACID交易的处理有两个方面的改善。首先，新版本启用谓词下推（predicate pushdown）由ACID事务创建的delta文件。在早期版本中，ACID事务创建的delta文件如果包含任何更新/删除事件，则不允许谓词下推。这是为了在多版本事务处理失败的情况下保留正确性。新方法将更新分为删除事件和新的插入事件的组合。这意味着Pushdown可以启用所有delta文件，而不会破坏正确性。

ACID矢量化也通过消除逐行stitching得到改进。在早期版本中，通过在向量化的批次沿着操作管道传递之前，一次填充批次一行创建一个向量化行批次。这样做是因为在发现给定行的实际版本之前，需要将来自各种delta文件的ACID插入/更新/删除事件合并在一起。对delta文件处理的改进意味着这不再需要。更新的版本直接从底层ORC文件读取行批次，并避免任何stitching。

从分割中读取一行批次后，将通过将数据结构交叉引用来删除已删除的事件，从而找到已删除的行。当以矢量化的方式读取ACID文件时，预计会导致较大的性能提升。

其他改进包括通过手动重建添加简单的物化视图；支持类似“展示表”的列表视图；和UDF允许询问uniontype值。

上一篇：如何优雅的编写Hive的自定义UDF解析json数组?
下一篇： Hive:常见的时间格式转换方法 hive 时间转日期

网站首页 > 技术文章正文

Apache Hive新版本发布，增加了对Set操作和JDBC存储处理程序的支持

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

Apache Hive新版本发布，增加了对Set操作和JDBC存储处理程序的支持

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: