网站首页 > 技术文章 正文
在大数据开发过程中我们常常会处理一些客户端日志,服务端的用户行为日志等等,这些日志通常都是JSON格式的,要对这些日志进行研究就需要用Hive把它们做成关系型表,Hive官方为我们提供了两个函数用于处理JSON格式数据。
- get_json_object(STRING json_string, STRING path)
该函数从给定路径上的JSON字符串中抽取出JSON对象,并返回这个对象的JSON字符串形式,如果输入的JSON字符串非法,则返回NULL
- json_tuple(STRING jsonStr, p1, p2, p3 .., pn)
该函数可以接受多个标签名称,对输入的JSON字符串进行处理(UDTF),相比get_json_object更加高效,通过一次调用就可以获得多个键值。json_tuple函数通常要和lateral view连用,用于将一行数据拆分成多行。
下面我们通过真实场景来看下两个函数的使用方法和区别
源表定义和初始化
如下所示为一个游戏对局结果的log样本
2021-05-29 GameResult {"players":[{"player_id":43455341,"rank":2},{"player_id":15278345,"rank":1},{"player_id":2689332,"rank":3}],"game_id":"111129320310391","timestamp":1622254656,"start_time":1622251256}
2021-05-29 GameResult {"players":[{"player_id":43455342,"rank":1},{"player_id":15278342,"rank":2},{"player_id":2689332,"rank":3}],"game_id":"111129320310392","timestamp":1622255656,"start_time":1622254256}
2021-05-29 GameResult {"players":[{"player_id":43455343,"rank":2},{"player_id":15278343,"rank":1}],"game_id":"111129320310393","timestamp":1622258656}
我们定义一张Hive表,并将样本数据写入到Hive表
CREATE TABLE stark.game_result_test (
logdate DATE,
logtype STRING,
content STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
# 加载数据
load data local inpath '/home/bi/xxx/gameresult_sample.txt' into table stark.game_result_test;
查看是否导入成功
然后我们分别用两个函数处理content字段
get_json_object函数
SQL如下
hive> SELECT t.logdate,t.logtype,
> get_json_object(t.content,'$.players') AS players,
> get_json_object(t.content,'$.game_id') AS game_id,
> get_json_object(t.content,'$.timestamp') AS timestamp,
> get_json_object(t.content,'$.start_time') AS start_time
> FROM (
> SELECT logdate,logtype,content
> FROM stark.game_result_test
> ) t;
结果如下
通过该函数轻松完成了content字段的解析,但是不难发现每个字段的提取都要通过调用该函数处理json字符串完成,当json字符串中字段很多时会严重影响处理的效率。
json_tuple函数
同样是针对该表content字段的处理,使用json_tuple函数SQL语句如下
SELECT t.logdate,t.logtype,players,game_id,timestamp,start_time
FROM stark.game_result_test t
lateral view json_tuple(t.content,'players','game_id','timestamp','start_time') a AS players,game_id,timestamp,start_time;
由于get_tuple是UDTF函数(一个输入多个输出),所以要和lateral view 连用把一个字段拆分成多个字段。lateral view 得到的视图要起一个别名(本例为a)。
最终查询结果和get_json_object函数一致。
最后
目前为止,看起来这两个函数能够满足我们的基本需求,不过细心的读者会发现通过两个函数提取出来的players字段我们一直没有进一步拆分(当我们要对每个玩家的对局结果处理时是需要拆分出每个玩家的)。
players字段是一个json数组,这两个函数显然都无法处理,这就需要我们自定义一个UDF函数来进行处理,后续章节我会带领大家了解一下hive的自定义UDF,并拿该函数作为样例。
猜你喜欢
- 2024-10-17 hive中json字符串解析之get_json_object与json_tuple
- 2024-10-17 hive学习笔记之三:内部表和外部表
- 2024-10-17 精选Hive高频面试题11道,附答案详细解析
- 2024-10-17 分享7个Flutter开发库,让你成为高效开发者
- 2024-10-17 看完这一篇数据仓库干货,终于搞懂什么是hive了
- 2024-10-17 Hive架构及Hive SQL的执行流程解读
- 2024-10-17 hadoop上搭建hive hadoop+hive
- 2024-10-17 HIVE常用函数大全 hive用法
- 2024-10-17 求求你别再手动部署jar包了,太low了
- 2024-10-17 hive 多字段分隔符使用 hive分隔符\001
你 发表评论:
欢迎- 11-19零基础学习!数据分析分类模型「支持向量机」
- 11-19机器学习 | 算法笔记(三)- 支持向量机算法以及代码实现
- 11-19我以前一直没有真正理解支持向量机,直到我画了一张图
- 11-19研一小姑娘分享机器学习之SVM支持向量机
- 11-19[机器学习] sklearn支持向量机
- 11-19支持向量机
- 11-19初探支持向量机:用大白话解释、原理详解、Python实现
- 11-19支持向量机的核函数
- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)