计算机系统应用教程网站

网站首页 > 技术文章 正文

如何优雅的用Hive处理json格式字符串?

btikc 2024-10-17 08:47:56 技术文章 7 ℃ 0 评论

在大数据开发过程中我们常常会处理一些客户端日志,服务端的用户行为日志等等,这些日志通常都是JSON格式的,要对这些日志进行研究就需要用Hive把它们做成关系型表,Hive官方为我们提供了两个函数用于处理JSON格式数据。

  • get_json_object(STRING json_string, STRING path)

该函数从给定路径上的JSON字符串中抽取出JSON对象,并返回这个对象的JSON字符串形式,如果输入的JSON字符串非法,则返回NULL

  • json_tuple(STRING jsonStr, p1, p2, p3 .., pn)

该函数可以接受多个标签名称,对输入的JSON字符串进行处理(UDTF),相比get_json_object更加高效,通过一次调用就可以获得多个键值。json_tuple函数通常要和lateral view连用,用于将一行数据拆分成多行。

下面我们通过真实场景来看下两个函数的使用方法和区别

源表定义和初始化

如下所示为一个游戏对局结果的log样本

2021-05-29	GameResult	{"players":[{"player_id":43455341,"rank":2},{"player_id":15278345,"rank":1},{"player_id":2689332,"rank":3}],"game_id":"111129320310391","timestamp":1622254656,"start_time":1622251256}
2021-05-29	GameResult	{"players":[{"player_id":43455342,"rank":1},{"player_id":15278342,"rank":2},{"player_id":2689332,"rank":3}],"game_id":"111129320310392","timestamp":1622255656,"start_time":1622254256}
2021-05-29	GameResult	{"players":[{"player_id":43455343,"rank":2},{"player_id":15278343,"rank":1}],"game_id":"111129320310393","timestamp":1622258656}

我们定义一张Hive表,并将样本数据写入到Hive表

CREATE TABLE stark.game_result_test (
  logdate DATE,
  logtype STRING,
  content STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 
# 加载数据
load data local inpath '/home/bi/xxx/gameresult_sample.txt' into table stark.game_result_test;

查看是否导入成功


然后我们分别用两个函数处理content字段

get_json_object函数

SQL如下

hive> SELECT t.logdate,t.logtype,
    > get_json_object(t.content,'$.players') AS players,
    > get_json_object(t.content,'$.game_id') AS game_id,
    > get_json_object(t.content,'$.timestamp') AS timestamp,
    > get_json_object(t.content,'$.start_time') AS start_time
    > FROM (
    >    SELECT logdate,logtype,content
    >    FROM stark.game_result_test
    > ) t;

结果如下


通过该函数轻松完成了content字段的解析,但是不难发现每个字段的提取都要通过调用该函数处理json字符串完成,当json字符串中字段很多时会严重影响处理的效率。

json_tuple函数

同样是针对该表content字段的处理,使用json_tuple函数SQL语句如下

SELECT t.logdate,t.logtype,players,game_id,timestamp,start_time
FROM stark.game_result_test t 
lateral view json_tuple(t.content,'players','game_id','timestamp','start_time') a AS players,game_id,timestamp,start_time;

由于get_tuple是UDTF函数(一个输入多个输出),所以要和lateral view 连用把一个字段拆分成多个字段。lateral view 得到的视图要起一个别名(本例为a)。


最终查询结果和get_json_object函数一致。

最后

目前为止,看起来这两个函数能够满足我们的基本需求,不过细心的读者会发现通过两个函数提取出来的players字段我们一直没有进一步拆分(当我们要对每个玩家的对局结果处理时是需要拆分出每个玩家的)。

players字段是一个json数组,这两个函数显然都无法处理,这就需要我们自定义一个UDF函数来进行处理,后续章节我会带领大家了解一下hive的自定义UDF,并拿该函数作为样例。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表