网站首页 > 技术文章 正文
作者:辉少
1.文档编写目的
Fayson 在前面的文章《Hive表字段Comment中文乱码》中,介绍了在Hive中如何解决表字段中文注释乱码的问题,为了完善上篇文档,本文整理Hive表所有与中文注释相关的属性项,包括表字段、分区、表名、视图中文乱码,同时包括对该问题的分析。
- 测试环境
1.CM和CDH版本为6.1.0
2.Hive的版本为2.1.1
3.集群已启用Kerberos
4.RedHat7.4
2.问题描述
在Hive中创建有中文注释的表时,默认情况下无论是在beeline还是Hue中该注释显示都会是乱码。使用以下建表和查看语句:
CREATE TABLE test_comment ( s1 string COMMENT "测试字段", s2 string COMMENT "测试字段2" ) COMMENT "测试表名" partitioned BY (s3 string COMMENT "测试分区"); SHOW CREATE TABLE test_comment;
在beeline中查看如下:
Hue中显示一样,这里省略。
创建视图也是一样会出现乱码问题:
create view testview as select "测试视图" from student; show create table testview; select * from testview;
3.解决办法
这个问题是因为mysql中的Hive元数据库表默认创建字符编码为latin1,需要修改表中对应字段的字符类型
mysql –u root –p use metastore; #修改字段注释字符集 alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8; #修改表注释字符集 alter table TABLE_PARAMS modify column PARAM_VALUE varchar(40000) character set utf8; #修改分区参数,支持分区建用中文表示 alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(40000) character set utf8; alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(40000) character set utf8; #修改表名注释,支持中文表示 alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8; #修改视图,支持视图中文 ALTER TABLE TBLS modify COLUMN VIEW_EXPANDED_TEXT mediumtext CHARACTER SET utf8; ALTER TABLE TBLS modify COLUMN VIEW_ORIGINAL_TEXT mediumtext CHARACTER SET utf8;
注意Hive元数据这个数据库应使用utf-8创建,如:create database metastore default character set utf8;
回到Hive中重新create一张表和视图,并查看
发现中文注释已经显示正常。
再重新创建分区并查看:
发现分区的中文也显示正常
注:在还未修改字符编码以前的创建的表,仍然需要重新执行ALTER语句后才能正常显示,所以建议在Hive 表中还没有数据时就将字符集修改过来
4
问题分析
针对该问题,Fayson 分析是由于Hive自动建表时设置了表的字符编码。
在创建Hive元数据库设置的字符集是utf8,查看语句如下:
在添加Hive 组件时,建表语句是由CDH自动完成的,任意选择Hive 元数据库metastore 下的两个表查看,发现其默认的字符集编码是latin1,如下
这也就解释了,虽然创建Hive元数据库的时设置字符编码为utf8,但依旧出现中文乱码的问题。建议在Hive 中还为添加数据时,先去通过上面的方法解决中文乱码问题,避免后期数据多去大量执行ALTER去修改。
猜你喜欢
- 2024-10-12 大数据分析工具——hive入门 hive数据分析的一般流程是什么
- 2024-10-12 019Hive基本使用03 019Hive基本使用03 #liaoit
- 2024-10-12 手把手教你搭建Hive环境 搭建hive集群
- 2024-10-12 0474-如何使用SQL Developer访问Hive
- 2024-10-12 大数据之-HIVE入门(十四) php hive大数据处理
- 2024-10-12 Hive 迁移参考方案及测试(下) hive表迁移
- 2024-10-12 0263-Hive2.2.0如何与CDH集群中的Spark1.6集成
- 2024-10-12 如何在HUE上通过oozie调用Hive SQL工作流
- 2024-10-12 百度二面:你做过哪些Hive调优啊? hive调优与参数设置
- 2024-10-12 HiveSQL:如何从给定的日期中减去指定数量的天数?
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)