网站首页 > 技术文章正文

大数据分析工具——hive入门 hive数据分析的一般流程是什么

btikc 2024-10-12 10:58:54 技术文章 33 ℃ 0 评论

作者：2551529836

Hive

** Facebook开源

** 官网：hive.apache.org

** Hive是基于Hadoop的一个数据仓库工具

Hive与数据库：

数据库: mysql、oracle、DB2、sqlserver

数据仓库 !== 数据库换言之, Hive不是数据库

为什么要选择hive

** MapReduce编程成本高

** 针对传统的DBA,不会不熟悉java,要想数据分析,借助Hive

Hive简介：

** 流程

** hql --> Hive(java) --> mapreduce -->yarn --> hdfs

** 本质: 将HQL转化成MapReduce程序

** 使用MapReduce计算模型，运行在yarn平台之上

** Hive适合离线批量处理,延时比较大

** 不适合在线业务实时分析结果,业务要求延时较低的场景不适合

Hive体系结构

** 用户接口: Client

** 终端命令行CLI --主要的一种使用方式

** JDBC方式 --几乎不用

** 元数据：metastore

** 默认apache使用的是derby数据库(只能有一个客户端使用),CDH使用postgreDB

** 企业通常我们会选择另外一种mysql来存储

** 元数据包括：表名、表所属的数据库（默认是default）、

表的拥有者、列/分区字段、表的类型（是否是外部表）、

表的数据所在目录等

** 这里并没有存储Hive表的真实数据

** Hadoop

** 使用HDFS进行存储

** 使用MapReduce进行计算

** 驱动器: Driver

** 解析器：解析Hql语句

** 编译器：把sql语句翻译成MapReduce程序

** 优化器：优化sql语句

** 执行器：在yarn平台运行MapReduce程序

====Hive安装======================================================

** 版本 0.13.1(和后面使用到的框架兼容性好)

hive安装所需要的环境：

1、安装JDK，然后测试

$ java -version

2、安装Hadoop

** 确保Hadoop可以正常使用(测试：上传文件、或者运行jar)

$ hdfs dfs -mkdir /input2 #在HDFS上创建文件夹，没有类似-cd进入目录的参数

$ hdfs dfs -mkdir -p /aaa/bbb/ccc #级联创建目录

$ hdfs dfs -ls / #查看

$ hdfs dfs -put b.txt /input #把本地文件拷到HDFS

$ hdfs dfs -cat /input2/b.txt #查看文件

$ hdfs dfs -rm /input2/b.txt #删除文件

$ hdfs dfs -rmr /input? #递归删除文件夹和里面的文件，推荐使用'-rm -r'格式；单字符通配符'?'

$ hdfs dfs -help

3、安装mysql

$ su -

# yum -y install mysql --安装mysql客户端、常用命令

# yum -y install mysql-server --mysql服务

# yum -y install mysql-devel --mysql develop扩展包

***以上可以合并为一句，-y表示所有提问回答都为yes

# yum -y install mysql mysql-server mysql-devel

# rpm -qa|grep mysql --查看安装的mysql

# rpm -ql mysql-server-5.1.73-7.el6.x86_64 --查看安装位置

# rpm -e --nodeps mysql-server-5.1.73-7.el6.x86_64 --卸载，nodeps:不检查依赖

# service mysqld start --启动mysql服务

# chkconfig mysqld on --设置开机启动

# /usr/bin/mysqladmin -uroot password 'root' --初始化密码，只能执行一次

给用户授权：

# mysql -uroot -proot

*** grant 权限 on 数据库对象(数据库.表) to 用户

mysql> grant all on *.* to root@'blue01.mydomain' identified by 'root';

mysql> flush privileges; #刷新授权表，可以不执行

mysql> set password for root@localhost = password('root'); --修改密码

mysql> show databases;

** mysql数据库默认只允许root用户通过localhost(127.0.0.1)来登录使用

** 想要使用Windows上的Navicat登录，需要授权

** mysql> grant all on *.* to root@'192.168.122.1' identified by 'root';

附：yum命令和rpm命令安装的都是rpm包

yum安装包的来源: 来自互联网(由仓库配置文件指定)

rpm安装包的来源: 先提取现在需要安装的软件包

----------------------

4、开始安装Hive

# su - tom

$ tar zxf /opt/softwares/apache-hive-0.13.1-bin.tar.gz

** 在conf/目录：

$ cp -a hive-env.sh.template hive-env.sh --重命名，-a连同原来属性一起复制

$ cp -a hive-default.xml.template hive-site.xml

5、修改hive-env.sh

JAVA_HOME=/opt/modules/jdk1.7.0_67

HADOOP_HOME=/opt/modules/hadoop-2.5.0

export HIVE_CONF_DIR=/opt/modules/apache-hive-0.13.1-bin/conf

6、配置hive-site.xml，注意：用户名和密码不可以有空格

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://blue01.mydomain:3306/metastore?createDatabaseIfNotExist=true</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

7、拷贝mysql驱动到lib/

** 若是jar已解压，则不必执行这步：$ tar zxf mysql-connector-java-5.1.27.tar.gz

$ cp mysql-connector-java-5.1.27-bin.jar /opt/modules/apache-hive-0.13.1-bin/lib/

** /tmp存放临时文件

$ bin/hadoop fs -chmod g+w /tmp #给用户组加上写的权限

** /user/hive/warehouse为Hive存放数据的目录

$ bin/hdfs dfs -mkdir -p /user/hive/warehouse

$ bin/hadoop fs -chmod g+w /user/hive/warehouse

9、启动客户端使用Hive

$ bin/hive --用法几乎跟mysql一样

hive> show databases;

上一篇： 019Hive基本使用03 019Hive基本使用03 #liaoit
下一篇：案例赏析:基于细粒度的工业产品表面缺陷检测方法

网站首页 > 技术文章正文

大数据分析工具——hive入门 hive数据分析的一般流程是什么

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

大数据分析工具——hive入门 hive数据分析的一般流程是什么

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: