hive【三】hive基本概念


hive数据类型

Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型

基本数据类型:

数据类型 所占字节 开始支持版本
TINYINT 1byte,-128 ~ 127  
SMALLINT 2byte,-32,768 ~ 32,767  
INT 4byte,-2,147,483,648 ~ 2,147,483,647  
BIGINT 8byte,-9,223,372,036,854,775,808 ~ 9,223,372,036,854,775,807  
BOOLEAN    
FLOAT 4byte单精度  
DOUBLE 8byte双精度  
STRING    
BINARY   从Hive0.8.0开始支持
TIMESTAMP   从Hive0.8.0开始支持
DECIMAL   从Hive0.11.0开始支持
CHAR   从Hive0.13.0开始支持
VARCHAR   从Hive0.12.0开始支持
DATE   从Hive0.12.0开始支持

复杂数据类型:

操作参考地址:hive array、map、struct使用

ARRAY:ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访
问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange','mango']组成,
那么我们可以通过fruits[1]来访问元素orange,因为ARRAY类型的下标是从0开始的;

MAP:MAP包含key->value键值对,可以通过key来访问元素。比如”userlist”是一个map类型,其中username是key,password是value;那么我们可以通过userlist['username']来得到这个用户对应的password;

STRUCT:STRUCT可以包含不同数据类型的元素。这些元素可以通过”点语法”的方式来得到所需要的元素,比如user是一个STRUCT类型,那么可以通过user.address得到这个用户的地址。

UNION: UNIONTYPE,他是从Hive 0.7.0开始支持的。
实例:创建一个含有复杂类型的表

CREATE TABLE test1 (  
name STRING,  
salary FLOAT,  
jobs ARRAY<STRING>,  
cate MAP<STRING, FLOAT>,  
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>  ) PARTITIONED BY (country STRING, state STRING);  

hive四类基本数据模型:表、外部表、分区(Partition)、桶(bucket)

创建表语句:

Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
 [(col_name data_type [COMMENT col_comment], ...)] 
 [COMMENT table_comment]
 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]      
 [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
 [ROW FORMAT row_format]
 [STORED AS file_format] 
 [LOCATION hdfs_path]

解释: CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数 据会被一起删除,而外部表只删除元数据,不删除数据。如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCE 。有 分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

表:

和数据库中的表概念类似,hive中每一个表对应一个存储目录,存在/${hive.metastore.warehourse.dir}指向的目录中

建表语句:
create table test_table (id int,name string,no int)
row format delimited fields terminated by ',' 
stored as textfile;

外部表:

仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数 据会被一起删除,而外部表只删除元数据,不删除数据。

#创建一个无分区的外部表
create external table test_external (id int,name string,no int)
row format delimited fields terminated by ',' 
location '/home/zhangxin/hive/test_hive.txt';

#创建一个有分区的外部表
CREATE EXTERNAL TABLE my_daily_report(
  last_update string,
  col_a string,
  col_b string,
  col_c string,
  col_d string,
  col_e string,
  col_f string,
  col_g string,
  col_h string,
  col_i string,
  col_j string)
  PARTITIONED BY (par_dt string) location '/user/chenshu/data/daily';
#增加分区
alter table tdm_day_mobile_pid_report add partition (par_dt='20140530') location '/user/chenshu/data/daily/my_daily_report/20140530';
#删除分区
alter table tdm_day_mobile_pid_report drop partition (par_dt='20140530')

分区:

#创建一个带分区的表
create table test_part (id int,name string,no int)
partitioned by (dt string) 
row format delimited fields terminated by '\t'
stored as textfile ;

load data local inpath '/home/zhangxin/hive/test_hive.txt' 
overwrite into table test_part partition (dt='2012-03-05');

桶:

#创建一个带桶的表:
create table bucketed_user(id int,name string) clustered by (id) sorted by(name) into 4 buckets row format delimited fields terminated by '\t' stored as textfile;
nemotan /
Published under (CC) BY-NC-SA in categories hive  tagged with hive