换下风格^_^

 分类:Hive

记一次Hive Multi Insert 引起的GC overhead limit exceeded

记一次Hive Multi Insert 引起的GC overhead limit exceeded
当你有这么个需求从某张hive表里做各类统计,完了之后落到各个分类的统计表里存储。自然而然我们会想到使用hive的Multi Insert 语句来实现。因为使用Multi Insert 语句可以避免多次扫描同一份原始表数据。本文记录一次使用Multi Insert 语句出现的G...

1年前 (2015-12-03) 0评论 0喜欢

R通过JDBC连接hive和impala

R通过JDBC连接hive和impala
R连接Hive和Impala本质上是通过JDBC来实现的。 下载支持impala和hive的jar -rw-r–r–. 1 hadoop hadoop 3928530 Nov  7 14:02 hadoop-core-1.0.4.jar -rw-rR...

3年前 (2014-03-14) 0评论 0喜欢

hive并发调用的运行方式

hive并发调用的运行方式
前言 使用hive,我们很多情况下会并发调用hive程序,将sql任务转换成mapreuce提交到hadoop集群中,而在本人使用hive的过程中,发现并发调用hive有几个问题,在这个和大家分享下. 正文 默认安装hive,hive是使用derby内存数据库保存hive的元数据...

3年前 (2013-11-06) 0评论 0喜欢

Hive相关安装详解

Hive相关安装详解
导读:本文对hive相关的东西做了个详细的记录。hadoop和hive版本基于 Cloudera的CDH4 1.安装 yum install hive相关包 hive相关包如下: hive – base package that provides the complete lan...

3年前 (2013-09-26) 0评论 0喜欢

Beeline连接hiveserver2异常

Beeline连接hiveserver2异常
异常一:Cannot initialize Cluster 启动了hive-metastore和hive-server2服务正常. 使用beeline连接hive-server2正常. !connect jdbc:hive2://localhost:10000 hive hiv...

3年前 (2013-09-26) 2评论 0喜欢

Hive 动态分区和静态分区

Hive 动态分区和静态分区
HIVE默认是静态分区。但是有时候可能需要动态创建不同的分区来区分不同的分类。 HIVE中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与...

3年前 (2013-09-23) 0评论 0喜欢

Hive QL

Hive QL
Hive QL: 淘宝数据:http://www.alidata.org/archives/581 官方手册:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 显示表包含分区: show partiti...

3年前 (2013-09-23) 0评论 0喜欢

hive使用自定义inputFormat,处理Mongodb数据

hive使用自定义inputFormat,处理Mongodb数据
公司除了有大量的web日志和nginx收集的JSon数据外,还有保存在mongodb和redis里面的数据。作为我们统计部门,希望能够把所有数据都集中到我们的数据仓库里面来,便于我们开发更多的数据产品。 在这里只说明mongodb的数据在hadoop建立仓库的情况。 从mongo...

3年前 (2013-08-20) 2评论 0喜欢

Hive的UDF和UDAF使用

Hive的UDF和UDAF使用
(一)UDF(User-Defined-Function) Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。H...

4年前 (2013-07-09) 0评论 0喜欢