换下风格^_^

 分类:Hadoop

Hadoop 2.x编译

Hadoop 2.x编译
前言 从官网下载的Apache 发行版本的hadoop默认是在32位下编译的。对于大都是64位系统的集群来说我们需要自己编译64位的hadoop版本,特别是native本地链接库。如果native与你所使用的64位系统不符,那么会影响集群的性能。 那么如何判断你使用的hadoop...

2年前 (2015-01-30) 0评论 0喜欢

MR总结(三)-MapReduce组件自定义

MR总结(三)-MapReduce组件自定义
自定义InputFormat InputFormat主要包括:           InputSplit和RecordReader    InputSplit用于定义Map的数目和确定最合适的执行节点(位置)    RecordReader负责从输入文件里读取数据记录,并把数据提...

2年前 (2014-12-08) 0评论 0喜欢

MR总结(二)-Mapreduce程序设计

MR总结(二)-Mapreduce程序设计
导读:尽管很多著作描述了mapreduce的API的使用,很少描述用实际的方法来设计一个MapReduce应用。 mapreduce的功能主要来自于它的简单性。除了准备输入数据之外,程序员只需要操作mapper和reducer。现实中的很多问题都可以利用这种方法解决。 在大多数情...

2年前 (2014-12-08) 0评论 0喜欢

MR总结(一)-Mapreduce原理解析

MR总结(一)-Mapreduce原理解析
本文主要内容: ★理解MapReduce基本原理 ★了解MapReduce应用的执行 ★理解MapReduce应用的设计 一、了解MapReduce MapReduce是一个框架,能够利用许多普通计算机对大规模的数据集进行高并发的、分布式的算法处理。 用户的任务是实现mappe...

2年前 (2014-11-27) 0评论 1喜欢

R通过JDBC连接hive和impala

R通过JDBC连接hive和impala
R连接Hive和Impala本质上是通过JDBC来实现的。 下载支持impala和hive的jar -rw-r–r–. 1 hadoop hadoop 3928530 Nov  7 14:02 hadoop-core-1.0.4.jar -rw-rR...

3年前 (2014-03-14) 0评论 0喜欢

编写MapReduce经验总结

编写MapReduce经验总结
MapReduce是一个最先由Google提出的分布式计算软件构架,它可以支持大数据量的分布式处理。这个架构最初起源于函数式程式的map和reduce两个函数组成,但它们在MapReduce架构中的应用和原来的使用上的大相径庭。 由于有像hive,pig等众多基于mapreduc...

3年前 (2013-12-26) 0评论 0喜欢

Hadoop2 开发环境搭建测试

Hadoop2 开发环境搭建测试
Hadoop2.2.0 单机开发搭建。 环境: 系统 CentOS 6.3 64位 Jdk版本 oracle jdk 1.7 Hadoop版本 2.2.0 使用linux用户 Hadoop 目录配置 /home/hadoop 用户目录 /app/...

3年前 (2013-12-16) 4评论 0喜欢

MRUnit使用技巧

MRUnit使用技巧
导读 为了能测试编写的hadoop组件和MapReduce程序,一般有下面三种思路: 一、使用hadoop-eclipse插件来调试MapReduce程序,不过这在hadoop比较新的版本里已经不再提供了; 二、是配置jvm参数远程调试hadoop组件。这种方式用于读hadoop...

3年前 (2013-12-16) 0评论 0喜欢

Impala JOIN操作及元数据过期问题

Impala JOIN操作及元数据过期问题
Hints(Joins 问题) Hints 英译为“暗示,示意,提示”,用于数据表join时影响执行语句被后台程序解析成执行计划的,达到优化执行效率的目的。说白了这有点像写Java代码里面的注解(anotation)。 主要有两个hints: Hints 解释 使用场景 ...

3年前 (2013-11-13) 0评论 2喜欢