Hive 的元数据可以存储在 MySQL 中,解决了 derby 只能单客户端连接的问题。Hive 也可以开启类似 JDBC 的连接查询方式。
Hive(二)
本地文件导入 Hive、MySQL 存储元数据
除了使用命令创建表、插入数据外,也可以将本地文件数据导入 Hive。
Hive(一)
基础概念、安装、基础命令
Hive 是 Facebook 开源的用于解决 海量结构化日志
的数据统计。
Hive 是基于 Hadoop 的数据仓库地址,可以 将结构化的数据文件映射为一张表
,并提供 类似 SQL
的查询功能。
Hive 的本质是将 HQL(Hive Query Language) 转化为 MapReduce。
Zookeeper(一)
安装、命令行操作
Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务器的项目。
hadoop(19)Map Reduce
多 Job 串联、Top N
在之前的示例中,都是单个 Job 执行 MapReduce 程序,如何进行多 Job 串联?
hadoop(18) YARN
资源调度器、Hadoop 优化
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的 操作系统
,而 MapReduce 等运算程序相当于 操作系统上的应用程序
hadoop(17) Map Reduce
计数器、压缩
Hadoop 为每个作业维护若干个内置计数器,以描述多项指标。
如:记录已处理的字节数和记录数,使用户可以监控已处理的输入数据量和已产生的输出数据量
hadoop(16) Map Reduce
ReduceJoin、MapJoin
ReduceJoin 的工作:
Map 端的主要工作:为来自不同表或者文件的 KV 对,打标签以区别不同来源的记录,然后用连接字段作为 key,其余部分和新加的标志位作为 value,最后进行输出。
Reduce 端的主要工作:在 Reduce 端以连接字段作为 key 的分组已经完成,只需要在每个分组中,将那么来源于不同文件的记录分开,最后完成合并即可。
hadoop(15) Map Reduce
工作流程、OutputFormat
MapTask 流程分为:Read 阶段、Map 阶段、Collect 阶段、溢写阶段、Combine 阶段
ReduceTask 流程分为:Copy 阶段、Merge 阶段、Sort 阶段、Reduce 阶段