求仁得仁
04
21
Hadoop-11.优化 Hadoop-11.优化
参数调优 以下参数是在用户自己的 mr 应用程序中配置就可以生效 mapreduce.map.memory.mb: 一个 Map Task 可使用的资源上限(单位:MB),默认为 1024。如果 Map Task 实际使用的资源量超过该值
2023-04-21
21
21
Hadoop-9.mapreduce-YARN流程 Hadoop-9.mapreduce-YARN流程
应用申请运行RM的JOB RM返回JOBID以及提交资源的目录 应用提交相关文件到资源目录 通知RM, JOB资源提交完毕 RM初始任务TASK, 加入调度队列 空闲NM领取任务 NM根据任务信息创建Container (并且从资源目录
2023-04-21
21
Hadoop-8.YARN流程 Hadoop-8.YARN流程
YARN 是运算资源调度系统,他只做运算资源的分配和调度,不参与用户程序内部的具体工作,所以 YARN 可以作为一个通用的资源调度平台 在 Hadoop1.x 的时候其实是没有 YRAN,当初的 MapReduce 由两个组件组成 Job
2023-04-21
21
Hadoop-数据压缩 Hadoop-数据压缩
原则 MapReduce 支持压缩,通过压缩算法对 mapper 或者 reducer 的最终数据结果进行压缩 好处:减少了磁盘 io,提高了 MR 获取数据的速度,节省了磁盘空间 坏处:压缩需要增加 cpu 的运算负担 原则: 运算
2023-04-21
21
21
21
20
20
Hadoop-6.提交任务流程与Shuffle流程 Hadoop-6.提交任务流程与Shuffle流程
shuffle 并不是个组件,而是 mr 处理流程中的一个子过程,它过程开始于 maptask 把数据写入环形缓存一直到数据到 reduce 之间的整个过程 maptask 收集我们的 map() 方法输出的 kv 对,放到内存缓冲区中
2023-04-20
20
Hadoop-5.mapreduce工作机制 Hadoop-5.mapreduce工作机制
一个完整的 mapreduce 程序在分布式运行时有三类实例进程: MRAppMaster:负责整个程序的过程调度及状态协调 MapTask:负责 map 阶段的整个数据处理流程 ReduceTask:负责 reduce 阶段的整个数据处
2023-04-20
20
Hadoop-单词统计Demo Hadoop-单词统计Demo
导入 hadoop 和 hadoop.mapreduce 包下的类 WCMapper.java // 泛型分别是:输入的键值类型; 输出的键值类型 public class WCMapper extends Mapper<LongW
2023-04-20
20
Hadoop-4.元数据管理-edits+fsimage Hadoop-4.元数据管理-edits+fsimage
元数据的存储形式 hdfs 的读写流程都离不开 namenode,在 namenode 中维护了文件、文件块的信息,这些信息统统称之为元数据 元数据在 hdfs 中有 3 种存在形式 (内存的数据 = fsimage + edits 文件)
2023-04-20
20
Hadoop-3.hdfs读写文件流程 Hadoop-3.hdfs读写文件流程
HDFS 特点 hdfs 里的文件是分块(block)存储的,默认大小是 128M hdfs 使用统一的抽象目录树管理文件,客户端不需要关心具体的文件分块 例如:hdfs://hadoop01:port/path1/path2/file
2023-04-20
20
20
20
Hadoop-fs-常用命令 Hadoop-fs-常用命令
命令 作用 hadoop fs -help 帮助命令 hadoop fs -ls / 显示目录信息 hadoop fs -ls hdfs://hadoop01:9000/ 显示目录信息(使用Nn节点) hadoop
2023-04-20
19
17 / 28