归档: 2023 | PA & CODING

2023

04

21

Hadoop-11.优化

参数调优以下参数是在用户自己的 mr 应用程序中配置就可以生效 mapreduce.map.memory.mb: 一个 Map Task 可使用的资源上限（单位:MB），默认为 1024。如果 Map Task 实际使用的资源量超过该值

2023-04-21 IT学习笔记

Hadoop

21

Hadoop-10.YARN资源调度器

配置 (官方文档): yarn.resourcemanager.scheduler.class 默认: org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.Cap

2023-04-21 IT学习笔记

Hadoop

21

Hadoop-9.mapreduce-YARN流程

应用申请运行RM的JOB RM返回JOBID以及提交资源的目录应用提交相关文件到资源目录通知RM, JOB资源提交完毕 RM初始任务TASK, 加入调度队列空闲NM领取任务 NM根据任务信息创建Container (并且从资源目录

2023-04-21 IT学习笔记

Hadoop

21

Hadoop-8.YARN流程

YARN 是运算资源调度系统，他只做运算资源的分配和调度，不参与用户程序内部的具体工作，所以 YARN 可以作为一个通用的资源调度平台在 Hadoop1.x 的时候其实是没有 YRAN，当初的 MapReduce 由两个组件组成 Job

2023-04-21 IT学习笔记

Hadoop

21

Hadoop-数据压缩

原则 MapReduce 支持压缩，通过压缩算法对 mapper 或者 reducer 的最终数据结果进行压缩好处：减少了磁盘 io，提高了 MR 获取数据的速度，节省了磁盘空间坏处：压缩需要增加 cpu 的运算负担原则: 运算

2023-04-21 template

Hadoop

21

Hadoop-自定义OutputFileFormat-Demo

如果单词是老师人名，放到一个目录，否则放到另外一个目录 TeacherOutPutFormat.java public class TeacherOutPutFormat extends FileOutputFormat<Text,N

2023-04-21 template

Hadoop

21

Hadoop-自定义InputFileFormat-Demo

以 excel 的文件举例 pom.xml <dependency> <groupId>net.sourceforge.jexcelapi</groupId> <artifactId

2023-04-21 template

Hadoop

21

Hadoop-7.切片逻辑

默认切片的大小与 hdfs 的 block 的 size 相等切片大小: Math.max(minSize, Math.min(maxSize, blockSize)) mapreduce.input.fileinputformat.s

2023-04-21 IT学习笔记

Hadoop

20

Hadoop-单词分组排序统计Demo

先进行单词统计: Hadoop-单词统计Demo 排序利用对Mapper输出的Key的自动排序进行排序 public class WCSortMapper extends Mapper<LongWritable, Text, Des

2023-04-20 template

Hadoop

20

Hadoop-6.提交任务流程与Shuffle流程

shuffle 并不是个组件，而是 mr 处理流程中的一个子过程，它过程开始于 maptask 把数据写入环形缓存一直到数据到 reduce 之间的整个过程 maptask 收集我们的 map() 方法输出的 kv 对，放到内存缓冲区中

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-5.mapreduce工作机制

一个完整的 mapreduce 程序在分布式运行时有三类实例进程： MRAppMaster：负责整个程序的过程调度及状态协调 MapTask：负责 map 阶段的整个数据处理流程 ReduceTask：负责 reduce 阶段的整个数据处

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-单词统计Demo

导入 hadoop 和 hadoop.mapreduce 包下的类 WCMapper.java // 泛型分别是：输入的键值类型; 输出的键值类型 public class WCMapper extends Mapper<LongW

2023-04-20 template

Hadoop

20

Hadoop-4.元数据管理-edits+fsimage

元数据的存储形式 hdfs 的读写流程都离不开 namenode，在 namenode 中维护了文件、文件块的信息，这些信息统统称之为元数据元数据在 hdfs 中有 3 种存在形式 (内存的数据 = fsimage + edits 文件)

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-3.hdfs读写文件流程

HDFS 特点 hdfs 里的文件是分块（block）存储的，默认大小是 128M hdfs 使用统一的抽象目录树管理文件，客户端不需要关心具体的文件分块例如：hdfs://hadoop01:port/path1/path2/file

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-FileSystem-文件操作Demo

FSTest.java /** * 需要安装Hadoop程序, 并配置环境变量(HADOOP_HOME) * 不配置也可以使用部分功能 * 配置本地的hosts文件, 对应hadoop01的ip地址 */ @Slf4j public

2023-04-20 template

Hadoop

20

maven-更换阿里源

<mirror> <id>alimaven</id> <mirrorOf>central</mirrorOf> <name>aliyun maven&l

2023-04-20 template

maven

20

Hadoop-fs-常用命令

命令作用 hadoop fs -help 帮助命令 hadoop fs -ls / 显示目录信息 hadoop fs -ls hdfs://hadoop01:9000/ 显示目录信息(使用Nn节点) hadoop

2023-04-20 template

Hadoop

19

Hadoop-ClassNotFoundException

输入命令 hadoop classpath, 将结果复制下来 mapred-site.xml 中加入: <property> <name>mapreduce.application.classpath<

2023-04-19 排错笔记

Hadoop