归档 | PA & CODING

2023

04

21

Hadoop-7.切片逻辑

默认切片的大小与 hdfs 的 block 的 size 相等切片大小: Math.max(minSize, Math.min(maxSize, blockSize)) mapreduce.input.fileinputformat.s

2023-04-21 IT学习笔记

Hadoop

20

Hadoop-单词分组排序统计Demo

先进行单词统计: Hadoop-单词统计Demo 排序利用对Mapper输出的Key的自动排序进行排序 public class WCSortMapper extends Mapper<LongWritable, Text, Des

2023-04-20 template

Hadoop

20

Hadoop-6.提交任务流程与Shuffle流程

shuffle 并不是个组件，而是 mr 处理流程中的一个子过程，它过程开始于 maptask 把数据写入环形缓存一直到数据到 reduce 之间的整个过程 maptask 收集我们的 map() 方法输出的 kv 对，放到内存缓冲区中

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-5.mapreduce工作机制

一个完整的 mapreduce 程序在分布式运行时有三类实例进程： MRAppMaster：负责整个程序的过程调度及状态协调 MapTask：负责 map 阶段的整个数据处理流程 ReduceTask：负责 reduce 阶段的整个数据处

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-单词统计Demo

导入 hadoop 和 hadoop.mapreduce 包下的类 WCMapper.java // 泛型分别是：输入的键值类型; 输出的键值类型 public class WCMapper extends Mapper<LongW

2023-04-20 template

Hadoop

20

Hadoop-4.元数据管理-edits+fsimage

元数据的存储形式 hdfs 的读写流程都离不开 namenode，在 namenode 中维护了文件、文件块的信息，这些信息统统称之为元数据元数据在 hdfs 中有 3 种存在形式 (内存的数据 = fsimage + edits 文件)

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-3.hdfs读写文件流程

HDFS 特点 hdfs 里的文件是分块（block）存储的，默认大小是 128M hdfs 使用统一的抽象目录树管理文件，客户端不需要关心具体的文件分块例如：hdfs://hadoop01:port/path1/path2/file

2023-04-20 IT学习笔记

Hadoop

20

Hadoop-FileSystem-文件操作Demo

FSTest.java /** * 需要安装Hadoop程序, 并配置环境变量(HADOOP_HOME) * 不配置也可以使用部分功能 * 配置本地的hosts文件, 对应hadoop01的ip地址 */ @Slf4j public

2023-04-20 template

Hadoop

20

maven-更换阿里源

<mirror> <id>alimaven</id> <mirrorOf>central</mirrorOf> <name>aliyun maven&l

2023-04-20 template

maven

20

Hadoop-fs-常用命令

命令作用 hadoop fs -help 帮助命令 hadoop fs -ls / 显示目录信息 hadoop fs -ls hdfs://hadoop01:9000/ 显示目录信息(使用Nn节点) hadoop

2023-04-20 template

Hadoop

19

Hadoop-ClassNotFoundException

输入命令 hadoop classpath, 将结果复制下来 mapred-site.xml 中加入: <property> <name>mapreduce.application.classpath<

2023-04-19 排错笔记

Hadoop

19

Hadoop-启动时没有启动datanode

原因: 在第一次格式化dfs后，启动并使用了hadoop，后来又重新执行了格式化命令 hdfs namenode -format，这时namenode的clusterID会重新生成，而datanode的clusterID 保持不变。解决方

2023-04-19 排错笔记

Hadoop

19

Hadoop-集群部署

示例: IP(Hostname) Server 192.168.140.130 (hadoop01) Nn Dn Snn Nm 192.168.140.131 (hadoop02) Dn Nm Rm 192.168.1

2023-04-19 运维手册

Hadoop

19

Hadoop-单机伪分布式部署

配置网络环境 vi /etc/hosts: 192.168.140.130 hadoop vi /etc/hostname: hadoop 关闭防火墙 systemctl stop firewalld.service systemct

2023-04-19 运维手册

Hadoop

18

Linux-yum安装jdk11

# 查看与 java-11 有关的包 yum list | grep java-11 # 安装这三个即可 yum install java-11-openjdk.x86_64 java-11-openjdk-devel.x86_64

2023-04-18 template

Linux

18

诗词-家乡

家乡寒鸦绕孤村，斜月独徘徊。风吹花落去，寂寞雨滴来。樽前人依旧，夜夜蛙虫哀。春江何处去，总会带星来。

2023-04-18 作品

诗词

17

Hadoop-2.节点

NN: NameNode fdfs 节点的 leader DN: DataNode fdfs 的数据节点 SNN SecondaryNameNode fdfs 节点的镜像复制节点 RM: resoucemanager yarn 资源管理器

2023-04-17 IT学习笔记

Hadoop

17

Hadoop2-集群部署[DockerCompose]

docker-compose.yml version: "3.8" services: namenode: image: bde2020/hadoop-namenode:2.0.0-hadoop3.2.1-java8

2023-04-17 运维手册

docker-compose.yml Hadoop