求仁得仁
Hadoop-7.切片逻辑 Hadoop-7.切片逻辑
默认切片的大小与 hdfs 的 block 的 size 相等 切片大小: Math.max(minSize, Math.min(maxSize, blockSize)) mapreduce.input.fileinputformat.s
2023-04-21
Hadoop-6.提交任务流程与Shuffle流程 Hadoop-6.提交任务流程与Shuffle流程
shuffle 并不是个组件,而是 mr 处理流程中的一个子过程,它过程开始于 maptask 把数据写入环形缓存一直到数据到 reduce 之间的整个过程 maptask 收集我们的 map() 方法输出的 kv 对,放到内存缓冲区中
2023-04-20
Hadoop-5.mapreduce工作机制 Hadoop-5.mapreduce工作机制
一个完整的 mapreduce 程序在分布式运行时有三类实例进程: MRAppMaster:负责整个程序的过程调度及状态协调 MapTask:负责 map 阶段的整个数据处理流程 ReduceTask:负责 reduce 阶段的整个数据处
2023-04-20
Hadoop-4.元数据管理-edits+fsimage Hadoop-4.元数据管理-edits+fsimage
元数据的存储形式 hdfs 的读写流程都离不开 namenode,在 namenode 中维护了文件、文件块的信息,这些信息统统称之为元数据 元数据在 hdfs 中有 3 种存在形式 (内存的数据 = fsimage + edits 文件)
2023-04-20
Hadoop-3.hdfs读写文件流程 Hadoop-3.hdfs读写文件流程
HDFS 特点 hdfs 里的文件是分块(block)存储的,默认大小是 128M hdfs 使用统一的抽象目录树管理文件,客户端不需要关心具体的文件分块 例如:hdfs://hadoop01:port/path1/path2/file
2023-04-20
Hadoop-2.节点 Hadoop-2.节点
NN: NameNode fdfs 节点的 leader DN: DataNode fdfs 的数据节点 SNN SecondaryNameNode fdfs 节点的镜像复制节点 RM: resoucemanager yarn 资源管理器
2023-04-17
Hadoop-1.生态 Hadoop-1.生态
Hadoop 背景 其实最先被这些问题困惑的并不是电商,而是 google,他需面对的挑战一点也不会比电商小 大量的网页怎么存储 面对的数据和计算难题 2003,2004 年 Google GFS MapReduce 为了解决上面的
2023-04-17
计算机网络-MAC 计算机网络-MAC
MAC 地址 在局域网中,硬件地址又称为物理地址,或 MAC 地址。 802 标准所说的“地址”严格地讲应当是每一个站的“名字”或标识符。 将48位的“名字”称为“地址”仅仅是一种习惯。 IEEE 的注册管理机构 RA 负责向厂家分配地址
2023-04-16
计算机网络-集线器/网桥 计算机网络-集线器/网桥
集线器 集线器 : 是使用电子器件来模拟实际电缆线的工作,因此整个系统仍然像一个传统的以太网那样运行。 使用集线器的以太网在逻辑上仍是一个总线网,各工作站使用的还是 CSMA/CD 协议,并共享逻辑上的总线。 集线器很像一个多接口的转发
2023-04-16
计算机网络-ICMP 计算机网络-ICMP
网际控制报文协议 ICMP 为了提高 IP 数据报交付成功的机会,在网际层使用了网际控制报文协议 ICMP (InternetControl Message Protocol)。 ICMP 允许主机或路由器报告差错情况和提供有关异常情况的报
2023-04-16
计算机网络-OSPF 计算机网络-OSPF
基本特点 内部网关协议 OSPF (Open Shortest Path First) 的基本特点 : “开放”表明 OSPF 协议不是受某一家厂商控制,而是公开发表的。 “最短路径优先”是因为使用了 Dijkstra 提出的最短路径算法
2023-04-16
计算机网络-ARP/RARP 计算机网络-ARP/RARP
不管网络层使用的是什么协议,在实际网络的链路上传送数据帧时,最终还是必须使用硬件地址。 每一个主机都设有一个 ARP 高速缓存(ARP cache),里面有所在的局域网上的各主机和路由器的 IP 地址到硬件地址的映射表。 当主机 A 欲向
2023-04-16
计算机网络-IP 计算机网络-IP
网际层的 IP 协议及配套协议 网络互连 互连在一起的网络要进行通信,会遇到许多问题需要解决,如: 不同的寻址方案 不同的最大分组长度 不同的网络接入机制 不同的超时控制 不同的差错恢复方法 不同的状态报告方法 不同的路由选择技术 不同
2023-04-16
计算机网络-RIP 计算机网络-RIP
路由信息协议 RIP(Routing Information Protocol) 是内部网关协议 IGP中最先得到广泛使用的协议。RIP 是一种分布式的基于距离向量的路由选择协议。 RIP 协议要求网络中的每一个路由器都要维护从它自己到其他
2023-04-16
计算机网络-UDP 计算机网络-UDP
UDP 只在 IP 的数据报服务之上增加了很少一点的功能,即端口的功能和差错检测的功能。UDP 用户数据报只能提供不可靠的交付。 UDP 的主要特点 UDP 是无连接的,即发送数据之前不需要建立连接。 UDP 使用尽最大努力交付,即不保证
2023-04-16
计算机网络-PPP/MAC/IP/UDP/TCP的数据报格式 计算机网络-PPP/MAC/IP/UDP/TCP的数据报格式
PPP 协议的帧格式: PPP 是面向字节的,所有的 PPP 帧的长度都是整数字节。 PPP 有一个 2 个字节的协议字段 当协议字段为 0x0021 时,PPP 帧的信息字段就是IP 数据报。 若为 0xC021, 则信息字段是 PP
2023-04-16
计算机网络-ICMP/RIP/OSPF数据报格式 计算机网络-ICMP/RIP/OSPF数据报格式
ICMP 报文的格式 ICMP报文装在IP数据报中,但是它不是高层协议,而是IP层协议。 类型 3 终点不可达 11 时间超过 12 参数问题 5 改变路由 8或0 回送请求或回答 13或14 时间戳请求或回答 代码 : 进一步区分
2023-04-16
计算机网络-性能指标 计算机网络-性能指标
计算机网络的性能指标: 速率 带宽 吞吐量 时延 速率: 速率即数据率(data rate)或比特率(bit rate)是计算机网络中最重要的一个性能指标。速率的单位是 b/s,或kb/s, Mb/s, Gb/s等。速率往往是指额定速
2023-04-16
11 / 12