求仁得仁
04
24
24
FastDFS-特点 FastDFS-特点
FastDFS 是一个开源的高性能分布式文件系统(DFS)。 它的主要功能包括:文件存储,文件同步和文件访问,以及高容量和负载平衡。主要解决了海量数据存储问题,特别适合以中小文件(建议范围:4KB < file_size < 5
2023-04-24
24
23
23
23
23
23
23
Hadoop-14.Sqoop-特点 Hadoop-14.Sqoop-特点
Sqoop 简介 Sqoop 是 apache 旗下的工具,用于实现结构型数据(如关系数据库)和 Hadoop 之间进行数据迁移的工具, 可以讲关系型数据库中的数据导入到 Hadoop 的 HDFS 中,同样也完全可以把 HDFS 的数据导
2023-04-23
23
HBase-优化 HBase-优化
HBase-rowkey设计优化 代码优化 创建表的时候,可以通过 HColumnDescriptor.setInMemory(true) 将表放到 RegionServer 的缓存中,保证在读取的时候被 cache 命中 创建表的
2023-04-23
23
HBase-rowkey设计优化 HBase-rowkey设计优化
性能上考虑 一条数据的唯一标识就是 rowkey,而这行数据最终存储到哪一个分区里面,取决于分区(HBase-预分区),如果从性能上考虑 rowkey 优化,应该考虑的是让数据均匀的分布在所有的 region 中,防止数据的倾斜。 设计方案
2023-04-23
23
HBase-预分区 HBase-预分区
在默认情况下,在使用 hbase 创建表的时候会自动创建一个 region 分区,所有 hbase 的客户端的数据都写到这个 region 分区里面,一直到 region 足够大的时候才进行切分。每一个 region 维护着 startRo
2023-04-23
23
Hadoop-HBase-Hive-集成 Hadoop-HBase-Hive-集成
HBase 提供的查询主要还是通过 key 的方式进行的,相比 hive,hbase 的查询要薄弱很多。Hive 整合 HBase 后的使用场景: 通过 Hive 把数据加载到 HBase 中,数据源可以是文件也可以是 Hive 中的表
2023-04-23
23
23
23
23
HBase-常用命令 HBase-常用命令
hbase shell 进入shell help 命令查看帮助文档 list 命令查看数据库中的表 创建表 创建 person 表,包含 info, data 两个列族 然后查看表结构 create 'person', 'info', 'd
2023-04-23
23
15 / 28