求仁得仁
04
23
23
Hadoop-14.Sqoop-特点 Hadoop-14.Sqoop-特点
Sqoop 简介 Sqoop 是 apache 旗下的工具,用于实现结构型数据(如关系数据库)和 Hadoop 之间进行数据迁移的工具, 可以讲关系型数据库中的数据导入到 Hadoop 的 HDFS 中,同样也完全可以把 HDFS 的数据导
2023-04-23
23
HBase-优化 HBase-优化
HBase-rowkey设计优化 代码优化 创建表的时候,可以通过 HColumnDescriptor.setInMemory(true) 将表放到 RegionServer 的缓存中,保证在读取的时候被 cache 命中 创建表的
2023-04-23
23
HBase-rowkey设计优化 HBase-rowkey设计优化
性能上考虑 一条数据的唯一标识就是 rowkey,而这行数据最终存储到哪一个分区里面,取决于分区(HBase-预分区),如果从性能上考虑 rowkey 优化,应该考虑的是让数据均匀的分布在所有的 region 中,防止数据的倾斜。 设计方案
2023-04-23
23
HBase-预分区 HBase-预分区
在默认情况下,在使用 hbase 创建表的时候会自动创建一个 region 分区,所有 hbase 的客户端的数据都写到这个 region 分区里面,一直到 region 足够大的时候才进行切分。每一个 region 维护着 startRo
2023-04-23
23
Hadoop-HBase-Hive-集成 Hadoop-HBase-Hive-集成
HBase 提供的查询主要还是通过 key 的方式进行的,相比 hive,hbase 的查询要薄弱很多。Hive 整合 HBase 后的使用场景: 通过 Hive 把数据加载到 HBase 中,数据源可以是文件也可以是 Hive 中的表
2023-04-23
23
23
23
23
HBase-常用命令 HBase-常用命令
hbase shell 进入shell help 命令查看帮助文档 list 命令查看数据库中的表 创建表 创建 person 表,包含 info, data 两个列族 然后查看表结构 create 'person', 'info', 'd
2023-04-23
23
23
Hadoop-13.HBase-特点 Hadoop-13.HBase-特点
HBase 列式数据库简介 HBase 是一个开源的非关系型分布式数据库(NoSql) 原型是 Google 的 BigTable 论文,受到了该论文思想的启发,目前作为Hadoop 的子项目来开发维护。它介于 nosql 和 RDBMS
2023-04-23
22
Hadoop-12.Hive-特点 Hadoop-12.Hive-特点
Hive 简介 Hive 是属于 Hadoop 的数据仓库工具,可以让使用者将结构化数据映射成一张张数据库的表,让用户能通过 SQL 来查询数据。用户出 SQL 命令给 hive,hive 把 SQL 语句转换成 MapReduce 查询分
2023-04-22
22
22
Hive-分桶 Hive-分桶
创建桶表 set hive.enforce.bucketing=true; set mapreduce.job.reduces=4; drop table person_buck; create table person_buck(si
2023-04-22
22
22
22
22 / 35