求仁得仁
Hadoop-Sqoop-安装 Hadoop-Sqoop-安装
tar -zxvf 解压 sqoop-env.sh export HADOOP_COMMON_HOME= export HADOOP_MAPRED_HOME= export HIVE_HOME= export ZOOKEEPER_HOME
2023-04-23
Hadoop-14.Sqoop-特点 Hadoop-14.Sqoop-特点
Sqoop 简介 Sqoop 是 apache 旗下的工具,用于实现结构型数据(如关系数据库)和 Hadoop 之间进行数据迁移的工具, 可以讲关系型数据库中的数据导入到 Hadoop 的 HDFS 中,同样也完全可以把 HDFS 的数据导
2023-04-23
HBase-优化 HBase-优化
HBase-rowkey设计优化 代码优化 创建表的时候,可以通过 HColumnDescriptor.setInMemory(true) 将表放到 RegionServer 的缓存中,保证在读取的时候被 cache 命中 创建表的
2023-04-23
HBase-rowkey设计优化 HBase-rowkey设计优化
性能上考虑 一条数据的唯一标识就是 rowkey,而这行数据最终存储到哪一个分区里面,取决于分区(HBase-预分区),如果从性能上考虑 rowkey 优化,应该考虑的是让数据均匀的分布在所有的 region 中,防止数据的倾斜。 设计方案
2023-04-23
HBase-预分区 HBase-预分区
在默认情况下,在使用 hbase 创建表的时候会自动创建一个 region 分区,所有 hbase 的客户端的数据都写到这个 region 分区里面,一直到 region 足够大的时候才进行切分。每一个 region 维护着 startRo
2023-04-23
Hadoop-HBase-Hive-集成 Hadoop-HBase-Hive-集成
HBase 提供的查询主要还是通过 key 的方式进行的,相比 hive,hbase 的查询要薄弱很多。Hive 整合 HBase 后的使用场景: 通过 Hive 把数据加载到 HBase 中,数据源可以是文件也可以是 Hive 中的表
2023-04-23
HBase-Java api 常用操作Demo HBase-Java api 常用操作Demo
pom.xml <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</ar
2023-04-23
HBase-stop-hbase.sh: no hbase master found HBase-stop-hbase.sh: no hbase master found
hbase-env.sh 中添加: export HBASE_PID_DIR=/var/hbase/pids jps 查看 hbase 相关的 pid, 然后 kill -9 结束进程 start-hbase.sh 启动 hbase
2023-04-23
HBase-ServerNotRunningYetException: Server is not running yet HBase-ServerNotRunningYetException: Server is not running yet
hbase-site.xml 中添加: <property> <name>hbase.wal.provider</name> <value>filesystem</value&g
2023-04-23
HBase-常用命令 HBase-常用命令
hbase shell 进入shell help 命令查看帮助文档 list 命令查看数据库中的表 创建表 创建 person 表,包含 info, data 两个列族 然后查看表结构 create 'person', 'info', 'd
2023-04-23
Hadoop-HBase-高可用集群部署 Hadoop-HBase-高可用集群部署
启动 Hadoop 集群: Hadoop-集群部署 | Hadoop-高可用集群部署 启动 Zookeeper 集群: Zookeeper-高可用集群部署[DockerSwarm] 修改 HBase 配置文件 hbase-env.sh
2023-04-23
Hadoop-13.HBase-特点 Hadoop-13.HBase-特点
HBase 列式数据库简介 HBase 是一个开源的非关系型分布式数据库(NoSql) 原型是 Google 的 BigTable 论文,受到了该论文思想的启发,目前作为Hadoop 的子项目来开发维护。它介于 nosql 和 RDBMS
2023-04-23
Hadoop-12.Hive-特点 Hadoop-12.Hive-特点
Hive 简介 Hive 是属于 Hadoop 的数据仓库工具,可以让使用者将结构化数据映射成一张张数据库的表,让用户能通过 SQL 来查询数据。用户出 SQL 命令给 hive,hive 把 SQL 语句转换成 MapReduce 查询分
2023-04-22
Hive-UDF自定义函数-大小写转换Demo Hive-UDF自定义函数-大小写转换Demo
pom.xml <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifa
2023-04-22
Hive-分桶 Hive-分桶
创建桶表 set hive.enforce.bucketing=true; set mapreduce.job.reduces=4; drop table person_buck; create table person_buck(si
2023-04-22
Hive-窗口函数-常用函数 Hive-窗口函数-常用函数
CREATE TABLE window_demo(cookieid STRING, createtime STRING, pv INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; loa
2023-04-22
Hive-dd与dmll-常用命令 Hive-dd与dmll-常用命令
创建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMEN
2023-04-22
22 / 35