求仁得仁
Hive-dd与dmll-常用命令 Hive-dd与dmll-常用命令
创建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMEN
2023-04-22
Hadoop-共同好友Demo Hadoop-共同好友Demo
思路 原数据: A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,s,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,
2023-04-22
Hadoop-倒排索引-文章单词统计Demo Hadoop-倒排索引-文章单词统计Demo
思路 (倒推法) 第二步: Reduce key:单词 values[] 文章–次数 Map key: 单词 value: 文章–次数 第一步: Reduce key: 单词–文档位置 value: 单词次数 Map
2023-04-22
NFS-Rocky安装NFS NFS-Rocky安装NFS
# 服务端和客户端都需安装 dnf install nfs-utils # 启动服务端 systemctl enable nfs-server systemctl start nfs-server systemctl status nfs
2023-04-21
NFS-Linux配置NFS服务 NFS-Linux配置NFS服务
服务端 创建服务端共享目录 配置NFSv4服务器时,一个好的做法是使用全局NFS根目录,并将实际目录绑定到共享挂载点。 一般使用/srv/nfs4目录作为NFS根目录。 sudo mount --bind /var/www /srv/nfs
2023-04-21
Linux-Rocky安装Docker Linux-Rocky安装Docker
dnf config-manager --add-repo=https://download.docker.com/linux/centos/docker-ce.repo dnf update dnf install -y docker-c
2023-04-21
Hadoop-数据压缩 Hadoop-数据压缩
原则 MapReduce 支持压缩,通过压缩算法对 mapper 或者 reducer 的最终数据结果进行压缩 好处:减少了磁盘 io,提高了 MR 获取数据的速度,节省了磁盘空间 坏处:压缩需要增加 cpu 的运算负担 原则: 运算
2023-04-21
Hadoop-自定义OutputFileFormat-Demo Hadoop-自定义OutputFileFormat-Demo
如果单词是老师人名,放到一个目录,否则放到另外一个目录 TeacherOutPutFormat.java public class TeacherOutPutFormat extends FileOutputFormat<Text,N
2023-04-21
Hadoop-自定义InputFileFormat-Demo Hadoop-自定义InputFileFormat-Demo
以 excel 的文件举例 pom.xml <dependency> <groupId>net.sourceforge.jexcelapi</groupId> <artifactId
2023-04-21
Hadoop-单词分组排序统计Demo Hadoop-单词分组排序统计Demo
先进行单词统计: Hadoop-单词统计Demo 排序 利用对Mapper输出的Key的自动排序进行排序 public class WCSortMapper extends Mapper<LongWritable, Text, Des
2023-04-20
Hadoop-单词统计Demo Hadoop-单词统计Demo
导入 hadoop 和 hadoop.mapreduce 包下的类 WCMapper.java // 泛型分别是:输入的键值类型; 输出的键值类型 public class WCMapper extends Mapper<LongW
2023-04-20
Hadoop-FileSystem-文件操作Demo Hadoop-FileSystem-文件操作Demo
FSTest.java /** * 需要安装Hadoop程序, 并配置环境变量(HADOOP_HOME) * 不配置也可以使用部分功能 * 配置本地的hosts文件, 对应hadoop01的ip地址 */ @Slf4j public
2023-04-20
maven-更换阿里源 maven-更换阿里源
<mirror> <id>alimaven</id> <mirrorOf>central</mirrorOf> <name>aliyun maven&l
2023-04-20
Hadoop-fs-常用命令 Hadoop-fs-常用命令
命令 作用 hadoop fs -help 帮助命令 hadoop fs -ls / 显示目录信息 hadoop fs -ls hdfs://hadoop01:9000/ 显示目录信息(使用Nn节点) hadoop
2023-04-20
Linux-yum安装jdk11 Linux-yum安装jdk11
# 查看与 java-11 有关的包 yum list | grep java-11 # 安装这三个即可 yum install java-11-openjdk.x86_64 java-11-openjdk-devel.x86_64
2023-04-18
python-忽略警告 python-忽略警告
import warnings warnings.filterwarnings('ignore')
2023-04-16
pandas-dataframe查询第一个符合条件的index pandas-dataframe查询第一个符合条件的index
# A 列第一个大于 2 的 index df['A'].gt(2).idxmax() # A 列最后一个小于 2 的 index # 技巧: 使用 [::-1] 进行反转 df['A'][::-1].lt(2).idxmax() #
2023-04-16
python-执行sql语句 python-执行sql语句
# 比如 pgsql # 开源数据库都差不多, 导入对应的包就可以了 import psycopg2 conn = psycopg2.connect(database=self.db_database, user=self.db_use
2023-04-16
5 / 8