百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

Mysql和Hive之间通过Sqoop进行数据同步

bigegpt 2025-05-21 12:11 26 浏览


文章回顾

理论

大数据框架原理简介

大数据发展历程及技术选型

实践

搭建大数据运行环境之一

搭建大数据运行环境之二

本地MAC环境配置

CPU数和内存大小

  • 查看CPU数
  • sysctl machdep.cpu
    
    # 核数为4
    machdep.cpu.core_count: 4    
    # cpu数量为8个,使用了超线程技术:四核八线程
    machdep.cpu.thread_count: 8  
    
  • 内存大小
  • top -l 1 | head -n 10 | grep PhysMem
    
    PhysMem: 16G used (10G wired), 67M unused.
    

    在本地开了3个虚拟机centos服务器

    虚拟机服务器配置

    服务器1 192.168.84.128 4核4G
    服务器2 192.168.84.131 1核2G
    服务器3 192.168.84.132 1核2G
    
    因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来
    
    

    虚拟机软件给一个虚拟机分配核数和内存的方式

    通过Sqoop查看Mysql数据库

    /usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456
    

    在Hive中创建测试表

    创建test表

    CREATE TABLE IF NOT EXISTS test (
    id int
    ,uid int
    ,title string
    ,name string
    ,status int
    ,time timestamp)
    COMMENT '简介'
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY "\001"
    LINES TERMINATED BY "\n"
    STORED AS TEXTFILE;
    

    创建test_out表

    CREATE TABLE IF NOT EXISTS test_out (
    name string
    , count int
    ,time date)
    COMMENT '简介'
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\001'
    LINES TERMINATED BY '\n'
    STORED AS TEXTFILE;
    

    hive删除表

  • 使用truncate仅可删除内部表数据,不可删除表结构
  • truncate table 表名
    (truncate可删除所有的行,但是不能删除外部表)
    
  • 使用shell命令删除外部表
  • hdfs -dfs -rm -r 外部表路径
    
  • 使用 drop 可删除整个表
  • drop table 表名
    

    查看hive表

  • 查询hive所有表
  • hive -e "show databases ;" > databases.txt
    
    cat databases.txt
    default
    
  • 指定default数据库
  • ./hive -d default
    

    在Mysql中创建测试表

  • 创建test
  • DROP TABLE IF EXISTS `test`;
    CREATE TABLE `test` (
      `id` int(10) DEFAULT NULL,
      `uid` int(10) DEFAULT NULL,
      `title` varchar(100) DEFAULT NULL,
      `name` varchar(100) DEFAULT NULL,
      `status` int(10) DEFAULT NULL,
      `time` timestamp NULL DEFAULT NULL
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
    

    插入3条测试数据

    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');
    
    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');
    
    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');
    
  • 创建test_out
  • DROP TABLE IF EXISTS `test_out`;
    CREATE TABLE `test_out` (
      `name` varchar(100) DEFAULT NULL,
      `count` int(10) DEFAULT NULL,
      `time` date DEFAULT NULL
    ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
    

    Mysql导入Hive

    /usr/local/sqoop/bin/sqoop import \
    --driver com.mysql.jdbc.Driver \
    --connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
    --username root \
    --password 123456 \
    --table test \
    --fields-terminated-by '\001' \
    --lines-terminated-by '\n' \
    --delete-target-dir \
    --num-mappers 1 \
    --hive-import \
    --hive-database default \
    --hive-table test \
    --direct
    
    虽然有报错 
    
    ERROR bonecp.BoneCP: Unable to start/stop JMX
    java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")
    
    但不影响导入结果
    
  • 查看hive表
  • 说明从Mysql导入hive成功
    

    增量数据定时导入

    mysql test表增加一条测试数据

    INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');
    
  • 删除指定job
  • /usr/local/sqoop/bin/sqoop job --delete testJob
    
  • 添加一个增量更新的job
  • /usr/local/sqoop/bin/sqoop job --create testJob -- \
    import \
    --driver com.mysql.jdbc.Driver \
    --connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
    --username root \
    --password 123456 \
    --table test \
    --check-column time \
    --incremental lastmodified \
    --last-value '2018-08-09 15:30:29' \
    --merge-key id \
    --fields-terminated-by '\001' \
    --lines-terminated-by '\n' \
    --num-mappers 1 \
    --target-dir /user/hive/warehouse/test
    
  • 执行job
  • /usr/local/sqoop/bin/sqoop job --exec testJob
    
  • 查看数据已被更新
  • 查看job
  • /usr/local/sqoop/bin/sqoop job --show testJob
    

    通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务

    Hive导入Hive

    
    cd /usr/local/hive/bin
    
    hive
    
    # 统计后将结果数据加入另一个表
    INSERT INTO TABLE 
    test_out(name,count,time) 
    SELECT name,count(1),to_date(time) 
    FROM test 
    GROUP BY name,to_date(time);
    
    # 或者
    
    INSERT OVERWRITE 
    TABLE test_out
    SELECT name,count(1),to_date(time) 
    FROM test 
    GROUP BY name,to_date(time);
    

    查看统计结果

    统计成功
    

    Hive导入Mysql

    
    # hive的default库中的test_out表数据导出到mysql的test库test_out表
    
    /usr/local/sqoop/bin/sqoop export \
    --connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
    --username root \
    --password 123456 \
    --input-null-string '\\N' \
    --input-null-non-string '\\N' \
    --input-fields-terminated-by '\t' \
    --table test_out \
    --hcatalog-database default \
    --hcatalog-table test_out \
    -m 1;
    
    
    
    导出成功
    

    可能遇到的问题及注意点

  • hive访问mysql数据库权限问题
  • 服务器1上hive访问mysql如果报错
    
    Access denied for user 'root'@'192.168.84.128' (using password: YES)
    

    mysql需要授权访问者

    GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;
    
    flush privileges;
    
  • 在namenode上执行
  • 报错:
    
    RemoteException(org.apache.hadoop.ipc.StandbyException):
    Operation category READ is not supported in state standby
    
    原因:
    
    服务器1是namenode节点 active 状态
    服务器2是secondNamenode节点是 standby状态
    
    执行命令要在active的namenode才可以
    
  • 只有namenode才会有webui 50070端口
  • 服务器1(192.168.84.128)上安装namenode 有50070端口
    服务器2(192.168.84.131)上安装secondNamenode 有50070端口
    服务器3(192.168.84.132)上没有安装namenode 没有
    

    后记

    接下来研究的方向:
    
    1、hive运行原理
    2、弄一笔数据走一下搭建好的大数据运行环境
    3、10亿数据如何分库分表存储Mysql
    4、10亿数据同步到hive
    5、flink数据如何求交
    
    

    相关推荐

    Linux gron 命令使用详解(linux gminer)

    简介gron是一个独特的命令行工具,用于将JSON数据转换为离散的、易于grep处理的赋值语句格式。它的名字来源于"grepableon"或"grepable...

    【Linux】——从0到1的学习,让你熟练掌握,带你玩转Linu

    学习Linux并掌握Java环境配置及SpringBoot项目部署是一个系统化的过程,以下是从零开始的详细指南,帮助你逐步掌握这些技能。一、Linux基础入门1.安装Linux系统选择发行版:推荐...

    Linux常用的shell命令汇总(linux中shell的作用)

    本文介绍Linux系统下常用的系统级命令,包括软硬件查看、修改命令,有CPU、内存、硬盘、网络、系统管理等命令。说明命令是在Centos6.464位的虚拟机系统进行测试的。本文介绍的命令都会在此C...

    零成本搭建个人加密文件保险柜(适用于 Win11 和 Linux)

    不依赖收费软件操作简单,小白也能跟着做支持双系统,跨平台使用实现数据加密、防删除、防泄露内容通俗无技术门槛,秒懂秒用使用工具简介我们将使用两个核心工具:工具名用途系统支持Veracrypt创建加密虚...

    如何在 Linux 中使用 Gzip 命令?(linux怎么用gzip命令)

    gzip(GNUzip)是Linux系统中一个开源的压缩工具,用于压缩和解压缩文件。它基于DEFLATE算法,广泛应用于文件压缩、备份和数据传输。gzip生成的文件通常带有.gz后缀,压缩效率...

    Linux 必备的20个核心知识点(linux内核知识点)

    学习和使用Linux所必备的20个核心知识点。这些知识点涵盖了从基础操作到系统管理和网络概念,是构建扎实Linux技能的基础。Linux必备的20个知识点1.Linux文件系统层级标...

    谷歌 ChromeOS 已支持 7z、iso、tar 文件格式

    IT之家6月21日消息,谷歌ChromeOS在管理文件方面进行了改进,新增了对7z、iso和tar等格式的支持。从5月的ChromeOS101更新开始,ChromeOS...

    如何在 Linux 中提取 Tar Bz2 文件?

    在深入解压方法之前,我们先来了解.tar.bz2文件的本质。.tar.bz2是一种组合文件格式,包含两个步骤:Tar(TapeArchive):tar是一种归档工具,用于将多个文件或目录打包...

    如何在 CentOS 7/8 上安装 Kitematic Docker 管理器

    Kitematic是一款流行的Docker图形界面管理平台,适用于Ubuntu、macOS和Windows操作系统。然而,其他发行版(如CentOS、OpenSUSE、Fedora、R...

    Nacos3.0重磅来袭!全面拥抱AI,单机及集群模式安装详细教程!

    之前和大家分享过JDK17的多版本管理及详细安装过程,然后在项目升级完jdk17后又发现之前的注册和配置中心nacos又用不了,原因是之前的nacos1.3版本的,版本太老了,已经无法适配当前新的JD...

    爬虫搞崩网站后,程序员自制“Zip炸弹”反击,6刀服务器成功扛住4.6万请求

    在这个爬虫横行的时代,越来越多开发者深受其害:有人怒斥OpenAI的爬虫疯狂“偷”数据,7人团队十年心血的网站一夜崩溃;也有人被爬虫逼到极限,最后只好封掉整个巴西的访问才勉强止血。但本文作者却走...

    Ubuntu 操作系统常用命令详解(ubuntu必学的60个命令)

    UbuntuLinux是一款流行的开源操作系统,广泛应用于服务器、开发、学习等场景。命令行是Ubuntu的灵魂,也是高效、稳定管理系统的利器。本文按照各大常用领域,详细总结Ubuntu必学...

    Linux面板8.0.54 测试版-已上线(linux主机面板)

    Linux面板8.0.54测试版【增加】[网站]Java项目新增刷新列表按钮【增加】[网站]PHP项目-Apache-服务新增守护进程功能【增加】[网站]Python项目创建/删除网站时新增同时创建...

    开源三剑客——构建私有云世界的基石

    公共云原生的浪潮正在席卷这个世界,亚马逊AWS、谷歌GCP和微软的Azure年收入增长超过了30%,越来越多的公司和个人开始将自己的服务部署到云环境中,大型数据中心的规模经济带来了成本的降低,可以在保...

    2.2k star,一款业界领先的私有云+在线文档管理系统

    简介kodbox可道云(原KodExplorer)是业内领先的企业私有云和在线文档管理系统,为个人网站、企业私有云部署、网络存储、在线文档管理、在线办公等提供安全可控,简便易用、可高度定制的私有云产品...