使用SQOOP抽数到Hive遇到的问题详细介绍_F11 - 专业站长和开发者的学习网站

分享到

使用SQOOP抽数到Hive遇到的问题详细介绍

相关技巧 来源：互联网作者：佚名发布时间：2024-04-15 22:07:45 人浏览

摘要

使用SQOOP抽数到Hive遇到问题前置条件 1.源端数据库类型为Mysql 2.目标端是Hive库，beeline为1.1.0 3.Hive建表时使用了分桶，并且加入了stored as orc参数，之前这么创建是为了能够实现delete等操作处理

使用SQOOP抽数到Hive遇到问题

前置条件

1.源端数据库类型为Mysql

2.目标端是Hive库，beeline为1.1.0

3.Hive建表时使用了分桶，并且加入了stored as orc参数，之前这么创建是为了能够实现delete等操作

处理过程

最初想要在Sqoop中使用hcatalog直接建表+抽数据，语句是这样写的：

sqoop import --connect jdbc:mysql://XX.XX.XX.XX:19100/pms_scyw --username root --password ********\

--table t_sb_zwyc_xl --null-string '\\N' --null-non-string '\\N' \

--create-hcatalog-table \

--hcatalog-database test1 \

--hcatalog-table t_sb_zwyc_xl_521 \

--hcatalog-storage-stanza "clustered by (obj_id) into 16 buckets stored as orc TBLPROPERTIES('transactional'='true')"

#查到的资料说hcatalog-storage-stanza参数会在建表的时候自动加入到create语句之后，所以这里这样写

满心期待说能直接把工作做完了，结果就报错了，报错结果如下：

19/05/21 10:03:57 INFO hcat.SqoopHCatUtilities: Executing external HCatalog CLI process with args :-f,/tmp/hcat-script-1558404237184
19/05/21 10:04:00 INFO hcat.SqoopHCatUtilities: FAILED: IllegalArgumentException Decimal precision out of allowed range [1,38]
19/05/21 10:04:00 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: HCat exited with status 64
at org.apache.sqoop.mapreduce.hcat.SqoopHCatUtilities.executeExternalHCatProgram(SqoopHCatUtilities.java:1148)
at org.apache.sqoop.mapreduce.hcat.SqoopHCatUtilities.launchHCatCli(SqoopHCatUtilities.java:1097)
at org.apache.sqoop.mapreduce.hcat.SqoopHCatUtilities.createHCatTable(SqoopHCatUtilities.java:644)
at org.apache.sqoop.mapreduce.hcat.SqoopHCatUtilities.configureHCat(SqoopHCatUtilities.java:340)
at org.apache.sqoop.mapreduce.hcat.SqoopHCatUtilities.configureImportOutputFormat(SqoopHCatUtilities.java:802)
at org.apache.sqoop.mapreduce.ImportJobBase.configureOutputFormat(ImportJobBase.java:98)
at org.apache.sqoop.mapreduce.ImportJobBase.runImport(ImportJobBase.java:259)
at org.apache.sqoop.manager.SqlManager.importTable(SqlManager.java:692)
at org.apache.sqoop.manager.MySQLManager.importTable(MySQLManager.java:118)
at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:497)
at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:605)
at org.apache.sqoop.Sqoop.run(Sqoop.java:143)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:179)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:218)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:227)
at org.apache.sqoop.Sqoop.main(Sqoop.java:236)

看信息似乎是精度超过了限制，怎么会呢，随即看了看Sqoop生成的建表语句，找到端倪了：

`dqtz` varchar(6),

`dszll` decimal(12,4),

`dxmpyxkid` varchar(42),

`dycs` decimal(65),

可以看到有个字段的类型是decimal(65)，允许范围只有1-38，这显然超了，这咋办啊，只有求助谷歌大法了，查来查去也只发现这一个帖子：

帖子链接：https://kb.informatica.com/solution/23/pages/64/524288.aspx

原帖给了一种解决方法

Solution
To resolve this issue, we need to ensure that the Precision and the Scale of the Number datatype changes from 0 to a valid value.
To achieve this, add the following arguments in the JDBC parameters of the Oracle connection.
CatalogOptions=0;NumberPrecisionScale=1
Add above to the Connection string of the JDBC connection used for metadata access.
After modifying the JDBC connection string, re-import the metadata and verify if the right precision is getting imported.

意思就是说在JDBC串后面加上“CatalogOptions=0;NumberPrecisionScale=1”参数，可人家用的源库是oracle，我这是mysql，给的方法也不顶用，就很头大，没办法，只有花点时间自己建表然后把数据导进来了。

捯饬了一段时间，表建好了，ok，再抽一下试试看，这次语句变了下：

sqoop import --connect jdbc:mysql://XX.XX.XX.XX:19100/pms_scyw --username root --password ********\

--table t_sb_zwyc_xl --null-string '\\N' --null-non-string '\\N' \

--fields-terminated-by '~@!' -m 2 \

--hive-overwrite \

--hcatalog-database test1 \

--hcatalog-table t_sb_zwyc_xl_ljd \

--verbose ;

结果又报错了，好在不是和上次同样的错误，看看是什么问题：

ERROR tool.ImportTool: Encountered IOException running import job: org.apache.hive.hcatalog.common.HCatException : 2016 : Error operation not supported : Store into a partition with bucket definition from Pig/Mapreduce is not supported
at org.apache.hive.hcatalog.mapreduce.HCatOutputFormat.setOutput(HCatOutputFormat.java:109)
at org.apache.hive.hcatalog.mapreduce.HCatOutputFormat.setOutput(HCatOutputFormat.java:70)
at org.apache.sqoop.mapreduce.hcat.SqoopHCatUtilities.configureHCat(SqoopHCatUtilities.java:346)
at org.apache.sqoop.mapreduce.hcat.SqoopHCatUtilities.configureImportOutputFormat(SqoopHCatUtilities.java:768)
at org.apache.sqoop.mapreduce.ImportJobBase.configureOutputFormat(ImportJobBase.java:98)
at org.apache.sqoop.mapreduce.ImportJobBase.runImport(ImportJobBase.java:249)
at org.apache.sqoop.manager.SqlManager.importTable(SqlManager.java:665)

舒服了，这次直接是说不支持分桶格式了，查了下，貌似Sqoop暂时还是不支持分桶的表，但是可以通过临时表来进行一下数据的中转，那就先建个临时表，不过这个临时表不加“clustered by (obj_id) into 16 buckets”参数，只在create语句后加上stored as orc TBLPROPERTIES(‘transactional’=‘true’) 就行了，随后就是先把数据抽进临时表，在从临时表insert到目标表去就可以了。

一通操作做完以后验证一下表内的数据也是ok的。

虽然目的是达到了，但是发现了一个问题，在目标表中进行查询时，select后面加了limit的话，Hive服务会直接宕机掉，日志也没有ERROR级别的，很奇怪，只能后面再找找原因

您可能感兴趣的文章 :

原文链接 :

Tag :

vscode安装扩展Volar失败的解决方案

练习v3的项目时，发现vscode要安装volar扩展打开vscode扩展，搜索该扩展，下载时，总是提示Failed to install vue.volar.无法安装。点击尝试手动下
使用SQOOP抽数到Hive遇到的问题详细介绍

使用SQOOP抽数到Hive遇到问题前置条件 1.源端数据库类型为Mysql 2.目标端是Hive库，beeline为1.1.0 3.Hive建表时使用了分桶，并且加入了stored as o
typescript 实现RabbitMQ死信队列和延迟队列(订单10分

Manjaro安装RabbitMQ 安装 1 sudo pacman -S rabbitmq rabbitmqadmin 启动管理模块 1 2 sudo rabbitmq-plugins enable rabbitmq_management sudo rabbitmq-server 管理界面 http:/
VSCode隐藏侧边栏文件或文件夹的方法

VSCode 如何隐藏侧边栏文件或文件夹开发时有些文件根部就会动，可能是运行的环境或者缓存，可能是其他的文件。但是又不能删除，影响
油猴脚本开发详解+油猴爬虫脚本的介绍

在日常的爬虫工作和学习中经常用到油猴，真的感觉是浏览器最强插件，当油猴与爬虫结合的时候一个问题令人难以解决，到底该管这种方
Idea中使用git查看历史版本的教程

有好几次同事到我电脑用idea查看git管理的历史记录，每次都说我的idea看不了历史版本，叫我到他电脑上去看，很晕，为什么,原来是我自己
部署kubernetes-dashboard改成http免密登录的教程

原始链接地址 https://raw.githubusercontent.com/kubernetes/dashboard/v2.7.0/aio/deploy/recommended.yaml 修改Service端口增加80端口，改成http访问修改前: 1 2 3 4
不同系统打开JSON文件的6种方法介绍

JSON（JavaScript Object Notation）是从JavaScript派生的一个独立于语言的文件。JSON文件是纯文本文件，而不是二进制代码。这种文件格式是可读的，
Maui Blazor使用摄像头实现介绍

由于Maui Blazor中界面是由WebView渲染，所以再使用Android的摄像头时无法去获取，因为原生的摄像头需要绑定界面组件所以我找到了其他的实现
Archlinux Timeshift系统备份与还原的操作方法

以后都不怕archlinux滚挂或误删系统文件，timeshift系统备份与还原安装 timeshif 1 yay -s timeshif 备份设置选择快照类型此处选择【RSYNC】选择储