【Python】Python连接Hadoop数据中遇到的各种坑（汇总）

发布时间：2024-11-18 05:01

获得Hadoop或Python认证以增加数据处理技能 #生活技巧# #工作学习技巧# #职场技能认证#

最近准备使用Python+Hadoop+Pandas进行一些深度的分析与机器学习相关工作。（当然随着学习过程的进展，现在准备使用Python+Spark+Hadoop这样一套体系来搭建后续的工作环境），当然这是后话。
但是这项工作首要条件就是将Python与Hadoop进行打通，本来认为很容易的一项工作，没有想到竟然遇到各种坑，花费了整整半天时间。后来也在网上看到大家在咨询相同的问题，但是真正解决这个问题的帖子又几乎没有，所以现在将Python连接Hadoop数据库过程中遇到的各种坑进行一个汇总，然后与大家进行分享，以尽量避免大家花费宝贵的时间。

（说明一下：这篇文章中的各种坑的解决，翻阅了网上无数的帖子，最好一GIT上面一个帖子的角落里面带了这么一句，否则很容易翻船。但是由于帖子太多，所以我就不一一帖出来了）

首先是选组件，我选择的是使用：impala+Python3.7来连接Hadoop数据库，如果你不是的话，就不要浪费宝贵时间继续阅读了。

执行的代码如下：

import impala.dbapi as ipdb conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN') cursor = conn.cursor() #其中xxxx是表名，为了不涉及到公司的信息，我把表名隐藏掉了，大家自己换成自己数据库表名 cursor.execute('select * From xxxx') print(cursor.description) # prints the result set's schema for rowData in cursor.fetchall(): print(rowData) conn.close() 123456789

坑一：提示语法错误
现象：

/Users/wangxxin/miniconda3/bin/python3.7 /Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py Traceback (most recent call last): File "/Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py", line 1, in <module> import impala123

网址：【Python】Python连接Hadoop数据中遇到的各种坑（汇总） https://www.yuejiaxmz.com/news/view/114273

上一篇：windows自带磁盘清理深度挖

下一篇：小窍门教你6个清洁技巧把家务做

【Python】Python连接Hadoop数据中遇到的各种坑（汇总）

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享