【Python】Python连接Hadoop数据中遇到的各种坑(汇总)

发布时间:2024-11-18 05:01

获得Hadoop或Python认证以增加数据处理技能 #生活技巧# #工作学习技巧# #职场技能认证#

最近准备使用Python+Hadoop+Pandas进行一些深度的分析与机器学习相关工作。(当然随着学习过程的进展,现在准备使用Python+Spark+Hadoop这样一套体系来搭建后续的工作环境),当然这是后话。
但是这项工作首要条件就是将Python与Hadoop进行打通,本来认为很容易的一项工作,没有想到竟然遇到各种坑,花费了整整半天时间。后来也在网上看到大家在咨询相同的问题,但是真正解决这个问题的帖子又几乎没有,所以现在将Python连接Hadoop数据库过程中遇到的各种坑进行一个汇总,然后与大家进行分享,以尽量避免大家花费宝贵的时间。

(说明一下:这篇文章中的各种坑的解决,翻阅了网上无数的帖子,最好一GIT上面一个帖子的角落里面带了这么一句,否则很容易翻船。但是由于帖子太多,所以我就不一一帖出来了)

首先是选组件,我选择的是使用:impala+Python3.7来连接Hadoop数据库,如果你不是的话,就不要浪费宝贵时间继续阅读了。

执行的代码如下:

import impala.dbapi as ipdb conn = ipdb.connect(host="192.168.XX.XXX",port=10000,user="xxx",password="xxxxxx",database="xxx",auth_mechanism='PLAIN') cursor = conn.cursor() #其中xxxx是表名,为了不涉及到公司的信息,我把表名隐藏掉了,大家自己换成自己数据库表名 cursor.execute('select * From xxxx') print(cursor.description) # prints the result set's schema for rowData in cursor.fetchall(): print(rowData) conn.close() 123456789

坑一:提示语法错误
现象:

/Users/wangxxin/miniconda3/bin/python3.7 /Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py Traceback (most recent call last): File "/Users/wangxxin/Documents/Python/PythonDataAnalyze/project/knDt/pyHiveTest.py", line 1, in <module> import impala123

网址:【Python】Python连接Hadoop数据中遇到的各种坑(汇总) https://www.yuejiaxmz.com/news/view/114273

相关内容

Python中的遇到的错误(持续更新)
python
5 个自动化生活的 Python 项目:从初学者到高级
生活中的5 个自动化Python 项目——从初学者到高级(附零基础学习教程)
从初级到高级,5个可以用到生活中的Python自动化项目
Python笔记——Python中is和==的区别
python中的print()语句中的end=''是什么意思
python在生活过中的应用
python爬取B站千万级数据,发现了这些热门UP主的秘密!
最受欢迎的11个Python编程软件,工作效率直接起飞!

随便看看