hadoop目前遇到的问题
遇到问题时,以解决问题为目标 #生活技巧# #生活小窍门# #心理调适建议# #家庭和睦秘诀#
现在感觉瓶颈是没有真正运行的hadoop的实例,资料太少,完全无从下手
MapReduce的特点是适合一次写,多次读的场景,但这是怎么实现的呢?
例如一次写,就类似于建立数据结构,然后建立索引,或者再排序一下,数据的位置再调整一下,这样就有利于多次读的操作了。
就比如权威指南中的天气的例子,我可以把所有的数据,取得年份日期和温度,其他数据都放弃,然后排序,甚至是建立一个索引,把这个数据保存在新的文件中,甚至是把同一个年份作为key,value值是所有的温度的值,这样查询年份的时候就非常快了,处理后的数据保存在文件中,然后新的请求就会很快
那么新的请求也是要做 Map,Reduce操作的吗?MapReduce框架,这是比如的,map是必不可少的操作。
下面就是改写InputFormat和RecordReader的问题了的问题了,
InputFormat是如何构造Split的问题,主要就是对文件流的操作,要实现的是两个方法
RecordReader主要的两个方法是 init 和next,对应与hadoop++中的itemize.init()和 itemize.next()
hadoop++中的意思是,把数据按照split的方式保存在文件中,不同的split按照footer区分,那么我怎么写呢?要在reduce端口写吗?这个问题要想一想
看了streaming的源代码,主要看的是 StreamXmlRecordReader和StreamInputSplit,好麻烦啊,只是看懂了大概意思,StreamXmlRecordReader的最终的操作是由slowReadUntilMatch()和fastReadUntilMatch来完成的,主要方法是正则表达式的匹配,其实就是在找xml的标记;StreamInputSplit主要就是构造三个类就可以,
网址:hadoop目前遇到的问题 https://www.yuejiaxmz.com/news/view/379743
相关内容
【Python】Python连接Hadoop数据中遇到的各种坑(汇总)Hadoop 2.x完全分布式安装
生活中遇到的问题
Hadoop配置集群的详细步骤
学习生活中遇到的问题
生活中我们会遇到各种各样的问题
生活总会遇到各种各样的问题
遇到女生问这4个问题,说明她对你动情了
遇到紧急问题时该如何解决
旧款 iPhone 突然遇到“激活出错”的问题怎么办?