当前位置：首页 > news >正文

基于Eclipse的Hadoop应用开发环境配置

news 来源：原创 2024/5/19 4:06:19

我的开发环境：

操作系统centos5.5 一个namenode 两个datanode

Hadoop版本：hadoop-0.20.203.0

Eclipse版本：eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃，让人郁闷)

第一步：先启动hadoop守护进程

具体参看：http://www.cnblogs.com/flyoung2008/archive/2011/11/29/2268302.html

第二步：在eclipse上安装hadoop插件

1.复制 hadoop安装目录/contrib/eclipse-plugin/hadoop-0.20.203.0-eclipse-plugin.jar 到 eclipse安装目录/plugins/ 下。

2.重启eclipse，配置hadoop installation directory。
如果安装插件成功，打开Window-->Preferens，你会发现Hadoop Map/Reduce选项，在这个选项里你需要配置Hadoop installation directory。配置完成后退出。

3.配置Map/Reduce Locations。
在Window-->Show View中打开Map/Reduce Locations。
在Map/Reduce Locations中新建一个Hadoop Location。在这个View中，右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name，如Hadoop，还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。如：

Map/Reduce Master

192.168.1.101
9001

DFS Master

192.168.1.101
9000

配置完后退出。点击DFS Locations-->Hadoop如果能显示文件夹(2)说明配置正确，如果显示"拒绝连接"，请检查你的配置。

第三步：新建项目。
File-->New-->Other-->Map/Reduce Project
项目名可以随便取，如WordCount。
复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。

第四步：上传模拟数据文件夹。
为了运行程序，我们需要一个输入的文件夹，和输出的文件夹。
在本地新建word.txt

java c++ python c
java c++ javascript 
helloworld hadoop
mapreduce java hadoop hbase

通过hadoop的命令在HDFS上创建/tmp/workcount目录，命令如下：bin/hadoop fs -mkdir /tmp/wordcount

通过copyFromLocal命令把本地的word.txt复制到HDFS上，命令如下：bin/hadoop fs -copyFromLocal /home/grid/word.txt /tmp/wordcount/word.txt

第五步：运行项目

1.在新建的项目Hadoop，点击WordCount.java，右键-->Run As-->Run Configurations
2.在弹出的Run Configurations对话框中，点Java Application，右键-->New，这时会新建一个application名为WordCount
3.配置运行参数，点Arguments，在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”，如：

hdfs://centos1:9000/tmp/wordcount/word.txt   hdfs://centos1:9000/tmp/wordcount/out

4、如果运行时报java.lang.OutOfMemoryError: Java heap space 配置VM arguments(在Program arguments下)

-Xms512m -Xmx1024m -XX:MaxPermSize=256m

5.点击Run，运行程序。

点击Run，运行程序，过段时间将运行完成，等运行结束后，查看运行结果，使用命令： bin/hadoop fs -ls /tmp/wordcount/out查看例子的输出结果，发现有两个文件夹和一个文件，使用命令查看part-r-00000文件， bin/hadoop fs -cat /tmp/wordcount/out/part-r-00000可以查看运行结果。

c    1
c++    2
hadoop    2
hbase    1
helloworld    1
java    3
javascript    1
mapreduce    1
python    1

转载于:https://www.cnblogs.com/flyoung2008/archive/2011/12/09/2281400.html

特殊字符保存到SQL数据库的问题

博客~希望给我一个新的天地，学习，工作，生活，情感~

啤酒游戏的牛鞭效应之VMI策略减弱

2012放假明细

ubuntu 10.04 3D特效设置（包含缺失的动画）

使用织梦cms5.5出现栏目无法更改怎么解决？

刷新本地电脑上的 DNS 信息

雨林木风 Ylmf OS 3.0正式版发布基于Ubuntu 10.04

Redhat 中裸设备(raw) 的配置和oracle中使用

JSP学习——怎样为没有JSTL的项目加上jstl标签库

常量like数据库表中的列

OGC标准介绍 11

javascript 对象基础定义类或对象(1)

SQL2005中的事务与锁定(一到九整合版)

JAVA实现实用的ZIP压缩与解压

【腾讯Bugly干货分享】从0到1打造直播 App

ES6, React, Redux, Webpack写的一个爬 GitHub 的网页

git 常用命令

httpie使用详解

Node + FFmpeg 实现Canvas动画导出视频

Perseus-BERT——业内性能极致优化的BERT训练方案

Redis的resp协议

vue-router的history模式发布配置

搞机器学习要哪些技能

欢迎参加第二届中国游戏开发者大会

机器学习中为什么要做归一化normalization

基于webpack 的 vue 多页架构

深度学习中的信息论知识详解

使用阿里云发布分布式网站，开发时候应该注意什么？

#stm32整理（一）flash读写

$Django python中使用redis, django中使用(封装了),redis开启事务(管道)

(1)Map集合 (2)异常机制 (3)File类 (4)I/O流

（二）JAVA使用POI操作excel

（附源码）基于SSM多源异构数据关联技术构建智能校园-计算机毕设 64366

(官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell

（六）Hibernate的二级缓存

（十）T检验-第一部分

(太强大了) - Linux 性能监控、测试、优化工具

（一）RocketＭＱ初步认识

(转) RFS+AutoItLibrary测试web对话框

（转）一些感悟

.NET Core 通过 Ef Core 操作 Mysql

.Net 转战 Android 4.4 日常笔记（4）--按钮事件和国际化

.net反编译工具

.net流程开发平台的一些难点（1）

.NET中使用Redis (二)

@Mapper作用

@SentinelResource详解

[100天算法】-二叉树剪枝（day 48）

[20190113]四校联考

[Android] Upload package to device fails #2720

[Assignment] C++1

[C# 开发技巧]实现属于自己的截图工具

[c++] 单例模式 + cyberrt TimingWheel 单例分析

[CentOs7]图形界面

相关文章：