「hadoop编程java」Hadoop编程论述题

admin 2023-01-19 01:27:06 1014

今天给各位分享hadoop编程java的知识，其中也会对Hadoop编程论述题进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、hadoop里怎么运行java的tar包
2、hadoop支持什么开发语言
3、学习hadoop需要java吗？

hadoop里怎么运行java的tar包

第一种：原生态运行jar包

1，利用eclipse编写Map-Reduce方法，一般引入Hadoop-core-1.1.2.jar。注意这里eclipse里没有安装hadoop的插件，只是引入其匝包，该eclipse可以安装在windows或者linux中，如果是在windows中安装的，且在其虚拟机安装的linux，可以通过共享文件夹来实现传递。

2，编写要测试的数据，如命名为tempdata

3，利用eclipse的export来打包已编写好的，在利用eclipse打包jar的时候，只需要选择src即可，一般只打包程序文件，并且需要选择main class，将该jar放到如/home/hadoop/docum/Test.jar

4，将要分析的数据传到hdfs上

hadoop fs -put /home/hadoop/myhadoopdata/tempdata ./testdata/

5,开始执行jar

hadoop jar /home/hadoop/Docum/Test.jar /user/hadoop/temperatur output

这是一种利用jar来运行的。

这里Test.jar在本地，jar没必要上传到hdfs上

参数依次为

本地mapred程序，hdfs的测试数据即输入文件，输出文件夹。

hadoop jar /home/hadoop/Temperature.jar inputpath outputpath

注意：这里可以不需要指定类的名称，而输出的文件夹outputpath不能事先已经存在。

第二种：伪分布式下运行WordCount

1，拷贝源代码

cp /usr/local/hadoop1.1.2/src/examples/org/apache/hadoop/examples/WordCount.java ~/ygch/hadoop/

2，编译源代码，放到指定的文件夹如这里的class下

javac

-classpath /usr/local/hadoop1.1.2/hadoop-core1.1.2.jar：

/usr/local/hadoop1.1.2/lib/commons-cli-1.2.jarWordCount.java -d class,

利用-classpath选项指定WordCount需要的jar包。hadoop目录下存放jar包的位置有两个：根目录和/lib目录。然后我们可以通过jar tvf *.jar查看jar包内容，进而可以知道WordCount需要的是哪几个jar包。

-d选项指定生成的类文件的位置，在编译的时候这个选项必须重新指定，不能让class文件生成在当前目录下。

3,将class文件打包成一个jar包：

jar cvf WordCount.jar -C classes/ .

注意不要忘记最后有一个点.，这个点点必须和前面要有空格，否则jar命令报错。该点指示jar命令的文件列表，表示指定目录下的所有文件。

4，生成input文件：

由于运行hadoop时指定的输入文件只能是HDFS文件系统中的文件，所以我们必须将要进行wordcount的文件从本地文件系统拷贝到HDFS文件系统中。

hadoop fs -mkdir input

hadoop fs -put testfile input

5. 运行jar包：

hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output

在运行命令中由于WordCount.java中包括package信息，所以我们在指定类时要包含package的完整信息。

6. 查看结果

在hadoop程序运行完后，结果会放在output目录下，该目录是自动生成的。查看命令为：

hadoop fs -cat output/part-r-00000

使用-cat或者-text都行

第三种Hadoop直接执行Class文件

可以事先在eclipse中编译好class，然后直接利用hadoop来执行该class文件

在Hadoop集群中运行作业的时候，必须要将程序打包为jar文件。

在Hadoop本地和伪分布中可以运行jar文件，也可以直接运行class文件,注意直接运行class文件，必须是没有map和reducer的，直接获取FileSystem来进行操作。

如果类有包名，拷贝的时候也要将其包名拷贝，然后

hadoop支持什么开发语言

hadoop支持C++，Java开发语言。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。MapReduce是处理大量半结构化数据集合的编程模型。编程模型是一种处理并结构化特定问题的方式。

例如，在一个关系数据库中，使用一种集合语言执行查询，如SQL。告诉语言想要的结果，并将它提交给系统来计算出如何产生计算。还可以用更传统的语言(C++，Java)，一步步地来解决问题。这是两种不同的编程模型，MapReduce就是另外一种。

扩展资料

特点

1、确定哪些数据属于企业的敏感数据。根据公司的隐私保护政策，以及相关的行业法规和政府规章来综合确定。

2、确保数据保护方案同时采用了隐藏和加密技术，尤其是如果我们需要将敏感数据在Hadoop中保持独立的话。

3、确保需要加密的时候有合适的技术(比如Java、Pig等)可被部署并支持无缝解密和快速访问数据。

参考资料来源：百度百科—Hadoop

学习hadoop需要java吗？

需要。原因如下:

1.大数据支持很多开发语言，但企业用的最多的还是java，所以并不是完全需要，有其它语言基础也可以，同时hadoop是由java编写的，要想深入学习，学习java是有必要的。

2.于此，hadoop一般在工业环境大部分是运行在linux环境下，hadoop是用java实现的。所以最好是熟悉linux环境下编程。至于java做到看得懂比较好，遇到问题可以看看源码从而找出问题在哪。所以如果你想操作hadoop的话，需要java知识：比如IO流，JDBC之类，更是要重点掌握。

3.其实，如果要进行Hadoop开发领域，那么编码知识是必须的。没有java 或python的知识，你不能成为hadoop开发人员的主人。所以，这完全取决于具体方面。

但是，在所有方面都是必须的，这是基本知识和基础知识。一般建议在选择任何方面的第一个主题之前，如果有Java和Python的知识，那么这是一个额外的优势。如果想掌握大数据，那么首先要了解一下为什么应该学习大数据，为什么大数据出现在哪里，大数据等等。如今，每个人都在学习hadoop，所以如果想在hadoop开始你的职业生涯，那么需要了解什么是大数据。很多人在理解大数据时往往会盲目地认为处理大量数据就是大数据，稍懂一些的人往往认为学习大数据就是学习hadoop。

hadoop编程java的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于Hadoop编程论述题、hadoop编程java的信息别忘了在本站进行查找喔。

标签：hadoop编程java