「并行排序java」并行排序的常用方法或技术有哪些?

admin 2023-03-18 14:15:07 345

本篇文章给大家谈谈并行排序java，以及并行排序的常用方法或技术有哪些?对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、C语言重要吗？？！！！！我是软件专业的很困惑
2、怎样学习大数据？
3、如何在Hadoop上编写MapReduce程序
4、如何实现线程安全？

C语言重要吗？？！！！！我是软件专业的很困惑

先说对楼主的建议：

C在应用方面的优势在于底层，以及任何对效率有苛刻要求的地方。这种地方并不少，如操作系统、嵌入式、一些软件中对效率要求高的部分。很多java程序也需要C来配合，如tomcat。

C对于专业技能锻炼方面意义更大。因为一个铁的事实是“熟悉内部原理的人更能写出优质的代码”，C对上承接高级语言，对下和汇编挂钩，这种特殊的位置注定了C在众多计算机语言中是了解计算机的一个绝佳切入点。即便只是不太深刻的了解，C配合着其他理论课程带给我的认知就是所谓非计算机专业出身的人没有的东西了。这是我个人的想法以及认为最重要的地方。

对于楼主现在的处境，我的建议是“学有余力以广为主，力有不逮以精为主”。对C即便兴趣不大也应该因它的重要性对自己要求严格一点点，一点点就够了，比及格高一点点即可。然后试着看看java，我是看孙鑫的视频入门的，感觉不错。然后依照兴趣，选择C还是java。但我相信，如果你走技术路线，总有一天你会回来重新审视C和试着去深入了解C的，而且不会太远。

另外我个人的经验是两点很重要：一个是兴趣所向，看楼主的提问方式就知道楼主也很赞同这点啊。另一个是培养自信，尤其是对于我这种心理不强大的人，我需要自信让我走下去。具体做法可以是先读薄的书，换一个你可以稍微虐待一下别人的环境（嘿嘿……），视楼主情况而定。

下面是我个人有关C的经验经历：

我现在是一个二本学校的计算机专业的，大三。（看到这你会不会怀疑我上面说的啊，哈哈）

大一上学期开的程序设计课程，C。当时我们学的C只是基本的语法，同时憧憬C++，因为据说C++能做界面，而不是C那样黑黑的框框，一点也不美观。而且当时见识浅薄，都不太知道Java，呵呵。但课堂状态比较好，保持听课和作业，不过课外一点不付出劳动。

大一下学期的重点是数据结构，也是通过C讲的，当时隐约的认识到重点是语言背后的东西，语言是一种媒介。正确的想法却导致我对C重要性的认识程度进一步下降，但对C的熟练度上升，期末作业是排序算法比较，还是一个黑框框的程序。

大一暑假加入学校ACM，做了杭电2000-2100的100道入门题目，还有其他的50+左右。那对于我的技术水平绝对是质的飞跃，体现在算法、C的熟练度、调适能力及各种细节上。但对C的认识没提高。尝试C++，不到两天放弃，╮(╯▽╰)╭。但做题时开始使用C++的模板及一些库函数。

大二相对懈怠。大二上有C++，是面向对象入门。我觉得你们学校的java应该是同一个目的。以面向对象理论的入门为主。不过我当时真是入门啊，迈进去脚看看就出来了。

大二下我都不记得干了什么了。。。好像是尝试Android来着，后来放弃了，有点陷入自我否定的情绪低潮。也是那时开始接触的java，但什么也没学到。

大二暑假，奋发图强，以广为主，通过看视频或文字教程+动手实践的方式接触了vc++、java、php、python。然后就迷上了python。当时对C的感觉有点微妙，因为C能做到一些python难以做到的事，而且python本身就是一个出色的C项目。开始重新审视C在众多语言中的位置。

大三上，开java课。很认真的听了java，并与python做对比，收获太大了，具体细节不提。对C的认识保持不变。

现在的寒假，做项目的时候看到了一些C的面向对象编程，发现，这绝对不是噱头。也开始看python的源码，更是深深为C的精巧灵活所折服。C不可或缺、必须要找时间再深入学习，这是我现在迫切的想法。

现在我学习时最关注3个东西：1.语言背后的东西。因为你是以语言提问，我就以语言上的经历回答，但这绝对不是最重要的，计算机科学的发展依托于什么？必然主要是理论的成长。而理论在实践中的影响像是隐形的，又无处不在、威力巨大。2.python特有的实现方式。3.用C实现时的适用性、效率优势多大、与python实现的对比等。就像刚才说的，第三点的关注度还在提高中。

以上个人经验，不一定正确，只是希望作为你的一个参考，给你些帮助。就像我刚学的时候渴求的那些帮助一样。 :-)

怎样学习大数据？

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

如何在Hadoop上编写MapReduce程序

用户配置并将一个Hadoop作业提到Hadoop框架中，Hadoop框架会把这个作业分解成一系列map tasks 和reduce tasks。Hadoop框架负责task分发和执行，结果收集和作业进度监控。

下图给出了一个作业从开始执行到结束所经历的阶段和每个阶段被谁控制（用户 or Hadoop框架）。

下图详细给出了用户编写MapRedue作业时需要进行那些工作以及Hadoop框架自动完成的工作：

在编写MapReduce程序时，用户分别通过InputFormat和OutputFormat指定输入和输出格式，并定义Mapper和Reducer指定map阶段和reduce阶段的要做的工作。在Mapper或者Reducer中，用户只需指定一对key/value的处理逻辑，Hadoop框架会自动顺序迭代解析所有key/value，并将每对key/value交给Mapper或者Reducer处理。表面上看来，Hadoop限定数据格式必须为key/value形式，过于简单，很难解决复杂问题，实际上，可以通过组合的方法使key或者value（比如在key或者value中保存多个字段，每个字段用分隔符分开，或者value是个序列化后的对象，在Mapper中使用时，将其反序列化等）保存多重信息，以解决输入格式较复杂的应用。

2.2 用户的工作

用户编写MapReduce需要实现的类或者方法有：

（1） InputFormat接口

用户需要实现该接口以指定输入文件的内容格式。该接口有两个方法

其中getSplits函数将所有输入数据分成numSplits个split，每个split交给一个map task处理。getRecordReader函数提供一个用户解析split的迭代器对象，它将split中的每个record解析成key/value对。

Hadoop本身提供了一些InputFormat：

（2）Mapper接口

用户需继承Mapper接口实现自己的Mapper，Mapper中必须实现的函数是

void map(K1 key,

V1 value,

OutputCollectorK2,V2 output,

Reporter reporter

) throws IOException

其中，K1 V1是通过Inputformat中的RecordReader对象解析处理的，OutputCollector获取map()的输出结果，Reporter保存了当前task处理进度。

Hadoop本身提供了一些Mapper供用户使用：

（3）Partitioner接口

用户需继承该接口实现自己的Partitioner以指定map task产生的key/value对交给哪个reduce task处理，好的Partitioner能让每个reduce task处理的数据相近，从而达到负载均衡。Partitioner中需实现的函数是

getPartition( K2 key, V2 value, int numPartitions)

该函数返回K2 V2对应的reduce task ID。

用户如果不提供Partitioner，Hadoop会使用默认的（实际上是个hash函数）。

（4）Combiner

Combiner使得map task与reduce task之间的数据传输量大大减小，可明显提高性能。大多数情况下，Combiner与Reducer相同。

（5）Reducer接口

用户需继承Reducer接口实现自己的Reducer，Reducer中必须实现的函数是

Hadoop本身提供了一些Reducer供用户使用：

（6）OutputFormat

用户通过OutputFormat指定输出文件的内容格式，不过它没有split。每个reduce task将其数据写入自己的文件，文件名为part-nnnnn，其中nnnnn为reduce task的ID。

Hadoop本身提供了几个OutputFormat:

3. 分布式缓存

Haoop中自带了一个分布式缓存，即DistributedCache对象，方便map task之间或者reduce task之间共享一些信息，比如某些实际应用中，所有map task要读取同一个配置文件或者字典，则可将该配置文件或者字典放到分布式缓存中。

4. 多语言编写MapReduce作业

Hadoop采用java编写，因而Hadoop天生支持java语言编写作业，但在实际应用中，有时候，因要用到非java的第三方库或者其他原因，要采用C/C++或者其他语言编写MapReduce作业，这时候可能要用到Hadoop提供的一些工具。

如何实现线程安全？

1：加锁利用Synchronized或者ReenTrantLock来对不安全对象进行加锁，来实现线程执行的串行化，从而保证多线程同时操作对象的安全性，一个是语法层面的互斥锁，一个是API层面的互斥锁.

2：非阻塞同步来实现线程安全。原理就是：通俗点讲，就是先进性操作，如果没有其他线程争用共享数据，那操作就成功了；如果共享数据有争用，产生冲突，那就再采取其他措施(最常见的措施就是不断地重试，直到成功为止)。这种方法需要硬件的支持，因为我们需要操作和冲突检测这两个步骤具备原子性。通常这种指令包括CAS SC,FAI TAS等。

3：线程本地化，一种无同步的方案，就是利用Threadlocal来为每一个线程创造一个共享变量的副本来（副本之间是无关的）避免几个线程同时操作一个对象时发生线程安全问题

关于并行排序java和并行排序的常用方法或技术有哪些?的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：并行排序java