关于javagpu集群的信息

admin 2022-12-12 11:06:10 63

今天给各位分享javagpu集群的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、做数据集群训练，如何比较好的资源调度做到程序稳定（多深度学习GPU的调度策略）？
2、现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架
3、GPU集群软件指的是什么？
4、GPU集群怎么搭建
5、Spark原生GPU调度的前世今生

做数据集群训练，如何比较好的资源调度做到程序稳定（多深度学习GPU的调度策略）？

蓝海大脑液冷数据中心研发人员指出：这是一个就是GPU集群管理调度的一个问题，现在主流的GPU系统在国内可以分成2部分，一类是交通系统，一类是基于容器的一个比如K8S的调度编排的一个调度系统。K8S里面是支持了GPU设备的自发现，然后你只是去提交GPU的一个请求的个数以及GPU资源的类型，然后它会自动去帮你去做调度。另外的话是以HPC为传统的那种，比如说PPS或SLAM调度，SLAM里面也有支持GPU设备的一个自我调度，然后把GPU设备作为一个计算对象可以去请求。当然由于GPU系统的拓扑结构是一样的，不同的调度算法，给你分配的GPU资源可能会存在一些GPU拓扑不是最优的情况。然后针对这种情况，不管是SLAM还是K8S系统，NVIDIA写了一个拓扑自我检测的小程序算法，它可以很好的集成到K8S以及SLAM里面，然后在做GPU资源分配时，根据这个算法去分配GPU资源，以保证你分配的CPU资源是最优的，拓扑最优，而且也会保证以后的分配，对以后资源的拓扑最优也会有保证。

现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架

很有必要，但不用太深入，在Kaggle上认真搞2,3个比赛能进10%的程度就够了

GPU集群软件指的是什么？

GPU集群软件是一个计算机集群，其中每个节点配备有图形处理单元。通过图形处理单元上的通用计算来利用现在GPU的计算能力，可以使用GPU集群执行非常快速的计算。说起来还挺复杂，建议你要是想了解还是去专业的厂商去了解会更加清楚一点，思腾合力是英伟达的代理商，在这个方面做的还挺不错的，你可以去了解下。

GPU集群怎么搭建

首先我想知道你问的是CPU集群、还是GPU集群、还是GPU与CPU混合集群。你说的“8点”应该是8个节点吧！若是CPU集群8节点指的是8个cpu server组成的集群。若是GPU集群8节点指的是8个GPU HPC组成的集群。若是混合集群8节点指的是X个cpu server和y个

Spark原生GPU调度的前世今生

众所周知，GPU作为通用的加速硬件，被越来越广泛的用于图形图像处理、深度学习、高性能计算等领域，效果显著。

ML/DL领域，Tensorflow, PyTorch 等深度学习框架大行其道，而 Spark 提供的 GraphX 和 MlLib 可以做一些机器学习的东西，但是在深度学习的战场里没有什么优势，最大的问题就在于硬件加速上，3.0 以前的社区版 Spark 没有调度 GPU 的方法。

训练模型除了本身的大规模的并行密集计算，从数据到模型，必须有数据处理的过程，这也是 Spark 的强项，因为你不太可能用 pandas 简单清洗汇总你的训练数据，而且做AI业务的企业往往已经部署有一套大数据平台环境。

Accelerator-aware task scheduling for Spark：SPARK-24615

Design sketch：SPARK-27005

2018年，Hadoop3.1 YARN已经支持GPU调度。

Apache Spark支持的资源管理器 YARN 和 Kubernetes 已经支持了 GPU。为了让 Spark 也支持 GPU，在技术层面上需要做出两个主要改变：

2020年6月，Spark3.0.0发布开始支持GPU调度。

在这个层面，我们得允许从 RDD/PandasUDF API 中指定资源请求，这些请求应该在 DAGScheduler 中汇总。TaskSetManager 管理每个 Stage 挂起（pending）的任务，对于那些有 GPU 请求的任务，我们需要处理；对于那些不需要 GPU 的作业，其调度行为和效率应该和之前保持一致。

目前，CPUS_PER_TASK（spark.task.cpus）是一个 int 类型的全局配置，用于指定每个 task 应分配的 cores。为了支持 GPU 的配置，引入了 spark.task.gpus 参数用于指定每个 task 需要申请的 GPU 数。如果用户没有指定 spark.task.cpus 或 spark.task.gpus，那么 Spark 程序将使用默认的值；因为需要向后兼容，所以如果用户没指定 spark.task.cpus 或 spark.task.gpus ，这两个参数的默认值分别为 1 和空。

对于 ExecutorBackend ，需要使得它可以识别和管理 GPU ，并且把这些信息同步（比如修改现有的 RegisterExecutor 类）到 SchedulerBackend，然后 SchedulerBackend 可以根据这些 GPU 信息，为那些需要 GPU 资源的 task 进行资源分配。

第一阶段将在 Standalone、YARN 以及 Kubernetes 上支持 GPU。Spark 需要在这三种资源管理上面做一些工作。

Standalone 是 Spark 内置的资源管理模式，但是之前的 Standalone 部署模式并不能支持 GPU 等资源。为了能识别 GPU 信息，一种可行的方法是在配置文件里面对 GPU 资源进行配置， Worker 通过读取这些配置信息，并在内存结构里面维护 GPU 和 CPU 等可用资源等信息。同时，在 Master 上通过 allocateWorkerResourceToExecutors 方法对 Executors 申请的资源（包括 GPU）进行分配。

为了能够在 YARN 上支持 GPU，我们需要使用 YARN 3.1.2+ 版本；同时我们需要在 YARN 集群上做出相关配置，使得 YARN 启动了对 GPU 资源的支持，关于如何在 YARN 上配置 GPU 资源，请参见这里。

当为 Executors 申请 YARN 容器时，Spark 需要在 YARN 容器请求中将 executor 所需的 GPU 数量映射到 yarn.io/gpu 资源中。YARN 具有 GPU 隔离机制，所以无论是否使用 Docker 容器，对未分配给 YARN 容器的 GPU 资源的使用将会被阻止。

需要注意的是，截至目前 YARN 仅支持 Nvidia GPU 。

从 Kubernetes 1.8 版本开始，Kubernetes 使用设备插件模型（device plugin model）来支持 GPU、高性能NIC，FPGA 等设备。目前 Kubernetes 支持 Nvidia 、AMD 和 Intel 的 GPU 设备。在 Spark + k8s 里面为 task 指定 GPU 的数量和在 Standalone 或 YARN 模式里面一样。也是支持 spark.task.gpus 和 spark.executor.gpus 的全局配置，也支持在 RDD stage 中为每个 task 设置。

GPU 和其他加速器已广泛用于加速特殊工作负载，例如深度学习和信号处理。Spark 现在支持请求和调度通用资源，例如 GPU。

Spark 将使用指定的配置首先从集群管理器请求具有相应资源的容器。一旦获得容器，Spark 就会在该容器中启动一个 Executor，它将发现容器拥有哪些资源以及与每个资源关联的地址。Executor 将向 Driver 注册并报告该 Executor 可用的资源。然后 Spark 调度器可以将任务调度到每个 Executor 并根据用户指定的资源需求分配特定的资源地址。

注意：它目前不适用于 Mesos 或本地模式。

阶段级别调度功能（SPARK-27495）允许用户在阶段级别指定任务和执行器资源需求。这允许不同阶段与具有不同资源的执行程序一起运行。一个典型的例子是一个 ETL 阶段，执行器只使用 CPU，下一个阶段是需要 GPU 的 ML 阶段。阶段级调度允许用户在 ML 阶段运行时请求具有 GPU 的不同执行器，而不必在应用程序开始时获取具有 GPU 的执行器，并且在 ETL 阶段运行时它们处于空闲状态。

这仅适用于 Scala、Java 和 Python 中的 RDD API 。当启用动态分配时，它在 YARN 和 Kubernetes 上可用。

该功能在Spark3.0.0版本还没有实现，在Spark3.1版本才有。

YARN 3.1.0 中添加了 YARN 上的GPU资源调度。理想情况下，资源是隔离设置的，以便执行器只能看到分配给它的资源。如果您没有启用隔离，则用户负责创建一个发现脚本，以确保资源不会在执行程序之间共享。

YARN 目前支持任何用户定义的资源类型，但内置了 GPU ( yarn.io/gpu ) 和 FPGA ( yarn.io/fpga ) 类型。因此，如果您正在使用这些资源中的任何一个，Spark 可以将对 spark 资源的请求转换为 YARN 资源。

YARN 不会告诉 Spark 分配给每个容器的资源地址。出于这个原因，用户必须指定一个发现脚本，该脚本在启动时由executor运行，以发现该executor可用的资源。可以在 examples/src/main/scripts/getGpusResources.sh 中找到示例脚本。

启用动态分配（dynamic allocation）时，YARN 支持阶段级调度。

一个简单的资源spark-shell GPU配置启动：

对于这种配置，我们期望在 Executor 上一次运行不超过两个任务，因为每个任务将使用一个 GPU，并且每个 Executor 最多有两个 GPU。

Spark 2时代，正如我之前提到的，传统上在与机器学习相关的管道中，数据准备，在一个 CPU 集群上，由 Spark 编排，这必然会被序列化到共享存储，然后是一个单独的GPU集群将实际加载序列化数据备份并使用它进行训练，如 Tensorflow。

有了 Spark 3，我们终于有了一个统一的架构。我们有一个单一的管道，具备阶段级调度，我们实际上可以将它作为一个应用程序进行调度，我们可以进行数据摄取、准备和模型训练，所有这些都由 Spark 编排，单一平台，为 AI 而生。

关于javagpu集群和的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

The End

发布于：2022-12-12，除非注明，否则均为首码项目网原创文章，转载请注明出处。

标签：javagpu集群

本文目录一览：

做数据集群训练，如何比较好的资源调度做到程序稳定（多深度学习GPU的调度策略）？

现在tensorflow和mxnet很火，是否还有必要学习scikit-learn等框架

GPU集群软件指的是什么？

GPU集群怎么搭建

Spark原生GPU调度的前世今生

相关文章