关于Javagpfs的信息

admin 2022-11-23 17:25:19 552

本篇文章给大家谈谈Javagpfs，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、关于GPFS文件系统？
2、HiC数据分析之-HiC-Pro
3、spark和hadoop的区别

关于GPFS文件系统？

IBM GPFS可以替代HDFS作为Hadoop架构的底层文件系统/数据存储。Hadoop主要是能够做DAS直连存储，（位于各个节点上的）硬盘是分布式的，数据会拷贝 3-4份进行保护。Hadoop不需要高端的产品，不用共享存储，而是用分布式存储，它的成本相比共享存储（比如DS8000）要低。

GPFS的可扩展性上还是最好的，要把二者的优点结合起来，在基础上还是用直连的方式。GPFS与Hadoop的结合是一种分布式文件系统的形式，专门针对大数据分析的应用。作为集群NAS产品的IBM SONAS则具备更多的适应性，主要面向高性能计算、海量媒体（音/视频）数据的存储。

GPFS-SNC是IBM为Hadoop分析计算环境扩展研发的产品。A key difference between GPFS-SNC and HDFS is that GPFS-SNC is a kernel-level （内核级）file system, whereas HDFS runs on top of the operating system. This means that GPFS-SNC offers several advantages over HDFS, including:Better performance，Storage flexibility，Concurrent read/write，Improved security。

GFPS-SNC 提供了 HDFS所不具备的许多优点，其中一个优点解决了上述 NameNode 问题。在 GPFSSNC内实施的 Hadoop 运行时，不一定要与这个特别的 SPOF 问题进行竞争。GPFS-SNC 使您能够建立一个更加可靠的 Hadoop 集群（其中还包括其他好处，如易于管理和性能）。

除了所提出的有关单一 NameNode 的问题之外，一些客户还指出，HDFS不是 Portable Operating System Interface for UNIX (POSIX) 兼容的文件系统。这意味着，几乎所有您在与文件进行交互时可能使用的熟悉命令（复制文件、删除文件、写入文件、移动文件等）都以不同形式在 HDFS 中可用（有语法差异，在某些情况下有功能限制）。为了解决这个问题，您必须编写自己的 Java 应用程序执行某些功能，或培训您的 IT 员工，学习不同HDFS 命令来管理和操作文件系统的文件。

HiC数据分析之-HiC-Pro

软件安装：

主要是编辑系统文件：

PREFIX =/gpfs02/home/jingjing/software/HiC-Pro-master

BOWTIE2_PATH =/gpfs01/software/bio/bowtie2-2.2.4

SAMTOOLS_PATH =/gpfs01/software/bio/samtools-1.7

R_PATH =/gpfs02/software/general/R-3.5.0/bin

PYTHON_PATH = ~/miniconda2/bin/

CLUSTER_SYS = LSF

安装：

make configure

make install

软件使用：

其实思路和以前类似：

比对，过滤，挑选，建立contract map，然后做normalization

优点：

1. 在处理比对结果的时候加入了并行化，其实是抄概念，就是分割比对结果，多核处理。

2. 在处理reads的时候，多处理了一部分junction reads的情况。

3. 在存储最终结果的时候采用了sparse 矩阵来降低存储需求。

4. 多了一个点就是处理SNP分成父母本的情况。

运行：

1. 准备index文件

bowtie2-build 1.fa,2.fa,...,MT.fahuman_GRCh37

2. 准备annotation文件

要有两个：

第一个是：HindIII_resfrag_hg19.bed 主要通过软件包里面script

生成

python/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/utils/digest_genome.py-r hindiii -o HindIII_resfrag_hg19.bed/gpfs02/home/jingjing/software/hicup_v0.7.1/test_dataset/genome/all.fa

第二个是基因组每个常染色体长度文件，chrom_hg19.sizes

这个主要通过：java compute_lenght_scaffold all.fachrom_hg19.sizes

3. 编辑配置文件

主要需要编辑的地方：

1）：index的位置

2）：index的名字

3）：genome

size文件

4）：genome

fragment文件

4. 运行HiC-pro

/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/HiC-Pro-i test_data/ -o HiC-Pro_testop_2.11.1_all -c config_test_latest.txt 其中参数i是原始数据位置，但是数据要分级存放

运行过程中的进度都会显示。

5. 结果解读

1) 原始比对率

trimmed read mapping: 是指把一些本来unaligned的reads去掉一些头和尾重新比对，这一部分主要面向junction reads

2）reads pair对之间比对结果

这个主要是看pair的比对信息。

3）过滤不合适的interaction pair比例

过滤掉的read pair有：dumpled， self-cycle pair，single end，dangling end....

4）用的read pair的分布情况

主要分成：cis和trans。cis包含短的和长的距离。以及距离的分布

5）关联矩阵

HiC-pro默认输出是sparse 矩阵的格式，首先需要一个bed文件定义chromosome的位置，以及bin的ID：

在matirx中，显示interaction的强度，前两个分别是bin的ID。

iced中存储normalization之后的结果。

spark和hadoop的区别

spark和hadoop的区别：诞生的先后顺序、计算不同、平台不同。

诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。

计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将运算结果shuffle给下游的reduce，reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而spark的一个job中，可以将多个map-reduce过程级联进行。

平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术需求量大，offer好拿。

Javagpfs的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于、Javagpfs的信息别忘了在本站进行查找喔。

标签：Javagpfs