【GS课堂】PIBLUP:一款为育种大数据时代而生的动植物GS软件

来源: 发表日期:2018-10-09 浏览量:15

全基因组选择(Genomic Selection, GS),是一种利用全基因组遗传标记信息对个体进行遗传评估的技术,由于它和常规选育方法相比可以更加准确的估计育种值,从而大大提高育种的遗传进展。但是随着表型和基因组数据量的不断增加,求解混合模型方程组需要的时间和资源越来越大,使得这项技术的应用受到了很大的限制。


为了解决GS应用的这些问题,中国农业大学刘剑锋教授团队开发了基因组选择软件PIBLUP,并将该成果发布在Frontiers in Genetics(IF:4.151)杂志—篇名:“PIBLUP: High-Performance Software for Large-Scale Genetic Evaluation of Animals and Plants”,接下来就让我们详细的介绍这款软件。

高效求解大型数据的混合模型方程组


为了提升软件对于大型数据运算效率,PIBLUP底层代码采用C语言进行编写,并使用了很多数据处理的技术。程序可以进行多线程并行运算,运算过程对于内存管理和多核利用进行了优化。

PIBLUP软件利用的技术

 PCG,预处理共轭梯度法

预处理共轭梯度法 (preconditioned conjugate gradientmethod,PCG) 是一种求解方程组的迭代方法,具有快速收敛、存储量小、不必预先估计参数等特点,近年来在求解大型稀疏方程组中取得了较好的成效。预处理共轭梯度法对系数矩阵作预处理,以加速迭代收敛速度。

• IOD,数据迭代方法

数据迭代方法(iteration on data, IOD) :研究表明,使用预处理共轭梯度(PCG)进行数据迭代(IOD)是高效求解混合线性方程组(MME)的方法。  

• MKL,Intel数学核心函数库

Intel数学核心函数库(MKL)是一套高度优化后的数学函数,面向高性能工程和科学应用。英特尔 MKL 的集群版本包括 ScaLAPACK 与分布式内存快速傅立叶转换,并提供了线性代数 (BLAS、LAPACK 和Sparse Solver)、快速傅立叶转换、矢量数学 (Vector Math) 与随机号码生成器支持。

MKL下载地址:https://software.intel.com/en-us/mkl。

• MPI,消息传递接口

MPI全称消息传递接口,是Message Passing Interface的缩写,主要用于高性能并行计算。

MPI下载地址:https://www.mpich.org/downloads/。

PIBLUP测试结果

• 结果准确度:PIBLUP VS DMU

使用PIBLUP和DMU分析同一数据集,计算GEBV的结果,两者的相关系数为1,表明两者结果完全一致。

• 运算速度:PIBLUP VS DMU and BLUPF90

文章中比较了PIBLUP,BLUPF90和DMU在单线程和多线程对同一数据的运行结果,结果如下:

结果表明:

在单线程时,PIBLUP运行51.49分钟,BLUPF90运行84.97分钟,DMU运行了58.18分钟,PIBLUP运行时间最短;在四线程时,PIBLUP运行了17.61分钟,BLUPF90运行了49.87分钟,DMU运行了38.79分钟,PIBLUP多核运算效率提升明显。

PIBLUP功能介绍

根据PIBLUP使用指南介绍,PIBLUP具有以下功能:

• 单性状动物模型,灵活定义固定因子,随机因子,可以使用系谱和基因组数据;

• 多性状动物模型,灵活定义固定因子,随机因子,可以使用系谱和基因组数据;

• 根据基因组信息构建G加性矩阵,构建显性矩阵和上位性矩阵并估算其效应值;

• 单性状随机回归模型,可以使用系谱和基因组数据;

• 多性状随机回归模型,可以使用系谱和基因组数据;

• 根据系谱和基因组数据,灵活构建H矩阵,设置a,b,tau和omega等参数;

• 可以构建和利用A矩阵,G矩阵和H矩阵,加性矩阵,显性矩阵和上位性矩阵,可以计算ABLUP,GBLUP和SSBLUP;

• 定义模型简单,操作简单,支持字符串编号。


PIBLUP软件使用方面


软件参数文件比较:下面使用DMU和PIBLUP的参数文件,比较两者在个体动物模型和一步法SSBLUP的使用方法。

• 个体动物模型

(观测值:y;固定因子:sex,birth_mon,birth_weight;随机因子:加性效应a)


DMU参数文件 

PIBLUP参数文件

一步法SSBLUP:

(观测值:y ;固定因子:beta固定回归系数;随机因子:a加性环境效应,pe永久环境效应)

undefined



DMU参数文件 

 

PIBLUP参数文件 

可以看出,相对于DMU,PIBLUP操作更简单方便,语法更接近于模型语法书写。


• H矩阵参数设置说明:

PIBLUP软件特色


• PIBLUP软件结合最新的算法,支持并行计算,运算速度快,符合大数据时代的需求;

• PIBLUP既可用于传统动物模型,又可用于GBLUP和SSBLUP的计算,而且内置G矩阵和H矩阵构建函数,友好方便;

• 随机回归模型是动物遗传评估中比较复杂的模型,可以用于多次观测的性状,比如鸡不同时间的产蛋量,猪的生长速度和饲料消耗,牛的不同测定日的产奶量等。PIBLUP分析随机回归模型,可以结合G矩阵和H矩阵,功能强大;

• 拥有完全自主知识产权,是公开发表的国内首款涵盖复杂随机回归模型、结合常规和基因遗传评估的育种软件。

PIBLUP版本介绍

PIBLUP科研版下载地址

https://github.com/cau-liu-team/PIBLUP




分享: