程序特点

本节详细阐述了 CropGBM 在数据处理上所使用到方法的特性,并简要介绍了这些方法的原理。

利用 lightgbm 算法预测表型值与筛选 SNP

目前常用 GBLUP 等方法预测表型值。通过整个基因组标记或基因型计算样本间的相关矩阵,然后使用 MLM(混合线性模型)计算样本的 EBV(估计育种值)。但 GBLUP 也存在许多不足:

  1. 难以捕获基因型之间的复杂非线性关系。在面对群体结构复杂的预测问题时,其交叉种群预测能力并不理想。
  2. 亲缘关系矩阵不具有拓展性。若训练群体改变,则需要重新计算亲缘关系矩阵。同时亲缘关系矩阵的计算时间随着训练群体样本量的增加而激增。
  3. 无法解决多分类问题。许多基因型到表型的预测任务都需要分类预测。

随着基因型检测、表型检测等技术的发展,样本获取的成本不断下降,基因型和表型数据迅速积累。样本量已从原先的数百发展为数千。GBLUP 等方法由于需要计算样本间的相关矩阵,其计算性能随着群体规模的增加而显着下降。CropGBM 使用对梯度提升决策树 (Gradient Boosting Decision Tree, GBDT) 算法进行了大量优化后的 lightgbm 算法作为表型预测的内核。在处理大批量样本数据时,lightgbm 算法相比 GBLUP 可以在不丢失精确度的情况下:

  • 大幅降低内存消耗
  • 大幅提升预测速度,支持 GPU 加速模型训练
  • 支持非连续表型值预测

CropGBM 还可以根据 snp 在模型中的权重挖掘与表型相关的 snp 位点。一般 snp 的权重越大,与表型的相关性越强。建议用户将 CropGBM 提供的各 snp 的权重与 GWAS 结果对比参考,排除各自方法中的假阳性结果,提高可信度。

引入 t-SNE 方法对基因型数据降维

t-分布式随机邻域嵌入 (t-distributed stochastic neighbor embedding, t-SNE) 算法是一种用于挖掘高维数据的非线性降维算法。将数据点以条件概率的形式从高维映射到低维,利用 t 分布巧妙解决了高维数据降维带来的拥挤问题,使降维结果同时保留数据的局部和全局结构。PCA 等线性降维算法无法确保非线性流型高维数据的数据结构在降维后可以正确映射。另一方面,当数据降至二维时,t-SNE 算法是在二维平面上重新排布数据,而 PCA 算法是从高维空间中选择最能数据差异性的两个维度来展示数据。所以 t-SNE 算法在降维数据的展示上更为优秀。

由于 t-SNE 算法具有二次时间和空间复杂性,对系统资源要求较高。程序在利用 t-SNE 算法降维前先通过滑窗对 snp 数据进行降维。将 snp 数据根据用户设定的滑窗大小分割成多组,滑窗大小为 snp 数量。以每组内各 snp 特征值的和作为新维度下该特征的值,达到减少系统资源消耗和增加 snp 特征值丰富度的目的。

引入 OPTICS 方法对数据聚类

点排序确定簇结构 (Ordering Points to identify the clustering structure, OPTICS) 算法是基于密度的聚类算法。在数据集中寻找被低密度区域分离的高密度区域,将分离出的高密度区域划分为簇,可以发现任意形状的群体结构。而现阶段研究常用的 K-Means 算法、分层聚类算法都是基于距离的聚类算法,在群体结构为球状数据集上表现良好。但当数据集为非球状结构时,上述算法的聚类效果并不好。另一方面,K-Means 算法要求用户预先提供聚类数。但在实际应用中,研究者可能对样本集中的群体结构并不了解。 OPTICS 算法可以根据样本集中数据分布的密集情况,自动确定聚类数,帮助用户发现群体结构并理清样本间的亲缘关系。

绘制基因型数据各参数的分布直方图

程序的预处理模块支持对输入的基因型数据的样本杂合率、基因型杂合率、基因型频率(次等位基因频率)、基因型缺失率、样本缺失率进行统计并以直方图的形式展示并输出。方便用户了解数据整体情况,制定后续的研究方法。