关键词:
大数据
随机森林
并行运算
单核苷酸多态性
摘要:
目的探讨随机森林并行运算的实现方法及其适用条件,为基因组学数据分析提供科学参考。方法基于R foreach包编写随机森林并行运算程序,并利用SNPs模拟数据探究其表现。结果在SNPs位点数量为100、500、1 000时,随工作站所占用CPU数量的增多,随机森林并行运算方法的提速效果呈非线性趋势,且位点数量相同但ntree数量不同时速度的提升效果亦不相同;当SNPs位点数量达到5 000时,该方法提速效果较差,10核环境下ntree为500和1 000时几乎无提速效果,即使ntree达到5 000或10 000时提速效果也不超过2倍。结论基于R foreach包的随机森林并行运算方法在SNPs位点数量不是很多(如<1 000)的情况下其提速效果尚可;但由于共享内存等产生的通信开销的问题的存在,当SNPs位点数较多(超过5 000)时,该方法提速效果很差,此时可考虑选择其他分析工具如随机丛林(RJ,Random Jungle)。