本书主要介绍基因组大数据分析与处理的相关技术。书中循序渐进地介绍了相关生物信息学软件的下载和安装方式,提供了真实数据和仿真数据的获取或生成方式;针对拷贝数变异、单位点变异、结构变异以及微生物物种鉴定等问题,全面介绍了相关处理过程及基本原理,并结合典型算法说明了数据处理的基本流程。
本书最大的特色在于提供了丰富的算法实例,每一个实例都是经过精心挑选的,具有很强的针对性,力求使读者尽可能快地掌握基因组大数据分析与处理的全过程。
本书适合作为计算机和大数据类相关专业高年级本科生与研究生的教材,对从事计算生物学研究的技术人员也有很好的参考价值。
随着21世纪互联网行业的高速发展,人们对生活质量有了更高的要求,基因测序技术也因此得到了快速发展。基因测序技术作为一种新型基因检测技术,结合并运用了大数据处理、生物信息学、机器学习、人工智能等多学科知识,目前已经逐渐走进人们的生活,它已经在遗传病预防与检测、新生儿产前检测、流行病防控等许多场合大放异彩。基因测序技术能够从血液或唾液中分析测定基因全序列,预测病人患多种疾病的可能性,及时对遗传病等进行准确预防。随着基因测序技术的逐渐成熟,越来越多的实用工具和软件被人们研发出来,这对基因变异检测的效率和准确率的提升起到了至关重要的作用。
本书第一章从基因测序技术的角度出发,介绍基因组测序技术的相关概念,全方位展示该领域国内外最新研究成果。第二章详细讲解常用测序软件,比如序列比对软件(Burrows-Wheeler-Alignment Tool,BWA)、生物信息比对工具(Samtools)、基因组分析工具包(Genome Analysis ToolKit,GATK)等。第三章到第六章针对最常见的基因变异类型讲解主流的检测方法,并提供具体的数据处理流程。
本书使用的实例基于Ubuntu16.04版本的开发环境开发,因此,读者若想使用本书中提到的方法,需要对Linux操作系统有一定的了解。此外,书中包含代码部分涉及C/C++、Python、Java等编程语言,需要读者对于编程语言有一定基础,学习时可参考C++ Primer入门、Java编程、Python编程等方面的书籍。
本书由几位多年从事生物信息大数据处理的老师及学者编写,王双、毛玉芳、田野、李苗等也参与了部分文字整理工作。
在本书编写的过程中作者参阅了部分国内外相关文献,在此对书中所引用资料的作者表示由衷的感谢。
由于作者水平有限,书中可能还存在一些纰漏之处,恳请读者和专家批评指正。联系邮箱:xiguoyuan@mail.xidian.edu.cn或者ccwangshaoqiang@163.com。
作 者
2020年5月