生物复杂网络中功能模块的挖掘
内容简介
本书的研究内容主要包括以下几个方面。
①为了有效克服现有功能模块挖掘方法的缺点,我们使用受限的随机游走模型,提出一种新的转移概率矩阵,进而定义一种新的结点相似性ISIM来衡量网络中任意两个结点之间的距离。新的结点相似性有3个良好的特性:一是它能成功地融合网络的全局和局部拓扑信息;二是新结点相似性不仅能有效地衡量两个结点之间的距离,而且能捕捉到两个结点在网络中的拓扑结构;三是它是在一个收敛的空间定义结点相似性。因此,在一系列不完备和含有噪声的生物网络中,具有良好的稳定性和鲁棒性。
使用新结点相似性和层次聚类思想,可以有效地分析生物复杂网络中的功能模块。首先,我们使用新结点相似性产生网络的相似性矩阵。其次,使用层次聚类思想建立网络模块的树状结构。,选择合理的目标函数自动地挖掘网络中的功能模块。在此基础上,通过改变新结点相似性中的调节因子,本书又提出一种新的方法(ISIMB方法)揭示生物网络中蛋白质复合物的层次结构和功能模块的多尺度特性。
与现有的模块挖掘方法相比,基于新结点相似性的方法是一个无参数的方法,它能自动地确定网络中模块的个数。使用它挖掘到的模块不仅与真实的功能模块结构获得更好的匹配,而且能有效克服生物网络不完备性的缺陷。与单尺度的方法相比,本书把模块多尺度概念引入到生物网络中蛋白质复合物和功能模块的挖掘,这种新的理念不仅能成功地预测蛋白质复合物及其层次特性,而且能从具体到一般的视角揭示功能模块的动态过程。
②针对生物网络的不完备特性和基因共表达的不传递性,本书提出一种新的方法检测基因共表达网络中的功能模块。这种方法首先融合不同条件下基因共表达谱数据构建完备的基因共表达网络,随后使用大团算法挖掘网络中的功能模块。这种新的方法与其他方法相比,预测的结果有较强的生物功能相似性。通过转录和调控关系分析,预测功能模块中的基因有较高的概率被同一个转录因子所调控,从而为构建基因调控网络提供丰富的结果。
③传统的生物网络中功能模块的挖掘都是基于高聚合的模块结构是功能模块组织的形式。然而,这个结论在生物网络中,特别是在蛋白质相互作用网络中存在可疑性。因此,我们发现一种与高聚合模块不同的Bi-sparse模块,然后结合二叉树理论和矩阵论提出一种新的方法(BTS方法)来挖掘两种类型的功能模块。BTS方法在蛋白质相互作用网络中挖掘的高聚合模块和Bi-sparse模块都组成功能单元。与其他方法相比,BTS方法具有良好的性能:一是不需要预先设置模块的个数;二是挖掘的高聚合模块和Bi-sparse模块都具有显著性的生物功能相似性。
④我们把高聚合模块和Bi-sparse模块作为功能单元的组织形式共存于同一网络中这一概念进行泛化。我们整理了4种类型共25个网络,用BTS方法对25个网络中的模块进行分析,结果发现:(a)Bi-sparse模块具有普遍性。(b)在社会网络中,Bi-sparse模块中的人们充当着经纪人的角色,负责协调不同群体之间的矛盾,促进信息、技术和知识的交流等作用;在计算机软件网络中,Bi-sparse模块中的结点具有相似的软件包属性;在生物复杂网络中,Bi-sparse模块中的蛋白质或基因具有显著性的功能相似性。(c)复杂网络中的Bi-sparse模块拥有一些特性:一是Bi-sparse模块和高聚合模块相比,Bi-sparse模块含有的结点较少;二是Bi-sparse模块在不同类型的网络中,具有一定的偏好性;三是存在复杂网络中的Bi-sparse模块有两种明显的拓扑结构。
本书主要内容来自笔者的博士毕业论文,它详细介绍了笔者攻读博士期间在生物网络中功能模块领域所做的工作。本书重点描述了笔者所做工作的创新之处:提出了一种衡量网络中结点之间相似的新距离,并在此基础上,揭示了生物复杂网络中多尺度模块特性能有效揭示蛋白质的从具体到一般的生物功能。不仅如此,本书还揭示了单一的模块结构组织形式不能很好地分割网络结点的相同属性。虽然本书尽可能地介绍生物复杂网络中功能模块挖掘的各个方面的内容,但由于笔者水平有限,书中难免存在疏漏和不足之处,欢迎各位专家和读者批评指正。
本书的相关工作得到了河南省高等学校重点科研项目(17B520001、16B413001)的大力支持,在此表示衷心的感谢。本书列举了主要的参考文献,在此对所引参考文献中的作者和出版机构表示感谢。