当前位置:论文网 > 核心期刊 > 基础科学 > 地球物理学 > 正文

生物信息学论文范例欣赏(共4篇)

来源:UC论文网2017-11-28 10:20

摘要:

  生物信息在各个生命科学相关领域的作用日显突出,但是生物信息学的研究范围与人才类型尚不清晰,更缺乏相应的人才培养方案及成熟的科学研究体系。下面是千里马论文网的小编整理的关于生物信息学论文的范例,欢迎...

  生物信息在各个生命科学相关领域的作用日显突出,但是生物信息学的研究范围与人才类型尚不清晰,更缺乏相应的人才培养方案及成熟的科学研究体系。下面是千里马论文网的小编整理的关于生物信息学论文的范例,欢迎大家阅读参考。


  第一篇:生物信息学技术在病原生物学中的应用


  病原生物学是研究病原生物的生物学特性、致病性、免疫性及机体和周围环境相互作用关系的一门学科。也是基础医学中的一门重要学科。(传染性疾病、寄生虫病、肿瘤等)


  病原生物是指在自然界中能够给人类和动、植物造成危害的微小生物。存在于土壤、空气、水、织物表面、人类和动物的体表及与外界相通的腔道中。(胃和腹腔中有微生物吗?)病原生物包括病原微生物与寄生虫两大部分。生物信息技术是以生命科学为基础,利用生物(或生物组织、细胞及其他组成部分)的特性和功能,设计、构建具有预期性能的新物质或新品系,以及与工程原理相结合,加工生产产品或提供服务的综合性技术。而我们当下的最大目标就是将两者结合起来,创造出更加美好的一门科学艺术。


  1當今我们面临的现状


  虽然随着我们当今世界医学逐渐的发展,很多病理状况都能得到很好的控制,我们的健康指数也越来越高,人们的寿命也越来越长。但是我们还是存在着一些病毒无法控制,影响我们的生命健康,所以我能不能够满足现在的状况,应当积极的向上发展,了解更多的生物信息学知识,把生物信息学知识更广阔的运用与病原生理学中,让更多的病毒能够得到很好的抑制,解决我们现实生活中的一些疑难杂症。而这些疑难杂症影响了我们十分长久的时间,相信我们其中的有些人也曾经因为这些而感受过悲痛,或许是我们最亲爱的人受到这些疾病的伤害,也或许是我们自己亲身体验过这种伤害。无论是哪种,我们都希望他能够不再发生在我们身边,这就要求我们一起共同努力了,让我们的医学科科技技术得到更好的提升,造福于世界的全人类,这些技术的发展就全靠当下的我们来努力实现,所以我们要加倍努力,更好地了解相关的一些知识,让这些知识既可以丰富我们自己,还可以治疗更多人的疾病,这也是我们做的一个善事,相信我们看到很多人因为我们的科技成就而不再痛苦时,我们也会相当的高兴和满足,很有成就感,让那些痛苦的人因为我们不而不再感到痛苦吧,


  2如何将两者更好地联系起来


  随着社会的不断发展,我们对生命质量的追求也越来越高,所以我们的研究方面也大大的扩展,如何才能让我们生活在更加安全,幸福呢?随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,生物科学技术的迅猛发展。让我们看到了许多希望,生物信息技术让我们可以更加快,是的了解到一些生物信息,了解这些相关的信息后才可以使我们将生物信息技术与病原生物信息技术相结合起来。然后一起创造出一门更加新颖的科,让前者在后者中可以得到更高泛的应用。所以我们要尽可能将其联系到病原体微生物上。微生物几乎遍及任何地方。所以我们要做到对他的防护与扼杀,微生物产生的各种影响也是不容忽视的,微生物产生的疾病几乎变及各科,所以我们大部分疾病都是由微生物所引起的,由此可见,他的力量是多么的强大,现在的我们如果把它遏制住,那是不是我们的很多疾病是不是就会消失呢?21世纪是以分子生物学为代表的生命科学的时代,近年来发展起来的分子生物学基因诊断技术在医学、遗传学等各个领域广泛应用,推动着现代医学由细胞水平向分子水平、基因水平发展,形成了分子微生物学,使人们对微生物的认识逐渐从外部结构特征转向内部基因结构特征,微生物的检测也相应的从生化免疫方法转向基因水平的检测。探针杂交技术的发展及其应用,由此可见,我们的生物信息技术最近发展十分快速,已经用到了各个方面,但是生物信息技术在我们的病原生物学技术中的应用还是十分有限的,还是需要我们继续发扬光大在病原生物学技术中的影响力,病原生物学与生物信息技术相结合后,相信我们对病原生物学的研究会更加深入,更加广泛。更加的令人容易懂,而将两者结合起来可以更好的让我们进行科学研究,研制出最新的科学技术,让我国的医学的到很好的发展。更多的疾病都能得到解决,我们的生命质量可以得到更好的提升,我们身边的死别会更加少一些,我们的生活也会更加的幸福快乐。所以我们目前的最主要任务就是让两者更加密切的联系起来,做到最好的。


  3我们应该如何做


  我能带责任也是十分重大的,因为这件事关乎所有人的健康。当今还存在着许多对身体造成威海的影响因素,所以我们要努力把这些因素都抹平,把这些不好的因素都扼杀在摇篮中,让我们的生活生命更加长久,更加美满幸福的生活着,所以我们要努力的学习科学文化知识。从小树立强大的目标,为我们树立的这些问题而不断奋斗去努力实现,相信我们的美好生活会在不久之后将会实现,我们也会研究出更加新颖,有实践能力的科学,对人们的身体健康不会造成任何负方面的影响。我们每天都可以展现最美丽,最自信最大方的我们。我们也应当积极的宣传相关知识信息。让更多的人了解到相关信息知识,更多的人对此方面产生浓厚的兴趣,开始对其产生研究模式,全民参与到其中,我们的研究范围也会更加的广泛,研究成果也会越来越多,我们面临的疾病问题也会更多的得到解决,所以,这件事关乎到我那个人,我们每个人都有职责让我们的这个社会发展的越来越好。让我们一起努力吧!


  4结语:


  让生物信息学技术在病原生物学技术中更好的应用是我们当今最主要的目标,也是我们每个人都应该去努力实现了目标,而两个技术的相结合,将会产生一个十分强大的影响力,其研究成果将会让我们的疾病发生率大大的减少,更多的不治之症也可以得到很好的解决。老百姓会减少去医院的花销费用,更多的钱用于自己的生活娱乐享受,人民生活的会更加幸福,这难道不是我们想要的吗?


  作者:张甲由等


  第2篇:大麻CBDA1基因的生物信息学分析


  大麻(Cannabissativa)是一年生草本植物,起源于我国,在南北朝时期人们就开始种植和使用大麻,大麻是我国传统经济作物,主要用于纺织、建材、造纸、药用、食用、饲料、工业原料等方面[1]。大麻植株中含有多种活性物质,主要分为两大类,即大麻酚类化合物和非大麻酚类化合物。目前,研究最多的是大麻酚类化合物,主要包括四氢大麻酚(tetrahydrocannabinol,THC)、大麻酚(cannabinol,CBN)、大麻二酚(cannabidiol,CBD)、大麻萜酚(cannabigerol,CBG)、大麻环萜酚(cannabichromene,CBC)等。THC是由以色列Weizmann科学研究所的YechielGaoni和RaphaelMechoulam于1963年首次分离得到[2],并于次年确定其化学结构。THC是大麻中最重要的活性物质,具有神经保护作用,可用于治疗癌症引起的呕吐[3],但THC具有致幻作用,因此大麻在多国被禁止种植。四氢大麻酚酸合成酶(Tetrahydrocannabinolicacidsynthase,THCAS)是THC合成途径中的关键酶,最早在1995年由Taura等[4]从大麻幼叶中分离出,并于2004年成功克隆了该酶的基因[5],随后在2012年研究了该酶的结构和功能[6]。与THC不同的是,CBD是大麻中的非成瘾性成分,能阻碍THC对人体神经系统影响,并具有治疗癫痫、抗痉挛、抗炎、抗焦虑等药理活性[7-10]。因此,高CBD含量的药用大麻成为当今研究的一个热点。而大麻二酚酸合成酶(Cannabidiolicacidsynthase,CBDAS)是CBD合成途径中的关键酶,最早在1996年由Taura等[11]从墨西哥纤维大麻中分离得到,并于2007年通过逆转录获得其cDNA[12]。但是CBDAS的结构和功能至今还未报道,该研究以CBDA合成酶基因为研究对象,采用生物信息学方法对CBDA合成酶基因编码蛋白质序列的理化性质、结构特征、修饰位点等进行预测和分析,以期为今后深入研究和利用CBDA合成酶提供重要的理论依据和研究基础,同时为大麻作物遗传改良提供参考。


  1材料与方法


  1.1材料


  以大麻品种Carmen的大麻二酚酸合成酶基因(CBDA1)(LOCUSKJ469374)为研究对象,对其完整的CDS序列编码的氨基酸序列、蛋白质理化性及功能结构域进行预测与分析。


  1.2方法


  利用ExPASy软件中的Protparam程序对CBDAS蛋白的氨基酸序列长度、分子量大小及等电点等进行分析;利用ProtScale工具分析CBDAS蛋白的亲疏水性;利用TMHMMServerv.2.0和SignalIP4.1工具分析CBDAS蛋白的跨膜结构域及信号肽;利用ProtCompv.9.0工具对CBDAS蛋白的亚细胞定位进行分析;利用PROSITE模体数据库对CBDAS蛋白进行motif预测;利用SMART工具分析CBDAS蛋白的保守功能域;利用NetPhos2.0Server和NetNGlyc1.0Server分析其蛋白质翻译后修饰位点;利用GOR(GarnierOsguthorpeRobsonMethod)对蛋白的二级结构进行性分析;利用SWISSMODEL服务器同源模拟构建CBDAS的三级结构。


  2结果与分析


  2.1CBDA1基因编码蛋白的氨基酸组成


  氨基酸的种类、排列顺序及数量直接影响蛋白质的功能。CBDA1基因的CDS序列编码蛋白质的氨基酸序列为:


  CBDAS由544个氨基酸组成,分子式为C2834H4343N743O792S21,分子量为62168.42,理论等电点为8.81。CBDAS包含20种常见氨基酸(表1),其中疏水性氨基酸占48.8%,亲水性氨基酸占51.2%,碱性氨基酸占13.6%,酸性氨基酸占94%,且含有21个含硫氨基酸,说明该蛋白中存在二硫键。由于CBDAS序列的N末端是Met,该蛋白估计半衰期为30h(哺乳动物网织红细胞,体外)、>20h(酵母,体内)、>10h(大肠杆菌,体内)。CBDAS的不稳定指数Ⅱ为30.57,属于稳定蛋白[13]。脂肪族氨基酸指数为88.31。


  2.2CBDA1基因编码蛋白的亲/疏水性分析


  疏水作用能驱动蛋白质的肽链压缩成球状结构,对于维持蛋白质的空间构象十分重要。氨基酸发生变化可导致蛋白质亲/疏水性的改变,而亲/疏水性的变化直接影响蛋白质的结构以及功能。此外,通过了解肽链中不同肽段的疏水性,可以对跨膜蛋白的跨膜结构域进行预测,为蛋白二级结构的预测及功能结构域的分选提供重要的参考依据。因此,分析蛋白质的亲/疏水性具有十分重要的意义。通过ProtScale在線工具对CBDAS进行亲/疏水性分析,结果见图1,在第15位氨基酸出现最高值2.566,即疏水性最强,在第453位氨基酸出现最低值-3.556,即亲水性最强。整体看CBDAS的疏水性和亲水性氨基酸分布均衡,但预测结果显示CBDAS的亲水性指数平均值(GRAVY,表示蛋白质的溶解度)为-0.202,所以CBDAS更偏向是一个亲水蛋白[14]。由图1可知,在前29个氨基酸位置出现一个较强的疏水区域(score>1.5),且疏水区域较宽,在这个位置有可能出现一个跨膜结构。


  2.3CBDA1编码蛋白的跨膜结构分析


  跨膜结构是蛋白质通过与膜内在蛋白的静电相互作用和氢键键合作用与膜结合的一段氨基酸片段,一般由20个左右的疏水氨基酸残基组成,主要形成α-螺旋。跨膜结构域是膜中蛋白与膜脂相结合的主要部位,固着于细胞膜上起“锚定”作用[15]。跨膜结构域的预测和分析对于了解蛋白质的结构、功能以及在细胞中的作用部位具有重要意义。在目前的基因组数据中,有20%~30%的基因产物被预测为膜蛋白,它们在生物体中担负着多种功能。因此,有效、准确地预测跨膜区和跨膜的方向对指导跨膜蛋白的结构和功能的研究具有重要意义。利用跨膜预测服务器TMHMMServerv.2.0对CBDAS进行分析,结果见图2,该蛋白存在一个潜在的跨膜区(第1~28位氨基酸),其中第1~4位氨基酸位于膜内,第5~27位氨基酸为跨膜的螺旋结构,第28位以后的肽链主要在细胞膜外发挥其生物学功能。由于该跨膜结构位于蛋白质的N端,推测其极可能为一个信号肽结构。蛋白质序列的其他位置不存在跨膜结构,因此,该蛋白属于跨膜蛋白。


  2.4CBDA1基因编码蛋白的信号肽分析


  信号肽是蛋白质的一个片段,一般由5~30个氨基酸残基组成[16],并大致分为3个区段:N端为带正电荷的氨基酸;中间为由20个或更多的以中性氨基酸为主组成的疏水核心区,能够形成一段α-螺旋;C端含有小分子氨基酸,是被信号肽酶裂解的部位,亦称加工区。信号肽在蛋白分泌的过程中起重要作用[17],主要负责引导新合成蛋白质的跨膜、转移和定位,把蛋白质引导到细胞不同的亚细胞器内发挥其生物学功能。通过SignalIP4.1工具进行分析[18],结果表明(图3),CBDAS的N末端包含1个由28个氨基酸残基组成的信号肽,切割位点在第28和29个氨基酸残基之间,其平均值S为0801,当平均值S>0.500时,可判断该蛋白为分泌蛋白,说明CBDAS是一种分泌蛋白。


  2.5CBDA1基因编码蛋白的亚细胞定位


  细胞中蛋白质合成后经蛋白质分选信号引导被转运到特定的细胞器中,部


  分蛋白质则被分泌到细胞外或留在细胞质中,只有转运到正


  确的部位才能参与细胞的各种生命活动[19],如果定位发生


  偏差,将会对细胞功能甚至生命产生重大影响。了解蛋白质的亚细胞定位信息,可以为推断蛋白质的生物学功能提供必要的帮助,同时对蛋白质的其他研究如相互作用、进化等也能提供必要的信息。利用ProtCompv.9.0对CBDAS进行亚细胞定位分析,结果显示,该蛋白质位置的积分预测为细胞外(分泌),得分9.4,说明该蛋白主要在细胞外发挥其生物学功能。


  2.6CBDA1基因编码蛋白motif分析


  PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速、可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。利用PROSITE对CBDA1编码蛋白进行motif预测,结果如图4所示,CBDAS含有1个FAD-PCMH结合域,位于第77~251位氨基酸(TTPKPLVIVTPSHVSHIQGTILCSKKVGLQIRTRSGGHDSEGmsYISQVPFVIVDLRNMRSIKIDVHSQTAWVEAGATLGEVYYWvnEKNESLSLAAGYCPTVCAGGHFGGGGYGPLMRSYGLAADNIIDAHLVNVHGKVLDRKSMGEDLFWALRGGGAESFGIIVAWKIRLVAV)。CMH型FAD结合结构域是由2个α-β亚结构域组成:1个由α螺旋包围的3个平行的β链(B1~B3)组成,并被包含在含有5个反平行β链的第2子结构域(B4~B8)[20]。2个子域可以适应它们之间的FAD辅因子[21]。在PCMH蛋白中,辅酶FAD也共价连接到位于C末端催化结构域FAD结合结构域之外的酪氨酸[22]。除CBDAS外,目前发现大麻的四氢大麻酚酸合成酶(THCAS)、细菌UDP-N-乙炔烯醇丙酮酰葡萄糖还原酶(UDP-N-acetylenolpyruvoylglucosaminereductase,EC1.1.1.158)、脊椎动物烷基二羟基丙二酸合酶(alkyldihydroxyacetonephosphatesynthase,EC2.5.1.26)、真核乳酸脱氢酶D(Dlactatedehydrogenase,EC1.1.2.4)和细菌一氧化碳脱氢酶(Carbonmonoxidedehydrogenase,EC1.2.99.2)的结构中也含有PCMH型FAD结合结构域。推测CBDAS同THCAS一样属于氧化还原酶家族,FDA是CBDAS酶活性的必需辅因子。


  2.7CBDA1基因编码蛋白的保守功能域分析


  保守结构域指生物进化或1个蛋白家族中不变或相同的结构域,具有重要功能。采用SMART工具推测,CBDAS蛋白中只含有1个低复杂度区域(lowcomplexityregion,LCR):GGHFGGGGYG,位于第182~191位氨基酸。


  2.8CBDAS蛋白翻译后修饰位点分析


  真核生物中的多肽及蛋白质分子经核糖体合成后大多需翻译后修饰,才能确保蛋白质发挥其正常的生物学功能[23]。常见的蛋白质翻译后修饰有磷酸化和糖基化2种。磷酸化是由蛋白质激酶催化将ATP或GTPγ位的磷酸基转移到底物蛋白质氨基酸残基(Ser、Thr、Tyr)上,是生物体内一种普通的调节方式[24],蛋白质磷酸化修饰的作用主要体现在以下3个方面:一是通过磷酸化修饰改变了受体蛋白质的活性,蛋白质磷酸化或去磷酸化修饰起到开启或关闭蛋白质活性的作用;二是磷酸化蛋白质参与植物体内信号的传导;三是影响蛋白质间的互作,由于在氨基酸残基上结合或失去了磷酸基团,从而改变了受体蛋白质的结构,影响了该受体蛋白质与其他蛋白质间的互作。细胞中蛋白质磷酸化水平是一个动态的变化过程,其细微差异都可能导致细胞代谢水平上的变化。因此,蛋白质磷酸化对植物生长发育的影响是全方位的。糖基化通常修饰天冬酰胺的N端,其氨基酸特征序列为Asn-X-Ser-Thr(X是除Pro外的任一种类氨基酸)[25]。N-糖基化与植物蛋白质正确折叠、细胞凋亡、器官发育及信号转导等生物学功能密切相关[26]。通常胞外分泌蛋白、膜整合蛋白及构成内膜系统的可溶性驻留蛋白大多需要经过N-糖基化修饰。利用NetPhos2.0和NetNGlyc1.0对CBDAS进行预测,结果表明该蛋白存在23个磷酸化位点、6个N-糖基化位点(表2、3)。


  2.9CBDA1基因編码蛋白的二级、三级结构分析


  目前最好的单序列预测程序能够达70%左右,比如基于informationtheory的GOR准确度达69.7%[27],利用GORIV对CBDAS的二级结构进行预测,结果如图5显示,CBDAS蛋白由α-螺旋、β-折叠和无规卷曲组成,分别占整个肽链的21.88%、26.29%和51.84%。


  利用SWISSMODEL蛋白质三维结构建模工具构建的CBDAS的三维结构模型,如图5所示。建模过程中共有168条模板和目标序列相匹配,通过启发式分析过滤得到29个模板,主要有Tetrahydrocannabinolicacidsynthase(四氢大麻酚酸合成酶)、PollenallergenPhlp(花粉过敏原Phlp)、berberinebridgeformingenzyme(小檗碱桥形成酶)、Reticulineoxidase(纤维素氧化酶)、alkyldihydroxyacetonephosphatesynthase,peroxisomal(烷基二羟基乙酸磷酸酯合成酶,过氧化物酶)。CBDAS的三级结构也是参考这29个模板模拟构建的,其中与THCAS[28]的同源性最高,为83.95%。


  3讨论与结论


  利用生物信息学对目的基因进行功能预测是当前国际上研究的热点之一,也是发现和研究新基因的一个重要手段。生物信息学与传统的通过RT-PCR方法进行克隆分析基因的方法相比,具有快捷、针对性强、成本低等优点。生物信息学能针对未知功能基因,采集数据,归纳分析,预测基因功能,挖掘基因潜在的研究线索,可为科学研究提供启示和方向指导。对于蛋白质而言,其生物学功能才是最终的研究目的。通过多种生物信息学工具分析CBDA1基因编码的蛋白序列,发现该基因编码544个氨基酸,等电点为8.81,N端包含1个信号肽,而含有信号肽的蛋白质一般都是分泌到细胞外。CBDAS的亚细胞定位结果也证实了该蛋白是一种稳定的分泌蛋白,主要在胞外发挥其生物学功能。THCAS的二级结构丰富,包含了α-螺旋、β-折叠和无规卷曲,含有许多蛋白质修饰及活化位点,如磷酸化位点、糖基化位点、FDA结合位点等,暗示该蛋白可能在体内受多种因子的调控,具有接受细胞信号并做出反应,实现其生物学功能的潜能。这些结果对正确认识和理解蛋白质结构、定位、功能等均有重要的指导意义。


  作者:常丽等


  第3篇:论生物信息学人才培养与学科发展


  生物信息学是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的学科,也是隨着生命科学和计算机科学的迅猛发展,二者相互交叉形成的一门新学科。生物信息的发展大致经历了前基因组时代、基因组时代和后基因组时代。目前其主要研究内容已经从对DNA和蛋白质序列比较、编码区分析、分子进化转移到大规模的数据整合、可视化,比较基因组学、代谢网络分析、基因表达谱网络分析、蛋白质技术数据分析处理、蛋白质结构与功能分析以及药物靶点筛选等[1]。随着高通量实验手段的飞速发展,海量数据大量生成,如何从这些数据中挖掘出有用信息进一步指导实验或者对实验结果进行合理分析,是降低研究成本与周期,推动生命科学相关研究快速发展的必需工具。


  虽然生物信息学已经成为目前极其热门的系统生物学研究手段,但是人们对生物信息学的定义十分模糊,该方面研究人才也相对稀缺,不少高校都没有设置相关专业与课程。生物信息相关科学研究也出现形式多样、百花齐放的模式,许多学校也没有注意到该学科具有高度交叉性的特点,缺少相应的扶持政策,使我国生物信息领域的发展始终滞后于国际水平。因此,如何在各生命相关学科内对生物信息学进行精准定位,并针对不同培养阶段的学生设置相应的课程进行定向培养,对于学生与学科发展都有着极大的推动作用。


  1生物信息学研究范围


  生物信息研究主要分为4类,即“算法开发、数据处理、数据分析、数据库构建”。第一,算法开发。算法开发是为了解决某个生物学问题设计相应的数学算法,涉及编程语言的使用和对该生物学问题的深度理解。第二,数据处理。数据处理主要指对包括各种类型转录组数据在内的高通量数据进行处理,获得包括差异基因在内的初步数据分析结果。这部分研究具有高度程式化的特点,可以对各个分析步骤涉及的算法进行深入开发,进而与“算法开发”接轨;也可以借助现有算法并将其高度整合,构建解决某一问题的pipeline。该方面研究多以生物信息学服务为目的,是目前许多公司中生物信息学工作的主要内容。第三,数据分析。该方面研究较分散、类型众多,根据不同研究目的与数据类型,分析方法多种多样,往往需要研究者对生物学问题具备较多的背景知识与理解,掌握多种公共数据库与数据分析工具,是目前高校科研最常涉及的生物信息研究类型。第四,数据库构建。该方面研究往往针对已有的数据进行整合、存储,是现代生物学研究数据积累的重要手段,往往需要专业人员进行数据更新与维护,可以涉及简单的数据分析模块构建,既适合科学研究也适合商业服务。


  2生物信息学人才分类


  作为生命科学与计算机科学的交叉学科,生物信息人才需要具备两个领域的知识,对人才的知识架构要求较高,但是不同培养方向的人才对各部分知识结构的需求也不尽相同。根据生物信息学研究的4种类型,生物信息学人才的培养目标、学科来源与就业导向可以做以下归类。


  2.1算法开发人才


  对算法开发类人才的培养目标是培养能够熟练运用各种编程语言,灵活运用各种包括机器学习在内的算法、思路,根据具体生物学问题设计解决该问题的数学方法与工具的人才。在实际应用中,对这类人才的编程水平、算法与逻辑思维要求较高。因此,该类人才比较适于对来自数学、计算机相关专业的学生进行定向培养。在课程设置上,在强化编程语言与算法设计的同时,需要对生物学基本知识进行培训,为研究者快速、深刻地了解目标问题,准确地设计问题解决方案奠定理论知识基础。算法开发人才在高校科研与企业研发中均发挥着十分重要的作用,也是生物信息学研究的中流砥柱。


  2.2数据处理人才


  对数据处理类人才的培养目标是培养能够利用各种现有数据分析工具对庞大的原始数据进行预处理,获得可供下游生物学分析使用的初始数据的人才。这类研究主要针对高通量数据的处理,人才需要对该实验过程的基本原理、分析过程与现有算法及其优劣了如指掌;需要具备Linux等计算机系统的操作技能,可以对海量数据进行灵活批量处理。该类人才既可以来源于计算机也可以来源于生物学背景的学生,在课程设置上要照顾两方面知识的交叉培训。在我国,数据处理人才仍然是生物信息行业的主流,特别是在企业界该类人才更是供不应求。


  2.3数据分析人才


  对数据分析人才的培养目标是培养能够利用公共数据库信息或实验所得数据挖掘有用信息,获得有价值的生物学结论或者为下游分子生物学实验提供指导的假设性结论的人才。该类人才需要善于使用各种数据库及数据分析软件并掌握一到两门简单的高级编程语言,能够根据各研究课题的目的和需求设计数据分析步骤与流程,能够对结果有深刻的理解与把握。由于这类人才需要对生物学问题具有深刻的认识和理解,学生宜来源于生物相关专业。对该类学生的培养除了介绍一些常用高级编程语言、数据库与分析工具外,更需要注重介绍各类生物学问题的解决方案和相应的方法选择。数据分析人才在各种生命相关的科学研究当中都必不可少,是降低研究盲目性、缩短研究周期、提高研究水平的重要推动力之一。


  2.4数据库构建人才


  对数据库构建人才的培养目标是培养能够将现有数据整合、构建成一个便于检索、分析的数据库的专业人才。这类人才的培养不局限于生物学专业,但是其在生物学领域的应用成为生物信息学研究的重要内容之一。随着海量数据的不断生成,如何将数据组织成一个便于检索、便于分析的存储模块是该类研究人才需要解决的核心问题。对于这类人才的培养,数据库基本知识与必要的编程技能是培养的重要内容;此外,如何低成本地维护、更新数据库也是这类人才需要具备的基本技能。公司与高校对这类人才的需求从未间断,特别是本身能够不断产生高通量数据的企业或科研机构。


  3生物信息学的人才培养


  我们在高校环境下谈人才培养就涉及到本科生和研究生培养两个阶段。


  3.1生物信息学本科生培养


  本科生培养是对学生相关专业的基础技能培训,同时肩负着激发学生对该学科学习兴趣的任务。针对该特点作者提出以下教学建议。第一,由于学生未来职业发展的定向性较差,因此教学内容应该涵盖生物信息学的4种类型,让学生对该学科有一个充分、正确的认识。第二,单方面教学内容不宜过深,以避免學生产生对该学科的畏惧心理。第三,理论与实践相结合,寓教于乐。生物信息学是一门应用型科学,一定要与实践相结合才能达到教学目的。对于每一类生物信息学研究,都应给予相应的应用案例,最好每一部分由长期从事相关研究的老师担任,这样学生可以及时将学习内容与未来应用相关联,既增强了教学实用性也提高了学生的学习积极性。


  3.2生物信息学研究生培养


  研究生培养是对学生研究能力的培养,同时是对学生的专业定向与深度培训。此时的学生培养除了教学还包括科学研究,与老师和专业的接触机会也大大增加。针对该阶段的培养特点,笔者认为该时期应该确定某一生物信息学研究方向,有针对性地对学生进行专业化培养。为此,以下培养方式可供参考。第一,这一时期的教学培养应该借助“课程整合”的概念与优势,根据需要和学生知识结构选择合适的课程进行培训。学校应该支持跨学科、跨学院选课机制,支持研究生选修本科生课程,并且对这些学生的考察方式与标准做适当调整。由于该阶段学生已经开始接触具体科研课题,且课程培养辅助于科学研究,因此应当借鉴许多发达国家的培养方式,让研究生导师制定相关考核方式并对学生进行单独考核。第二,鼓励学生自学相关专业知识,培养学生独立学习与探索的能力。在该方面许多发达国家也有着很多值得借鉴的经验。比如,老师给学生指定一本书或相关资料让学生自学,最后老师出题进行考核;开设讨论性课程,给定学生讨论话题,由学生自主搜集材料、学习并与课程其他学生分享,学生考核由课程老师根据其在分享学习成果中表现出的学习效果以及在讨论中的积极性与正确性来评判。


  4生物信息学的科研发展


  生物信息学作为一个服务性交叉学科,是一个完整生物学研究历程的重要组成部分,需要和其他特别是实验性研究相结合才能最大程度地发挥功能,推动相关研究的发展。


  目前高校主要存在两种生物信息学研究模式。一种是独立的生物信息学研究团队,偏向于计算机与数学方向。这类团队大多与实验性团队有着战略性合作关系,要么是开展“算法开发、数据分析”等工作,然后其开发的算法、提出的生物学假设等由实验性团队使用或验证;要么是对实验性团队产生的结果进行“数据分析”与“数据库构建”。另一种是综合型生物信息学研究团队,偏向于生物学研究,拥有自己的实验平台,可以围绕某特定生物学问题,开展包括“数据分析”等在内的全套研究。第一种方式的科研运转模式相对简单,招生来源也比较明确,但是由于涉及深度合作,发展方向、水平与速度受到合作伙伴的限制;以第二种方式存在的团队虽然可以灵活自主地把控自己的研究方向与成果,但是由于交叉性很强,如果想要得到长久发展,需要得到学校相应的灵活政策支持,比如,允许跨学院招生或者学院间联合培养学生等。


  5结语


  由于生物信息学是一门典型的交叉、新兴学科,高校需要在人才培养上给予一定灵活性,体现“课程整合”在学生培养中的优势。由于生物信息学具备服务性和多样性的特点,高校需要制定相应灵活地招生与培养策略才能促进生物信息学与其他实验性科学的深度融合,成为各生命科学相关研究的有利武器,推动相应科学研究的顺利开展。


  作者:戴晓峰


  第4篇:计算机算法在生物信息学中的应用综述


  0引言


  生物信息学(Bioinformatics)作为一门新兴的交叉学科,是随着生命科学和计算机科学的高速发展而出现的。它通过充分利用生物学、信息学、数学、物理学、统计学以及计算机网络等工具或手段,对大量生物数据信息进行有效的阐明和分析,使之成为具有相应生物意义的生物数据信息。其涵盖了基因组信息的获取、处理、分配、存储等多个方面,通过对生物信息的比较和分析,从而获取基因编码以及核酸和蛋白质结构功能等信息,是最具活力和发展前景的学科之一。然而,生物信息学在我国由于起步较晚,加之其自身呈现出的数量多、计算量大等特征,使生物信息学面临着计算瓶颈。基于此,笔者结合自己的工作实践,对计算机算法在生物信息学中的应用进行探讨,以期为在生物信息学中进行有效的数据挖掘提供理论支持。


  1生物信息学中常用的计算机算法


  算法作为计算机科学的一个重要分支,在计算机科学中居于核心地位。在信息时代,算法作为解决问题的重要工具之一,其通过输入符合规范的信息,从而在短时间内快速获取所需要的输出,现已在各个领域得到了广泛应用。在生物信息学中,计算机算法的应用也对生物信息学的发展起着积极推动作用。生物信息学中常用的计算机算法主要包括以下几种:


  (1)分治法。分治法即在解决大的问题实例时,通过将该问题实例分解为具有相同问题的几个小的问题实例,再采用递归方法依次对这些小的问题实例求解,然后将所得的解合并,从而得出大的问题实例的解。分治法主要应用于合并排序、最近对和凸包问题等领域。而在生物信息学中,可以通过分治法来分析处理序列比对以及序列联配等问题。其中,序列比对在生物学中是最为常见的问题之一,通过PSW-DC算法、生物序列比对算法,在分而治之方法理念的指导下,将Query序列划分成几个片段,再分配给对应的处理器,然后并行地按照Smith-Waterman算法和目标序列进行对比,最终根据相应规则的扩展过程得到最优化的序列匹配[1]。


  (2)图算法。图算法指通过特制的线条算图求得问题实例解的一种便捷算法。图作为一种非线性结构,极具复杂性。因此,图算法无论是在工程、人工智能、数学领域,还是在生物信息学、计算机科学领域均得到了广泛应用。其中,在生物信息学中,运用图算法能够解决很多生物信息学问题,例如:DNA测序、蛋白质测序等。


  (3)贪婪算法。贪婪算法指在一定标准下,通过制定一系列步骤构造问题实例的解,并从众多解中选取局部最优的一个。选取不具有撤销性,因而依此选取直至全局达到最优。在生物信息学中,贪婪算法主要应用于解决基因组重排、反序排列等问题[2]。该算法在生物信息学中的应用不仅能够使问题得到最优解,而且具有较高的运算速度,是一种有效且可行的计算机算法。


  (4)动态规划算法。动态规划算法是指将大的问题实例分解为若干小的、类似的、交错的子问题实例,通过从下到上的递推方式求得最优值,并将子问题实例的解进行有效存储,防止重复计算子问题,从而得到问题最优解决方案的一种算法策略。将动态规划算法运用到生物信息学中,能够有效地分析并处理数据之间的重叠性以及相关性等特点,因此主要应用于DNA序列比较、局部及全局序列联配、多重联配、基因预测及填充表达缺失数据等问题中[3]。


  2计算机算法在生物信息学中的典型应用


  2.1基因表达数据分析


  基因表达数据分析一直是生物信息学研究的热点和难点。在当今的工作实践中,往往采用计算机算法中的聚类分析对基因表达数据进行分析处理,通过把表达规律相近的基因聚成一类,从而找出相互之间有关联的基因,并分析基因功能。计算机算法可以通过基因的转录调节网络,观察基因的表达模式随环境变化或在药物作用下作出的相应改变,阐明基因相互间的调节作用,并对基因的启动子加以研究,分析具有相同表达模式的同类启动子的组成特性。计算机算法中的聚类分析作为分析基因表达数据的重要方法之一,不仅能够发现基因间的线性关系,而且能够找出基因间的非线性关系,因而逐步得到广大研究者的认可[4]。


  2.2基因组序列信息分析


  生物信息学中的基因组序列并不是基因的简单排列,而是具有特定的组织和信息结构,并经过长期演化形成的结果,是基因充分发挥其应有功能所必需的基础条件之一。利用计算机算法对基因组序列信息进行分析,并预测相关功能位点是近年来的主要研究方向之一。分析基因组序列信息通常采用从头算法和比较同源列法两大类。其中,从头算法是基于统计学的方法,它是指通过识别蛋白质编码基因的性质及特征,对外显子、内含子和基因间的区域进行有效区分;而比较同源列法则是通过将基因信息与数据库中的基因信息进行同源比较,从而找出新基因。在新的DNA序列中,一般除基因外,还包含许多与核酸结构特征有关联的其它信息,这些信息对DNA与蛋白质或RNA之间的相互作用具有决定性影响,而运用计算机算法搜索与已知蛋白质、表达序列标签相似的區域,并对其进行编码,是生物信息学中分析基因组序列信息最为理想的算法之一。


  2.3生物序列差异与相似性分析


  在生物信息学中,分析生物序列的差异和相似性是最基本且重要的操作之一,通过对生物序列差异和相似性的分析比较,能够及时得到生物序列中的结构、功能以及进化等方面信息。一般而言,结构、功能和生物序列间呈现出相互制约的关系,结构由生物序列决定,而功能又由结构决定。在分析生物序列差异和相似性中采用计算机算法,能够快速达到研究目的。其中,目的之一即通过生物序列之间的相似性,发现相似的结构及功能。当然也有特殊情况,例如:几乎没有任何相似之处的生物序列,不仅分子构成的空间形状相同,而且功能也相同;目的之二即通过对比生物序列之间的相似性,对生物序列间的同源性进行判断,并依此推断生物序列间的进化关系。在分析生物序列的差异和相似性的过程中,常用的计算机算法主要为Needleman-Wunsch动态规划算法、Smith-Waterman算法以及支持向量机算法等。


  2.4遗传数据分析


  在生物信息学研究中,由于基因结构、组序列信息以及生物序列的复杂性,要求在对遗传数据信息的分析过程中运用计算机算法。具体而言,可以借用一些可视化工具,将基因以图、树、链和方体等形式表现出来,从而提高相关工作人员对基因信息以及基因模式的理解。而知识发现作为发现遗传数据最有力的可视化工具之一,能够对遗传数据进行充分挖掘,对转录调控基因组水平也能起到积极影响。


  2.5蛋白质结构与功能预测


  蛋白质的生物功能是由蛋白质结构决定的,因此在生物信息学中对蛋白质进行研究时,应当首先了解蛋白质结构。随着现代科技的进步,预测蛋白质结构与功能的方法和手段均有了很大进步,但在具体操作过程中依然远远满足不了实际需要,这从一定程度上为计算机算法的推广应用提供了契机。将计算机算法运用于蛋白质结构与功能预测中,不仅对研究蛋白质结构与功能间的相互关系起着至关重要的作用,而且对蛋白质工程以及蛋白质设计的进展能起到积极促进作用。通常而言,预测蛋白质结构主要包括对蛋白质二级结构以及空间结构进行预测。其中,二级结构预测属于模式识别问题,通过运用计算机算法能够有效判断氨基酸残基形状,而在空间结构预测时采用计算机算法,能够以蛋白质序列为出发点,判断亚细胞定位、糖基化位点、信号肽剪切位点等与蛋白质功能有关的特征。


  3研究展望


  随着生物信息学的发展,我国专家学者对生物信息学的重视程度不断提高,而计算机算法的推广应用也在一定程度上为生物信息学的发展提供了新的契机。但从生物信息学的总体发展情况来看,仍和国际水平有很大差距,需要在未来研究中特别注意如下两方面问题:


  (1)专业人才培养。生物信息学作为一门新兴学科,要求相关从业人员既要具备扎实的生物学知识,又要具有较高水平的计算机学科技能,但纵观我国生物信息学的从业人员现状,存在着严重的人才断层及人才匮乏现象,从而对计算机算法在生物信息学中的应用产生了一定制约。因此,要求在后期的研究过程中,注重专业人才的培养,有效解决人才匮乏的现状,为计算机算法在生物信息学中的应用提供强大的人才支持。


  (2)计算机算法应用范围拓展。随着人类基因组计划的启动以及计算机科学水平的提高,计算机算法在生物信息学中的应用已取得了初步进展,在分析基因表达数据、基因组序列信息、生物序列差异和相似性、遗传数据,以及预测蛋白质结构与功能等方面发挥了重大作用。但生物信息学包含的内容极其丰富,因此要求在后期的研究过程中,应当有计划地扩大计算机算法在生物信息学中的应用范围,使计算机算法的价值得到最大限度的发挥,为生物信息学研究的有效开展提供强有力的技术支持。


  4结语


  生物信息学作为一门生物学与计算机科学交叉融合的新兴学科,其核心是生物学,基本工具则是计算机科学。因此,要求生物信息学相关研究人员在工作实践中,加强各学科之间的沟通、合作,充分把握计算机算法在生物信息学中的应用,从而解决生物信息学中信息数量多、计算量大等问题,推动生物信息学的进一步发展。


  作者:刘奇付等

核心期刊推荐