生物信息学现状分析

来源：UC论文网2019-04-01 15:55

摘要：

　　【摘要】信息技术的飞速发展，为传统的生物研究提供了新的平台，在大量的数据处理和对比方面，出现了与传统完全不同的数据处理方法，本文就对生物信息学的最新研究现状作了简单的分析。　　【关键词】生物；信息学；技术　　中图分类号：G633.91文献标识码：A文章编号：1009-8283(2009)05-0258-01　　1生物信息学的产生　　21世纪是生命科学的世纪，伴随着人类基因组计划的胜利完成，与此...

　　【摘要】信息技术的飞速发展，为传统的生物研究提供了新的平台，在大量的数据处理和对比方面，出现了与传统完全不同的数据处理方法，本文就对生物信息学的最新研究现状作了简单的分析。

　　【关键词】生物；信息学；技术

　　中图分类号：G633.91文献标识码：A文章编号：1009-8283(2009)05-0258-01

　　1生物信息学的产生

　　21世纪是生命科学的世纪，伴随着人类基因组计划的胜利完成，与此同时，诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施，使分子生物数据以爆炸性速度增长。在计算机科学领域，按照摩尔定律飞速前进的计算机硬件，以及逐步受到各国政府重视的信息高速公路计划的实施，为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源，已经成为生命科学和生物技术研究开发的必要手段，从而诞生了生物信息学。

　　2生物信息学研究内容

　　2.1序列比对

　　比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法，以及在此基础上编写的比对软件包――BALST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似，但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法，缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。

　　2.2结构比对

　　比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。

　　2.3蛋白质结构预测

　　从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。

　　2.4计算机辅助基因识别

　　给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。

　　2.5非编码区分析和DNA语言研究

　　在人类基因组中，编码部分进展总序列的3~5%，其它通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。

　　3生物信息学的新技术

　　3.1Lipshutz(Affymetrix，Santaclara，CA，USA)

　　Lipshutz(Affymetrix，Santaclara，CA，USA)描述了一种利用DNA探针阵列进行基因组研究的方法，其原理是通过更有效有作图、表达检测和多态性筛选方法，可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列，这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析，以获得序列、表达和基因分型信息。

　　3.2基因的功能分析

　　Overton(UniversityofPennsylvaniaSchoolofMedicine，Philadelphia，PA，USA)论述了人类基因组计划的下一阶段的任务――基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB，它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。

　　Babbitt(UniversityofCalifornia，SanFrancisco，CA，USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解，要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现，因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。

　　3.3新的数据工具

　　Letovsky(JohnshopkinsUniversity，Baltimore，MD，USA)介绍了GDB数据库，它由每条人类染色体的许多不同图谱组成，包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容，以及由不同研究者用同种方法得到的图谱。就位置查询而言，如果不论其类型(type)和来源(source)，或者是否它们正好包含用以批定感兴趣的区域的标志(markers)，能够搜索所有图谱是有用的。为此目的，该数据库使用了一种公用坐标系统(commoncoordinatesystem)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。

　　Candlin(PEappliedBiosystems，FosterCity，CA，USA)介绍了一种新的存储直接来自ABⅠPrismdNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成，并可方便地与其它软件包自动调用，为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。

核心期刊推荐

返回生物论文

热门论文推荐