背景[1-5]
生物信息學(xué)是生物學(xué),計(jì)算機(jī)科學(xué),信息工程,數(shù)學(xué)和統(tǒng)計(jì)學(xué)的綜合學(xué)科,主要內(nèi)容是使用生物算法和相關(guān)的軟件工具采集、處理、存儲(chǔ)、分析和解釋生物數(shù)據(jù)。其研究重點(diǎn)主要體現(xiàn)在基因組學(xué)(Genomics)和蛋白質(zhì)組學(xué)(Proteomics)兩方面,具體說(shuō)就是從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)的結(jié)構(gòu)功能的生物信息。生物信息學(xué)已成為許多生物學(xué)領(lǐng)域的重要組成部分。
在實(shí)驗(yàn)分子生物學(xué)中,生物信息學(xué)技術(shù)如圖像和信號(hào)處理可以從大量原始數(shù)據(jù)中提取有用的結(jié)果。在遺傳學(xué)領(lǐng)域,它有助于測(cè)序和注釋基因組及其觀察到的突變。它在生物文學(xué)的文本挖掘和生物學(xué)基因本體的發(fā)展中起著重要作用。它還在基因和蛋白質(zhì)表達(dá)和調(diào)節(jié)的分析中起著重要作用作用。生物信息學(xué)工具有助于比較遺傳和基因組數(shù)據(jù),更普遍地用于理解分子生物學(xué)的進(jìn)化方面。
在更綜合的層面上,它有助于分析和編目作為系統(tǒng)生物學(xué)重要組成部分的生物途徑和網(wǎng)絡(luò)。在結(jié)構(gòu)生物學(xué)中,它有助于DNA,RNA,蛋白質(zhì)的建模以及分析生物分子的相互作用?;旧镄畔W(xué)服務(wù)按EBI分為三類:SSS(序列搜索服務(wù)),MSA(多序列比對(duì))和BSA(生物序列分析)。
應(yīng)用[6][7][8]
1. 基因序列分析
大多數(shù)DNA測(cè)序技術(shù)產(chǎn)生需要組裝的短序列片段以獲得完整的基因或基因組序列。這些片段的末端重疊,并且當(dāng)通過(guò)基因組裝配程序適當(dāng)比對(duì)時(shí),可用于重建完整的基因組。隨著數(shù)據(jù)量的不斷增加,很久以前人工分析DNA序列變得不切實(shí)際。今天計(jì)算機(jī)程序如BLAST每天用于從多于260個(gè)000有機(jī)體查詢序列,含有超過(guò)190十億個(gè)核苷酸。這些程序可以補(bǔ)償DNA序列中的突變(交換,缺失或插入的堿基),以識(shí)別相關(guān)但不相同的序列。
1.1. DNA測(cè)序序列分析;
1.2. 基因組注釋;
1.3.比較基因組學(xué)分析;
1.4.比較基因組學(xué)分析;
1.5.泛基因組學(xué)分析;
1.6.疾病遺傳及癌癥突變分析;
2.基因和蛋白質(zhì)表達(dá)分析
2.1基因表達(dá)分析;
2.2蛋白質(zhì)表達(dá)分析;
2.3表達(dá)信號(hào)通路分析
3.結(jié)構(gòu)生物信息學(xué)
蛋白質(zhì)的氨基酸序列,即所謂的一級(jí)結(jié)構(gòu),可以從編碼它的基因上的序列容易地確定。在絕大多數(shù)情況下,該主要結(jié)構(gòu)唯一地確定其原生環(huán)境中的結(jié)構(gòu)。這種結(jié)構(gòu)的知識(shí)對(duì)于理解蛋白質(zhì)的功能至關(guān)重要。在生物信息學(xué)的結(jié)構(gòu)分支中,同源性用于確定蛋白質(zhì)的哪些部分在結(jié)構(gòu)形成和與其他蛋白質(zhì)的相互作用中是重要的。
在稱為同源建模的技術(shù)中,一旦已知同源蛋白質(zhì)的結(jié)構(gòu),該信息用于預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。這目前仍然是可靠地預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的唯一方法。結(jié)構(gòu)生物信息學(xué)的另一方面包括將蛋白質(zhì)結(jié)構(gòu)用于虛擬篩選模型,例如定量結(jié)構(gòu)-活性關(guān)系模型和蛋白質(zhì)化學(xué)模型(PCM)。
4. 網(wǎng)絡(luò)和系統(tǒng)生物學(xué)
網(wǎng)絡(luò)分析旨在了解生物網(wǎng)絡(luò)中的關(guān)系,如代謝或蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)。盡管生物網(wǎng)絡(luò)可以由單一類型的分子或?qū)嶓w(例如基因)構(gòu)建,但網(wǎng)絡(luò)生物學(xué)通常會(huì)嘗試整合許多不同的數(shù)據(jù)類型,例如蛋白質(zhì),小分子,基因表達(dá)數(shù)據(jù)等。系統(tǒng)生物學(xué)涉及使用計(jì)算機(jī)模擬的蜂窩子系統(tǒng)也可以用人工智能或虛擬進(jìn)化試圖簡(jiǎn)單模擬其進(jìn)化過(guò)程。
參考文獻(xiàn)
[1] Lesk,A.M.(26 July 2013)."Bioinformatics".Encyclopaedia Britannica.Retrieved 17 April 2017.
[2] Sanger F,Air GM,Barrell BG,Brown NL,Coulson AR,Fiddes CA,Hutchison CA,Slocombe PM,Smith M(February 1977)."Nucleotide sequence of bacteriophage phi X174 DNA".Nature.265(5596):687–95.Bibcode:1977Natur.265.687S.
[3] Benson DA,Karsch-Mizrachi I,Lipman DJ,Ostell J,Wheeler DL(January 2008)."GenBank".Nucleic Acids Res.36(Database issue):D25–30.doi:10.1093/nar/gkm929.PMC 2238942.PMID 18073190.
[4] Grau,J.;Ben-Gal,I.;Posch,S.;Grosse,I.(1 July 2006)."VOMBAT:prediction of transcription factor binding sites using variable order Bayesian trees"(PDF).Nucleic Acids Research.34(Web Server):W529–W533.
[5] "The Human Protein Atlas".www.proteinatlas.org.Retrieved 2017-10-02.
[6] Nisbet,Robert(14 May 2009)."BIOINFORMATICS".Handbook of Statistical Analysis and Data Mining Applications.John Elder IV,Gary Miner.Academic Press.p.328.ISBN 9780080912035.Retrieved 9 May 2014.
[7] Fleischmann RD,Adams MD,White O,Clayton RA,Kirkness EF,Kerlavage AR,Bult CJ,Tomb JF,Dougherty BA,Merrick JM(July 1995)."Whole-genome random sequencing and assembly of Haemophilus influenzae Rd".Science.269(5223):496–512.Bibcode:1995Sci.269.496F.
[8] Carter,N.P.;Fiegler,H.;Piper,J.(2002)."Comparative analysis of comparative genomic hybridization microarray technologies:Report of a workshop sponsored by the Wellcome trust".Cytometry Part A.49(2):43–8.