生物信息學(xué)論文
發(fā)布時(shí)間:2020-07-13 來源: 思想?yún)R報(bào) 點(diǎn)擊:
生物信息 學(xué)論文 嗜酸氧化亞鐵硫桿菌 6 M16 家族金屬肽酶 序列分析
學(xué)院
資源生物學(xué)院
任課老師
劉元東
班級(jí) 生物技術(shù) 1201 班
學(xué)號(hào)
0306120227
學(xué)生姓名
解昊明
摘要 :
現(xiàn)代生物信息學(xué)是應(yīng)用計(jì)算機(jī)技術(shù)和信息論方法研究蛋白質(zhì)及核酸序列等各種生物信息的采集、存儲(chǔ)、傳遞、檢索、分析和解讀,以幫助了解生物學(xué)和遺傳學(xué)信息的科學(xué),其研究?jī)?nèi)容主要有基因組信息學(xué)、蛋白質(zhì)的結(jié)構(gòu)模擬以及藥物設(shè)計(jì)。本文是在生物信息學(xué)方法的基礎(chǔ)上,從已公布的AcidithiobacillusferrooxidansATCC23270 全基因組序列中挑選出肽酶的蛋白質(zhì)序列,以所公布的序列及注釋信息為基礎(chǔ),通過查詢、搜索和使用生物信息學(xué)相關(guān)的數(shù)據(jù)庫、服務(wù)器及軟件工具等,完成對(duì)該基因的背景信息了解、同源序列比對(duì)、系統(tǒng)發(fā)生分析、二級(jí)結(jié)構(gòu)預(yù)測(cè)、信號(hào)肽分析、跨膜區(qū)分析、蛋白質(zhì)同源分子結(jié)構(gòu)信
息了解等任務(wù)。通過對(duì)該基因的序列分析歸納總結(jié)了生物信息學(xué)網(wǎng)站的使用方法和開展一般生物信息學(xué)探究的基本步驟。
關(guān)鍵詞 :
生物信息;嗜酸氧化亞鐵硫桿菌;M16 家族;肽酶;序列分析;序列比對(duì);進(jìn)化樹;二級(jí)結(jié)構(gòu)預(yù)測(cè);信號(hào)肽分析;跨膜區(qū)分析
一、 目標(biāo)序列的獲取 與背景
1. 目標(biāo) 序列的下載
打開網(wǎng)址:
找到序列:
MDRYGPLLLFPPDMTRAVEPLCTTLDNGVTVISERLPGRRSVAL SLTVGNGSRDQAPDENGFAHLLEHMLFKGSTERDGDALNAAMESLGGTINAFTDRESTVFHGTVLAEDAADAFTLLAELLTKPRFDHADLRLEKRVVAQEAAMAAEDVEDWAQERALAEIWGPHPLAWPVLGNAQCIRSASRKRLQAYHQRILAESPLIVTAVGEVEHGVLCAWAEAAFGGPHGGARTAVPAPRFHGGQKRLRRAQAQQAHLIWMAPGCSVAAEDYLAHVVANAILGGGTASYLFRELREKRGLAYQVFSHLDPLRDCGEWTLYAATPGAQHVQAVAAMAEVLATLLEHGPTAADMIWAKRSLRIQLLLGQEDAEIRMSRLTRQWLYLGRLVPAEESL
RTLAAVDADAVLRVLRKAWTERFELICLPARR 2. 目標(biāo)序列的背景信息
打開網(wǎng)址.nlm.nih.gov/,輸入“peptidases”查詢相關(guān)數(shù)據(jù)庫。
從 PubMed 數(shù)據(jù)庫中查找了解該序列相關(guān)研究背景
結(jié)果如下:
肽酶 是一種能夠水解肽鏈的酶。
他們是所有生物存活所必需的一種酶,而且在所有蛋白質(zhì)的編碼中,編碼肽酶的基因占了2% 。
在對(duì) 500 個(gè)人的肽酶的調(diào)查中發(fā)現(xiàn),有 14%的的肽酶可以作為藥物的靶點(diǎn)肽酶在許多生物過程中扮演重要的角色,包括消化食物蛋白、胞內(nèi)蛋白循環(huán)、凝血級(jí)聯(lián)系統(tǒng)、抗原提呈作用及活化各種蛋白質(zhì),包括酶、肽類激素及神經(jīng)遞質(zhì)等。
金屬肽酶
活性依賴一種或多種金屬離子,催化肽類和蛋白質(zhì)中肽鍵水解的一類蛋白酶[1] 二、 序列分析
1 1、 、 同源序列比對(duì)
序列比對(duì)的基本思想是,基于生物學(xué)中序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能的普遍規(guī)律,將核酸序列和蛋白質(zhì)一級(jí)結(jié)構(gòu)上的序列都看成由基本字符組成的字符串,檢測(cè)序列之間的相似性,發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化的信息。序列比對(duì)的理論基礎(chǔ)是進(jìn)化學(xué)說,如果兩個(gè)序列之間具有足夠的相似性,就推測(cè)二者可能有共同的進(jìn)化祖先,經(jīng)過序列內(nèi)殘基的替換、殘基或序列片段的缺失、以及序列重組等遺傳變異過程分別演化而來。
序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。
如果兩個(gè)序列有顯著的保守性,要確定二者具有共同的進(jìn)化歷史,進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。通過大量實(shí)驗(yàn)和序列比對(duì)的分析,一般認(rèn)為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具有更大的保守性,因此粗略的說,如果序列之間的相似性超過30% ,它們就很可能是同源的。
利用 BLAST 工具[2]進(jìn)行同源序列比對(duì),輸入網(wǎng)址:
點(diǎn)擊 BLAST,得到序列比對(duì)結(jié)果:
(1)a.目標(biāo)序列的簡(jiǎn)單信息:名稱、描述、分子類型、序列長(zhǎng)度等。其中分子類型為氨基酸,序列長(zhǎng)度為 424. b.所比對(duì)數(shù)據(jù)庫的名稱、描述和所用程序。
。2)GraphicSummary——blast 結(jié)果圖形顯示 a.保守域:顯示輸入序列的保守域片段等信息,包括特殊片段、非特殊片段、超家族、多結(jié)構(gòu)域。
b.Distributionof100BlastHitsontheQuerySequence 顯示 hits 在輸入序列上的分布
界面包括消息框(顯示 hits 的信息)、相似度顏色圖,代表 hits 的得分區(qū)間(黑、藍(lán)、綠、粉紅、紅,相似度由低到高)、輸入序列的坐標(biāo)、比對(duì)序列(每一條線段代表一條 hit,點(diǎn)擊線段,會(huì)鏈接到 hit 的詳細(xì)信息描述)。
c.Describtion 顯示比對(duì)序列的相關(guān)信息,包括名稱、得分、輸入序列覆蓋值、E 評(píng)估值、相似度。得分越高、Evalue 越低、相似度越高,相似性的程度就越高。
d.Alignment
比對(duì)序列的名稱得分等信息,以及比對(duì)序列的具體顯示,可清楚的了解到哪些序列比對(duì)上,哪些序列是不一樣的,同時(shí)還要注意序列的位置。
2 2、 、 多重序列比對(duì) ( MSA )
是對(duì)三個(gè)以上的生物學(xué)序列(biologicalsequence),如蛋白質(zhì)序列、DNA 序列或 RNA 序列所作的序列比對(duì)。一般來說,是輸入一組假定擁有演化關(guān)系的序列。從 MSA 的結(jié)果可推導(dǎo)出序列的同源性,而種系發(fā)生關(guān)系也可引導(dǎo)出這些序列共同的演化始祖。
MSA 常用來研究序列的保守性(conservation),或是蛋白質(zhì)結(jié)構(gòu)域的三級(jí)結(jié)構(gòu)與二級(jí)結(jié)構(gòu),甚至是個(gè)別的氨基酸或核苷酸。
輸入網(wǎng)址[3]:
輸入的六個(gè)序列,clustalx 快速的進(jìn)行序列兩兩對(duì)比,計(jì)算序列間的距離,獲得一個(gè)距離矩陣,鄰接法構(gòu)建一個(gè)引導(dǎo)樹,根據(jù)引導(dǎo)樹,漸進(jìn)比對(duì)多個(gè)序列。
結(jié)果如圖,不同的殘基具有不同的顏色,可以清晰的看出各條序列之間殘基種類的異同,根據(jù)殘基異同對(duì)序列打分,可判斷出序列的相似性和同源性。在序列數(shù)據(jù)庫中,往往將各個(gè)序列按照同源關(guān)系進(jìn)行分類,形成一系列的家族。
3 3、 、 系統(tǒng)發(fā)生分析
系統(tǒng)發(fā)生分析常用于進(jìn)化研究,通過構(gòu)建系統(tǒng)發(fā)育過程有助于通過物種間隱含的種系關(guān)系揭示進(jìn)化動(dòng)力的實(shí)質(zhì)。
表型的(phenetic)和遺傳的(cladistic)數(shù)據(jù)有著明顯差異。這兩種關(guān)系可用于系統(tǒng)進(jìn)化樹(phylogenetictree)或樹狀圖(dendrogram)來表示。表型分枝圖(phenogram)和進(jìn)化分枝圖(cladogram)兩個(gè)術(shù)語已用于表示分別根據(jù)表型性的和遺傳性的關(guān)系所建立的關(guān)系樹。進(jìn)化分枝圖可以顯示事件或類群間的進(jìn)化時(shí)間,而表型分枝圖則不需要時(shí)間概念。文獻(xiàn)中,更多地是使用“系統(tǒng)進(jìn)化樹”一詞來表示進(jìn)化的途徑,另外還有系統(tǒng)發(fā)育樹、物種樹(speciestree)、基因樹等等一些相同或含義略有差異的名稱. 進(jìn)入網(wǎng)址[4] :
每一條線段都有一定的長(zhǎng)度,兩條序列之間的線段長(zhǎng)度之和便為兩個(gè)序列之間的距離,由此可判斷出序列之間的親疏關(guān)系。
4 4、 、 二級(jí)結(jié)構(gòu)預(yù)測(cè)
蛋白質(zhì)二級(jí)結(jié)構(gòu)(secondarystructureofprotein)指它的多肽鏈中有規(guī)則重復(fù)的構(gòu)象,限于主鏈原子的局部空間排列,不包括與肽鏈其他區(qū)段的相互關(guān)系及側(cè)鏈構(gòu)象。二級(jí)結(jié)構(gòu)主要有 α-螺旋、β-折疊、β-轉(zhuǎn)角。常見的二級(jí)結(jié)構(gòu)有 α-螺旋和 β-折疊。二級(jí)結(jié)構(gòu)是通過骨架上的羰基和酰胺基團(tuán)之間形成的氫鍵維持的,氫鍵是穩(wěn)定二級(jí)結(jié)構(gòu)的主要作用力。
蛋白質(zhì)在形成立體結(jié)構(gòu)時(shí),其多肽鏈部分首先折疊成 α-型螺旋(α-helix)和β-型(β-sheet)結(jié)構(gòu),并由此進(jìn)一步可折疊成球形。此時(shí),將 α 螺旋和 β 型結(jié)構(gòu)稱為二級(jí)結(jié)構(gòu)。在蛋白質(zhì)以外,例如在 tRNA 有三葉草葉型結(jié)構(gòu),也可稱為二級(jí)結(jié)構(gòu)。
打開網(wǎng)址[5]:,輸入目標(biāo)序列,點(diǎn)擊 predict.
結(jié)果如下:
圖中顯示了每一個(gè)氨基酸的坐標(biāo)和結(jié)構(gòu),粉紅色代表 helix,黃色代表 sheet,白色代表線性。我們以另一種形式進(jìn)一步了解其預(yù)測(cè)的二級(jí)結(jié)構(gòu)。
粉紅色的圓柱代表螺旋,黃色的箭頭代表折疊,直線代表線性結(jié)構(gòu)。Conf代表預(yù)測(cè)的可信度,Pred 代表預(yù)測(cè)的二級(jí)結(jié)構(gòu),分別以圖形和字母表示。AA 代表輸入的目標(biāo)序列。由此我們可以預(yù)測(cè)出該序列完整的二級(jí)結(jié)構(gòu)。
5 5、 、 信號(hào)肽的分析
信號(hào)肽是引導(dǎo)新合成的蛋白質(zhì)向分泌通路轉(zhuǎn)移的短(長(zhǎng)度 5-30 個(gè)氨基酸)肽鏈。常指新合成多肽鏈中用于指導(dǎo)蛋白質(zhì)的跨膜轉(zhuǎn)移(定位)的 N-末端的氨基酸序列(有時(shí)不一定在 N 端)。
信號(hào)肽包括三個(gè)區(qū):一個(gè)帶正電的 N 末端,稱為堿性氨基末端:一個(gè)中間疏水序列.以中性氨基酸為主,能夠形成一段 d 螺旋結(jié)構(gòu),它是信號(hào)肽的主要功能區(qū);一個(gè)較長(zhǎng)的帶負(fù)電荷的 C 末端,含小分子氨基酸,是信號(hào)序列切割位點(diǎn).也
稱加工區(qū)。當(dāng)信號(hào)肽序列合成后,被信號(hào)識(shí)別顆粒(SRP)所識(shí)別,蛋白質(zhì)合成暫停或減緩,信號(hào)識(shí)別顆粒將核糖體攜帶至內(nèi)質(zhì)網(wǎng)上,蛋白質(zhì)合成重新開始。在信號(hào)肽的引導(dǎo)下,新合成的蛋白質(zhì)進(jìn)入內(nèi)質(zhì)網(wǎng)腔.而信號(hào)肽序列則在信號(hào)肽酶的作用下被切除。如終止轉(zhuǎn)運(yùn)序列存在于新生肽鏈的 C 端,也可以不被信號(hào)肽酶切除。
信號(hào)肽假說認(rèn)為,編碼分泌蛋白的 mRNA 在翻譯時(shí)首先合成的是 N 末端帶有疏水氨基酸殘基的信號(hào)肽,它被內(nèi)質(zhì)網(wǎng)膜上的受體識(shí)別并與之相結(jié)合。信號(hào)肽經(jīng)由膜中蛋白質(zhì)形成的孔道到達(dá)內(nèi)質(zhì)網(wǎng)內(nèi)腔,隨即被位于腔表面的信號(hào)肽酶水解,由于它的引導(dǎo),新生的多肽就能夠通過內(nèi)質(zhì)網(wǎng)膜進(jìn)入腔內(nèi),最終被分泌到胞外。翻譯結(jié)束后,核糖體亞基解聚、孔道消失,內(nèi)質(zhì)網(wǎng)膜又恢復(fù)原先的脂雙層結(jié)構(gòu)。
輸入網(wǎng)址[6]:
輸入目標(biāo)序列后,點(diǎn)擊 submit,結(jié)果如下:
結(jié)果分析:
C-score(Cleavagesitescore 剪切位置分值):通常信號(hào)肽剪切位置+1(就是成熟肽的第一個(gè)殘基)有個(gè)高的分值而其他位置有低的分值。
S-score(Signalpeptidescore 信號(hào)肽分值):剪切位置前的信號(hào)肽有高的分值,而非信號(hào)肽有低的分值。
Y-score(combinedcleavagesitescore):是綜合考慮 c 和 s-score。
S-mean 是從 N 端氨基酸開始到剪切位點(diǎn)處各氨基酸的平均 S 值。
D 值是 S-mean 和 Y-max 的平均值,對(duì)區(qū)分是否為分泌蛋白具有重要作用。
本圖分析結(jié)果表明,這個(gè)蛋白質(zhì)并沒有明顯的信號(hào)肽剪切位點(diǎn)(Y 值和 S 值均沒有明顯的高點(diǎn)),所以得出的結(jié)論是:Signalpeptide 列中結(jié)果為 no,這個(gè)蛋白并不分泌。
6 6、 、 跨膜區(qū)分析
跨膜區(qū)指蛋白質(zhì)序列中跨越細(xì)胞膜的區(qū)域,通常為 α-螺旋結(jié)構(gòu),約 20~25 個(gè)氨基酸殘基。該區(qū)域氨基酸大部分是疏水性氨基酸。
蛋白質(zhì)跨膜區(qū)域的分析常采用 TMHMM 軟件進(jìn)行。
進(jìn)入網(wǎng)站[7]:
結(jié)果如下:
橫坐標(biāo)是指氨基酸的位置,縱坐標(biāo)指每一個(gè)氨基酸可能跨膜的概率,紅線、藍(lán)線、粉紅線分別指氨基酸跨膜、膜內(nèi)、膜外的概率。
由圖可知,幾乎每一個(gè)氨基酸都有 100%的概率處于膜外,結(jié)論顯示為outside1424,該蛋白為膜外蛋白。
7 7、 、 同源分子結(jié)構(gòu)信息
進(jìn)入網(wǎng)址[8]:
輸入目標(biāo)序列,結(jié)果如下:
三、歸納總結(jié)
1 1 、 探究過程中可以簡(jiǎn)化操作的幾個(gè)技巧
。1)在全基因組中尋找具有相同功能的離散基因時(shí)可以使用 office 自帶的搜索功能。
如我要找到所有關(guān)于rhodanese-likedomainprotein(硫氰酸酶結(jié)構(gòu)域蛋白)的基因時(shí),按下 ctrl+f 打開搜索界面,輸入 rhodanese-likedomainprotein 即可。
可以看到我在全基因組中找到了分別離散與 AFE2558,AFE2364, AFE1502,AFE0529andAFE0151 位置的基因。
。2)在進(jìn)行完序列的同源搜索后同源序列的列表,我們只需要將左邊勾選然后就可以直接下載同源序列。如此在之后的多重序列比對(duì)中我們可以直接上傳下載的序列文件而不用直接輸入序列
(3)在進(jìn)行完多重序列比對(duì)之后直接點(diǎn)擊標(biāo)題欄的 PhylogeneticTree 即可進(jìn)入系統(tǒng)發(fā)生分析界面,無需再上傳一次基因序列。
2 2 、補(bǔ)充可以用到的生物信息學(xué)網(wǎng)站
(1)Rast Rast 是一個(gè)快速注釋宏基因組樣品的網(wǎng)頁服務(wù)器。它可以分析序列片段的注釋,他們的系統(tǒng)分類和初步的構(gòu)建代謝途徑。它也可以用來比較宏基因組數(shù)據(jù)的分類和初步代謝途徑的構(gòu)建
(2)Kaas Kaas 是基于基因數(shù)據(jù)庫,化學(xué)分子物質(zhì)數(shù)據(jù)庫,以及基于基因和化學(xué)分子物質(zhì)相互關(guān)系而建立起來的代謝路徑數(shù)據(jù)庫的快速檢索工具
3 3 、對(duì)新菌種開展研究的一般途徑
四、課程感言
隨著生命科學(xué)和計(jì)算機(jī)科學(xué)的迅猛發(fā)展,生物學(xué)科對(duì)于核酸和蛋白質(zhì)的分析的算法越來越復(fù)雜,這樣利用電子計(jì)算機(jī)分析核算和蛋白質(zhì)序列的學(xué)科就應(yīng)運(yùn)而生了,這就是這門生物信息學(xué),他試圖從基因序列和蛋白質(zhì)序列的分析中找到一般規(guī)律,從而探究生物自身的特性。對(duì)于新藥物的研究,疾病治療,和人體探秘等等有著重大意義。
通過這門課的學(xué)習(xí),我感覺我學(xué)到的最重要的一點(diǎn)就是對(duì)于未知事物的屬性的探究和驗(yàn)證方法,說簡(jiǎn)單一點(diǎn)就是序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能。
就拿這次序列分析的情況看,從這個(gè)肽酶在序列上的屬性,比如是否帶有信號(hào)肽,是否跨膜就可以推測(cè)并驗(yàn)證它的功能,雖然,我們事先已經(jīng)這種酶的屬性了,但是這種方法同樣是用于探索未知,比如,這個(gè)序列與另一個(gè)已知序列很1•分離純化2•測(cè)序3•16sRNA比對(duì)4•Rast/Kaas初步猜想構(gòu)建代謝通路5•同源搜索、多重序列比對(duì)、系統(tǒng)發(fā)生分析6•二級(jí)結(jié)構(gòu)預(yù)測(cè)、信號(hào)肽分析、跨膜區(qū)分析7•將測(cè)序后的DNA片段鏈接8•設(shè)計(jì)實(shí)驗(yàn) 驗(yàn)證
接近,或者說同源性很高,那么就可以猜測(cè)他們具有相似的功能,就為進(jìn)一步研究提供了方向,再比如,我們知道一個(gè)未知蛋白可能是膜蛋白,那么他可能與呼吸作用等有關(guān),等等。
所以,重要的是對(duì)于序列屬性的分析與推導(dǎo),得到假設(shè)和猜想,然后再利用具體的實(shí)驗(yàn)加以認(rèn)證這樣的一個(gè)思路。生物信息學(xué)是一種手段,但是,他也符合這樣一種基本的探究方式,只不過為這種方式增加了計(jì)算機(jī)等科學(xué)的輔助手段。
這次學(xué)習(xí)還讓我熟悉了生物信息學(xué)這種工具的使用方法,通過各種序列分析網(wǎng)站的使用,讓我了解各個(gè)生物信息學(xué)實(shí)驗(yàn)該如何開展。并通過一次實(shí)驗(yàn)總結(jié)一般方法,F(xiàn)在我已初步了解了對(duì)一個(gè)新的未知菌進(jìn)行生物信息學(xué)分析,構(gòu)建代謝通路,分析各個(gè)基因及蛋白功能的基本方法。這將在我未來生物相關(guān)的學(xué)習(xí)中起到重要作用。
五、參考文獻(xiàn) 及網(wǎng)站
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[10] ValdésJ,PedrosoI,QuatriniR,etal.Acidithiobacillusferrooxidansmetabolism:fromgenomesequencetoindustrialapplications.[J].BmcGenomics,2008,9(6):82-86. [11]朱玉賢,李毅,鄭曉峰,郭紅衛(wèi).現(xiàn)代分子生物學(xué).北京:高等教育出版社,2013:53
熱點(diǎn)文章閱讀