面向蛋白質功能位點識別的機器學習平臺構建.pdf_第1頁
已閱讀1頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、有關蛋白質功能的研究是解析生命奧秘的基礎。通過對蛋白質功能位點(如:蛋白質與核酸的結合位點、糖基化位點、磷酸化結合位點等)的識別,進而預測蛋白質的功能是目前的主要手段之一。
   機器學習是一種自動的具有人工智能的學習方法,在生物信息學的蛋白質功能位點研究中被廣泛的應用。目前利用機器學習方法研究蛋白質功能位點的關鍵是序列特征的有效提取及訓練預測模型的正確選擇,而上述兩點具有以下特點:a)模型輸入(訓練數(shù)據)大都直接或間接地使用蛋

2、白質氨基酸序列的理化特性、序列信息、保守特性、二級結構特性、統(tǒng)計特性等;b)機器學習的建立方法相對一致,即通過數(shù)據集準備、特征提取、機器學習模型選擇、模型訓練預測、評價等過程?;谏鲜鎏攸c及共性,為了避免預測蛋白質功能位點研究中的重復工作,本文整合了目前所有通用的蛋白質序列特征及機器學習訓練預測模型,利用支持向量機或隨機森林方法,構建了一個預測蛋白質功能位點的通用平臺。具體內容如下:
   (1)提出了基于氨基酸序列的蛋白質功能

3、位點預測通用模型。針對蛋白質功能位點預測模型的構建一般包括數(shù)據集選取、正負樣本確定、特征提取、模型選擇、訓練、預測、評價等步驟,本文構建了基于氨基酸序列的蛋白質功能位點預測模型。該模型先提取非同源蛋白質序列,再根據選定的窗口大小確定止負樣本的長度,接下來對樣本序列進行特征編碼(包括序列的基本信息、物化特征、結構信息及序列保守性特征等),以編碼好的樣本作為訓練數(shù)據,利用支持向量機或隨機森林進行訓練,并對訓練好的模型進行評價,得到評價指標最

4、優(yōu)的訓練模型后,便可以用來預測蛋白質序列上的功能位點。
   (2)實現(xiàn)了一個面向蛋白質功能位點的機器學習平臺。在文中,我們首次提出了面向蛋白質功能位點的機器學習平臺的模塊化實現(xiàn)。三個功能模塊如下:a)數(shù)據預處理模塊:用戶輸入標有功能位點的序列信息后,通過聚類的算法提取非冗余序列:b)特征提取模塊:利用序列的基本信息、物化特征、結構信息及序列保守性特征,將篩選后的序列轉化為固定長度的窗口序列:c)機器學習訓練預測模塊:使用支持向

5、量機或隨機森林進行訓練預測,得到序列的敏感性、特異性、Matthew相關系數(shù)、準確率及ROC曲線等評價指標。該平臺以Windows XP為操作系統(tǒng),采用Visual C++和Perl集成開發(fā),其中VC++實現(xiàn)程序調用,界面顯示,ROC曲線繪制:而Perl則實現(xiàn)窗口選擇、正負樣本確定、序列特征提取及預測后對結果數(shù)據的評價分析。
   (3)以蛋白質和生物大分子的相互作用為例驗證平臺性能。性能測試是平臺開發(fā)的重要一環(huán),為驗證平臺的有

6、效性,本文以蛋白質與核酸(DNA/RNA)的相互作用及蛋白質O-糖基化為例,預測蛋白質與DNA/RNA的作用位點及蛋白質O-糖基化位點。利用平臺高度整合的特性,為預測蛋白質和DNA/RNA相互作用及蛋白質O-糖基化位點選擇出最優(yōu)預測模型。同時為驗證平臺的準確度,我們還采用Ma X.,Wang L.和Li S.J.文章中相同的樣本數(shù)據,相同的特征參數(shù)以及相同的訓練模型,測試結果發(fā)現(xiàn)與論文上結果基本一致,從而說明本平臺的預測是準確且有效的。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論