

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、藥物的發(fā)展歷史甚久,中國古代就有神農嘗百草的故事以及本草綱目等名著。從人類基因組計劃基本完成的那一刻起,生物數(shù)據(jù)作為一種非物質的新型生產資料正在逐漸引發(fā)著生物醫(yī)學的變革,新藥的研發(fā)邁入了一個全新的階段。近年來“大數(shù)據(jù)”概念受到越來越多的關注,而隨著生物科技的不斷進步,高通量測序技術得到快速發(fā)展,使得生命科學研究獲得了強大的數(shù)據(jù)產出能力,海量產出了包括基因組學、轉錄組學、蛋白質組學、代謝組學等各種生物學數(shù)據(jù)。這些數(shù)據(jù)具有“4V”特點:數(shù)據(jù)
2、量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價值(Value)、高速(Velocity)。如果能合理地收集,管理并利用好這樣的生物數(shù)據(jù),從中挖掘有用的生物信息,將對人類疾病的診療送來福音。為了提高新藥研發(fā)的效率,給疾病患者盡早帶來福音,作為新藥研發(fā)的首要步驟,利用機器學習的方法挖掘潛在藥物靶標已成為生物制藥領域的研究熱門。對此,本文完成了如下幾個方面的研究工作:
(1)基于蛋白質序列信息的潛在藥物靶標預測研究。盡管研
3、究者已經總結出了部分藥物靶標的特征,但是藥物靶標的完整特征仍在摸索階段。而藥靶蛋白質的序列信息只依賴于測序技術,相對于各種生物假設是獨立的。因此利用蛋白質的序列信息預測潛在的藥物靶標,能夠避免對于藥物靶標生物假設的片面性和盲目性。本文首先從細胞組件,分子功能以及生物過程三個方面,對載體、轉運以及酶三類藥靶蛋白質進行了對比分析,從而確保了三組已知藥物靶標蛋白質數(shù)據(jù)可以作為一個正面訓練集整體進行機器學習的可行性。進一步采用較為成熟的計算軟件
4、,基于蛋白質的序列信息提取了多種物化屬性作為特征集。接著設計了兩種策略從蛋白質樣本的測試集中提取分類器所需要的陰性數(shù)據(jù)集,并使用三種核函數(shù)對訓練數(shù)據(jù)進行學習,比較了三種支持向量機核方法的分類性能。第一種策略的特點是“不放過”測試集中的潛在的藥物靶標。第二種策略的特點是對于測試集中潛在的藥物靶標“不選錯”,兩種策略各有優(yōu)勢。本文結果表明在對藥靶蛋白質進行大批量篩選時,推薦使用第一種策略。而對藥靶蛋白質進行精選時,推薦使用第二種策略。最后分
5、析了預測的藥物靶標蛋白質中具有富集效應的通路,并在通路中標出了具有研究意義的靶點,這些靶點對于藥物開發(fā)具有一定的研究價值。
(2)基于經典貝葉斯分類方法提出了一種新的分類方法BFC(Bayesian Forest Classifier)。首先分析了基于貝葉斯分類方法的分類器的研究現(xiàn)狀,著重介紹了樸素貝葉斯分類器與貝葉斯網絡分類器的原理,并指出現(xiàn)有方法在處理有限樣本多維特征數(shù)據(jù)方面的不足。然后基于樸素貝葉斯的框架提出了一種新的多
6、樹結構的貝葉斯分類器BFC。BFC利用隱變量分類模型的策略建立協(xié)變量間相互依賴的關系。首先把協(xié)變量按照他們與分類變量之間的關系以及變量互相之間的關系分成四個大組。在協(xié)變量互相之間有關聯(lián)的組中,再采用樹狀模型又把這些互相關聯(lián)的協(xié)變量不斷劃分重組為子組塊,從而最終實現(xiàn)協(xié)變量的有效分類。利用細節(jié)平衡的MCMC采樣步驟時,這種樹組策略在仿真數(shù)據(jù)和實際應用中都能夠取得很好的效果。本文進一步從理論上證明了算法中所設計的MCMC采樣的細致平衡性。最后
7、通過三組仿真實驗以及15組真實基準數(shù)據(jù)測試了BFC的分類能力,并與11種常用的分類方法細致的比較研究。新的分類方法不僅可以用在藥物靶標的篩選、蛋白質調控關系的預測等方面,而且在機器學習與模式識別的各個領域都能有廣泛的應用。
(3)基于蛋白質序列信息以及蛋白質互作用網絡的拓撲特征的潛在藥物靶標挖掘研究。本文從三種視角對藥物靶標蛋白質的拓撲屬性進行了分析:藥靶蛋白質作為網絡的中介,藥靶蛋白質作為信號源以及藥靶蛋白質的群簇特征??偣?/p>
8、比較了網絡的節(jié)點度、介數(shù)、平均距離、偏心距、聚類系數(shù)、核數(shù)以及社區(qū)性等7個拓撲特征。發(fā)現(xiàn)藥靶蛋白質在6、9、12、18核的子網絡中具有較高的全局比,在偏心距為7、8、9的位置具有較高的概率密度,與藥靶蛋白質相互作用的蛋白質也都存在于較高連接度的群簇,對于這些特征的分析有助于從系統(tǒng)的角度進一步理解藥物靶標的作用機理。本文進一步利用網絡特征從測試蛋白質集合中提取陰性訓練集,比較了三種分類器(SVM、AdaboostBayes以及BFC)對訓
9、練數(shù)據(jù)的分類性能,從測試集中預測得到了102個潛在的藥物靶標。最后對預測得到的藥靶中富集顯著的通路進行了分析,并在通路中標出了具有進一步實驗價值的相關靶點。
(4)提出了一種針對信號通路中蛋白質間激活與抑制調控關系的預測方法。藥物與靶標蛋白質相結合,通過靶標蛋白質對其他蛋白質的相互作用對整個信號通路起到調節(jié)的作用。因此,對于信號網絡中蛋白質調控關系的研究有助于發(fā)現(xiàn)新的藥靶蛋白質。本文給出了信號通路研究的數(shù)據(jù)資源,并介紹了基因本
10、體以及蛋白質結構域兩組數(shù)據(jù)資源以及其特點。進而利用基于富集比值的打分方法以及超幾何分布的統(tǒng)計檢驗方法,提取了具有富集顯著的蛋白質結構以及基因本體互作用數(shù)據(jù)作為特征。使用BFC分類方法對信號通路中蛋白質調控關系進行了預測,并通過已知蛋白質調控關系的經典通路驗證了分類器的預測能力。最后開發(fā)了信號通路中蛋白質激活與抑制調控關系預測器的工作流程。實驗結果表明,基于富集比值的打分方法能夠有效地挖掘信號通路中蛋白質的激活與抑制調控關系。蛋白質調控關
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于機器學習方法的藥物不良反應預測.pdf
- 挖掘Internet深層信息的機器學習方法的研究.pdf
- 基于核函數(shù)的機器學習方法研究.pdf
- 基于機器學習方法的視頻標注研究.pdf
- 基于機器學習方法的藥物不良反應預測及分析.pdf
- 基于稀疏性的機器學習方法研究.pdf
- 核機器學習方法研究.pdf
- 基于機器學習方法的人臉識別研究.pdf
- 基于標記分布的機器學習方法研究.pdf
- 基于機器學習方法的視覺信息標注研究.pdf
- 基于機器學習方法的生物序列分類研究.pdf
- 基于機器學習方法的建筑能耗性能研究.pdf
- 基于機器學習的藥物研發(fā)方法研究.pdf
- 基于機器學習方法的網絡流量分類研究.pdf
- 基于機器學習方法的核素識別技術研究.pdf
- 基于語音反演機器學習方法的聲道模型研究.pdf
- 基于機器學習方法的基因和蛋白預測研究.pdf
- 基于機器學習方法的股票數(shù)據(jù)研究.pdf
- 基于機器學習方法的股票數(shù)據(jù)研究
- 基于機器學習方法的人臉表情識別研究.pdf
評論
0/150
提交評論