基于種子概念及改進的凝聚層次聚類算法的水環(huán)境本體構建研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在我國水利信息化的過程中,存在著水利信息化缺乏統(tǒng)一標準,信息表達各異,信息共享不充分,信息系統(tǒng)之間的交流融合性差等問題。這些問題嚴重制約阻礙了我國水利信息化建設。然而,水環(huán)境本體是一個包含水環(huán)境術語、定義以及術語間規(guī)范關系說明的體系,是水環(huán)境學科領域內概念、概念與概念間的相互關系的形式化表達,能夠提高水利信息化進程中數據發(fā)現(xiàn)、數據同化、資源共享和數據應用的效率。針對水環(huán)境本體構建問題,本文運用了語言學、統(tǒng)計學、向量空間模型及聚類算法等原

2、理,使用了一種基于種子概念及改進的凝聚層次聚類算法的水環(huán)境本體構建方法。
  提取全面完整的領域概念是水環(huán)境本體構建的基礎。針對如何從大規(guī)模語料集中提取水環(huán)境領域概念的問題,在數據源預處理階段引入了水環(huán)境領域詞典,提高了文本分詞精度。同時,考慮到概念提取的完整性及正確率,提出了將種子概念法及 TF·IDF法相結合的概念提取方法。先利用種子概念法從候選術語集中提取概念,之后利用TF·IDF法從剩余的候選術語集中提取概念。最后,實驗一

3、共從300篇水環(huán)境領域文本集中提取了581個概念,包含447個正確的水環(huán)境概念,證明了種子概念法比TF·IDF法具有更高的正確率,但是TF·IDF法作為種子概念法的補充能夠幫助提取更多的水環(huán)境領域概念。
  提取準確可靠的概念關系是水環(huán)境本體構建的關鍵。為方便計算概念相似度,利用概念的TF·IDF值建立了表達概念與文本之間關系的向量空間模型,并利用改進的凝聚層次聚類算法提取概念間的上下位關系。該算法先利用 K-means聚類算法將

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論