

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、文本挖掘是一個非?;钴S的研究領域,是數據挖掘領域的一個重要分支。文本挖掘采用了很多傳統(tǒng)的數據挖掘技術,但又有自己的特性。本文試圖采用支持向量機,流形學習與圖論等理論,以網絡文本為研究對象,全面開展文本分類、聚類、壓縮、可視化及排序等方面的算法研究。全文的主要工作包括以下幾個方面:
1)在定理證明的基礎上,提出一種連分式Mercer核,它可以方便地應用于支持向量分類機和其它支持向量機算法。在5個UCI數據庫實驗中取得了比傳統(tǒng)
2、核支持向量機更好的綜合水平,而且它還可以方便地被用于合成復雜核,將此連分式核的支持向量機應用到網絡文本分類中,提高了網絡文本分類正確率。
2)提出了兩個判別性的特征提取方法– 判別性PCA和判別性KPCA?;赑CA和MMC理論,構造了一個多目標規(guī)劃模型作為特征提取的目標。隨后,該模型被轉化成一個單目標規(guī)劃問題并通過特征分解的方法求解。此外,將一個近似分塊對角核矩陣K分成c個小矩陣并求出它們的特征值和特征向量,在此基礎上,
3、通過張量代數處理得到一種映射矩陣V,核矩陣投影到V上后能最大程度上保持同類樣本間的相似信息,同時還能讓類間距離變得更大。
3)提出了一種新的基于支持向量回歸的偏好學習算法。它克服了偏好學習不一致問題并改善了排序的泛化能力。同時,WMW統(tǒng)計量被引入以評價算法的排序表現。在一個人工數據集和幾個基準數據集上的實驗顯示了方法的有效性。最后,該方法還被應用到網絡搜索系統(tǒng)的排序問題中,獲得了較高的排序準確率。
4)共享最
4、近鄰(SNN)相似度是一種新的相似性度量,它能克服樣本間相似性低和類密度差異大的問題。目前,基于SNN相似度的聚類算法有JP聚類和基于SNN密度聚類兩種。它們的聚類結果完全依賴于單鏈的強度,因而算法非常脆弱。引入計算幾何學中的光滑拼接思想,設計了一種新的基于SNN相似度的光滑拼接聚類算法。它內含強度-光滑度互補機制,相比已有的兩種算法,該算法的泛化能力較高。在公開的文本數據集上做比較實驗,結果顯示,該算法在多個類別上取得了最高的聚類準確
5、率和召回率。
5)針對互聯網開放性、層次性、演化性、巨量性等本質特性,從復雜自適應系統(tǒng)這一全新的角度,以農業(yè)垂直搜索為應用背景,提出一種新的復雜自適應搜索模型。該搜索模型的主要特點是通過建立信息采集、分類、清洗與服務智能體聯盟,組成多智能體實驗環(huán)境;通過建立模型的學習機制與進化機制,改善搜索模型對網絡環(huán)境的動態(tài)適應能力。經過與現有主流搜索引擎的比較實驗發(fā)現,它在查準率方面具有明顯的優(yōu)勢。同時,由于該搜索模型具備通用的結構體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本挖掘中若干關鍵問題的研究.pdf
- 電子病歷文本挖掘關鍵算法研究.pdf
- 數據挖掘中若干關鍵算法的研究.pdf
- 中醫(yī)醫(yī)案文本挖掘的若干關鍵技術研究.pdf
- 文本語義分析與挖掘的若干關鍵問題研究.pdf
- 文本挖掘關鍵詞提取算法的研究.pdf
- 樹挖掘若干算法研究.pdf
- 基于云計算的文本挖掘算法研究.pdf
- WEB文本挖掘中關鍵問題的研究.pdf
- 文本數據聚類算法的若干關鍵技術及應用研究.pdf
- 時態(tài)文本挖掘的關聯規(guī)則算法研究.pdf
- 知識管理和文本挖掘的若干問題研究.pdf
- Web訪問信息挖掘若干關鍵技術的研究.pdf
- 意見挖掘中若干關鍵問題研究.pdf
- 文本挖掘關鍵技術研究及實現.pdf
- Web使用挖掘若干關鍵問題研究.pdf
- 基于Web文本挖掘的聚類算法研究.pdf
- 面向Web文本的產品意見挖掘算法研究.pdf
- 復雜網絡動態(tài)模式挖掘若干算法研究.pdf
- 文本挖掘關鍵技術的研究及模擬實現.pdf
評論
0/150
提交評論