云環(huán)境下基于數(shù)據(jù)冷熱預(yù)判模型的關(guān)鍵詞主題分類搜索研究.pdf_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、當今隨著信息技術(shù)的日新月異,快速發(fā)展,人們對信息的渴望也是與日俱增。面對雜亂的海量數(shù)據(jù),如何能從中快速得到用戶想要的信息,是當前亟待解決的問題。所以對海量數(shù)據(jù)進行有效的分類及搜索就成為了研究的熱點。隨著科學技術(shù)的不斷發(fā)展,近年來已經(jīng)產(chǎn)生了一種新的計算模式:云計算。云計算因其具有超大規(guī)模,可虛擬化,良好的通用性,高擴展性,相對廉價等特性,越來越多的數(shù)據(jù)及應(yīng)用服務(wù)都開始運用這個平臺。
  對云計算系統(tǒng)內(nèi)的數(shù)據(jù)可以利用平臺本身的優(yōu)勢,令

2、其相較于傳統(tǒng)的數(shù)據(jù)管理模式在各個方面都有很大程度上的提高。所以人們把搜索技術(shù)也逐漸轉(zhuǎn)移到分布式的新型平臺上進行構(gòu)建,逐漸取代以往較為集中的方式。
  本文的主要研究工作:
  (1)首先,針對目前雜亂網(wǎng)頁信息不能準確快速找到與搜索主題盡量相關(guān)數(shù)據(jù)的問題,本文依托于改進的網(wǎng)頁排序算法(即基于經(jīng)典的PageRank算法的優(yōu)化),以期望能夠獲得與搜索主題較為相近的數(shù)據(jù)信息。
 ?。?)接著,對于得到的大量網(wǎng)頁信息,通過預(yù)處理

3、轉(zhuǎn)化為較為簡單的文本格式。針對目前數(shù)據(jù)分類存儲中未考慮數(shù)據(jù)冷熱直接統(tǒng)一存儲的情況,本文中構(gòu)建一個數(shù)據(jù)冷熱預(yù)判模型將這些數(shù)據(jù)分為冷熱兩大類分開存儲。在冷熱分類的基礎(chǔ)上再進行基于主題類別的分類,以便于之后對這些數(shù)據(jù)進行索引的構(gòu)建。
 ?。?)為了完成基于主題類別分類,針對TF-IDF算法在某個特定應(yīng)用場景下不具備很好的主題關(guān)鍵詞提取功能,本文通過改進的TF-IDF關(guān)鍵詞提取算法進行主題關(guān)鍵詞的提取。特別的,實際生活中常出現(xiàn)一些臨時突發(fā)

4、的信息,但這些信息往往不能簡單的通過改進TF-IDF主題關(guān)鍵詞提取算法進行提取。針對該算法考慮不充分的情況,本文提出了一種適用于臨時突發(fā)信息數(shù)據(jù)的主題關(guān)鍵詞提取算法。
 ?。?)最后,為了進一步提高搜索性能,針對以往數(shù)據(jù)量非常大傳統(tǒng)索引構(gòu)建相對耗時的情況,本文在原有索引技術(shù)上進行分布式的改進,通過Hadoop平臺實現(xiàn)索引的并行化。利用節(jié)點分配存儲的原理先將數(shù)據(jù)根據(jù)不同的冷熱類別進行分開存儲,然后基于冷熱分區(qū)存儲再將兩分區(qū)內(nèi)具有類似

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論