

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、深網(wǎng)搜索引擎的主要功能和關(guān)鍵技術(shù)研究深網(wǎng)搜索引擎的主要功能和關(guān)鍵技術(shù)研究摘要:摘要:深網(wǎng)又可稱(chēng)為DeepWeb。在此基礎(chǔ)上發(fā)展起來(lái)的深網(wǎng)搜索引擎逐漸成為互聯(lián)網(wǎng)應(yīng)用的一大趨勢(shì),特別是針對(duì)學(xué)術(shù)研究者有重要意義。本文首先簡(jiǎn)單介紹了深網(wǎng)搜索引擎的研究背景和意義,然后從主要功能方面進(jìn)一步加深對(duì)深網(wǎng)的了解,然后詳細(xì)介紹了深網(wǎng)搜索引擎的關(guān)鍵技術(shù),最后得出結(jié)論。關(guān)鍵詞:關(guān)鍵詞:DeepWeb,搜索引擎,接口識(shí)別,數(shù)據(jù)庫(kù)分類(lèi),數(shù)據(jù)庫(kù)選擇,查詢接口集成,查
2、詢結(jié)果抽取1研究背景和意義研究背景和意義用戶在互聯(lián)網(wǎng)上查詢信息時(shí)經(jīng)常遇到的問(wèn)題是重復(fù)信息太多、信息太陳舊更新緩慢、得到的有用信息太少、信息查找不方便。所以如何滿足網(wǎng)民的搜索要求是當(dāng)前搜索引擎研究的重點(diǎn)之一,由此出現(xiàn)了幾種搜索引擎創(chuàng)新技術(shù),如語(yǔ)義搜索、知識(shí)圖譜、深網(wǎng)搜索。對(duì)于互聯(lián)網(wǎng)上可獲得的但傳統(tǒng)的搜索引擎由于技術(shù)限制不能搜尋到或者經(jīng)過(guò)慎重考慮后不愿意作索引的那些文本網(wǎng)頁(yè)、文件或其他高質(zhì)量、權(quán)威的信息,中文又有“隱形網(wǎng)絡(luò)”、“看不見(jiàn)的網(wǎng)絡(luò)
3、”、“深網(wǎng)”、“暗資源”等說(shuō)法。1994年,美國(guó)學(xué)者Dr.JillEllswth首先使用“看不見(jiàn)的網(wǎng)絡(luò)”InvisibleWeb概念,但沒(méi)有引起重視。直到2000年以后,隨著Web數(shù)據(jù)庫(kù)的廣泛應(yīng)用,才有相關(guān)的研究論文及成果發(fā)表,并迅速引發(fā)了熱烈的討論和研究。深層網(wǎng)的研究目前主要分為兩個(gè)方向:1)深層網(wǎng)的規(guī)模、分布和結(jié)構(gòu)的調(diào)查和研究。美國(guó)BrightPla公司,專(zhuān)門(mén)從事數(shù)據(jù)整合和企業(yè)信息分析,該公司開(kāi)發(fā)了深網(wǎng)檢索平臺(tái)工具DQM(DeepQ
4、ueryManager)。在2000年7月,BrightPla公司對(duì)深網(wǎng)的規(guī)模和相關(guān)性進(jìn)行了研究,并將其調(diào)查白皮書(shū)發(fā)布在互聯(lián)網(wǎng)站點(diǎn)上。UIUC大學(xué)在2004年對(duì)深網(wǎng)做了一次較為準(zhǔn)確的估算。2)深層網(wǎng)搜索引擎系統(tǒng)關(guān)鍵技術(shù)的研究。目前主要的關(guān)鍵技術(shù)有DeepWeb接口識(shí)別方法、信息提取算法、數(shù)據(jù)庫(kù)選擇算法、DeepWeb集成查詢接口生成方法。深網(wǎng)資源內(nèi)容豐富,專(zhuān)業(yè)性較強(qiáng),質(zhì)量高。因此了解深網(wǎng)主要功能并研究其關(guān)鍵技術(shù),從而采集互聯(lián)網(wǎng)上巨大的信
5、息資源,為人們提供方便的信息獲取方法,具有比較重要的意義。2深網(wǎng)搜索引擎的主要功能深網(wǎng)搜索引擎的主要功能搜索引擎的英文為searchengine。搜索引擎是一個(gè)對(duì)互聯(lián)網(wǎng)信息資源進(jìn)行搜索整理和分類(lèi),并儲(chǔ)存在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中供用戶查詢的系統(tǒng),包括信息搜集、信息分類(lèi)、用戶查詢?nèi)糠帧I罹W(wǎng)搜索引擎也是搜索引擎的一種,但是其從DeepWeb數(shù)據(jù)庫(kù)中獲得數(shù)據(jù)的過(guò)程與普通搜索引擎有所不同,如下圖,DeepWeb是通過(guò)填寫(xiě)表單,并提交到后臺(tái)服務(wù)器查詢數(shù)據(jù)庫(kù)
6、后,以動(dòng)態(tài)頁(yè)面的形式返回信息。在Deepweb數(shù)據(jù)集成領(lǐng)域存在著許多的研究問(wèn)題,已有的工作主要集中這些問(wèn)題上:web數(shù)據(jù)庫(kù)的發(fā)現(xiàn)、查詢接口模式的抽取、web數(shù)據(jù)庫(kù)的分類(lèi)、查詢接口的集成、查詢的轉(zhuǎn)換、查詢結(jié)果的抽取、查詢結(jié)果的注釋等有些問(wèn)題已經(jīng)得到了較多的研究,而有些問(wèn)題還處在研究的初步階段甚至還沒(méi)有相關(guān)的報(bào)道。為了給出一個(gè)全面的認(rèn)識(shí),我們提出了Deepweb數(shù)據(jù)集成框架,該框架共分為三個(gè)主要的模塊,如下圖,(2)Web數(shù)據(jù)庫(kù)的分類(lèi)。在查
7、詢接口上提交查詢是獲取web數(shù)據(jù)庫(kù)信息的主要途徑,對(duì)web數(shù)據(jù)庫(kù)的分類(lèi)實(shí)質(zhì)上是對(duì)查詢接口的分類(lèi)。分類(lèi)方法共分為兩類(lèi):指導(dǎo)方式和非指導(dǎo)方式。針對(duì)應(yīng)用意義最廣泛的電子商務(wù)的web數(shù)據(jù)庫(kù)提出了一種有效的分類(lèi)方法。這種方法是一種非指導(dǎo)的方式,主要利用了電子商務(wù)的web數(shù)據(jù)庫(kù)的查詢接口所在頁(yè)面上的可用特征信息,包括接口中出現(xiàn)的頻繁詞和商品的價(jià)格特征。還有一種指導(dǎo)方式的分類(lèi)方法,根據(jù)統(tǒng)計(jì)特性認(rèn)為查詢接口的模式信息可以作為對(duì)web數(shù)據(jù)庫(kù)分類(lèi)的依據(jù)。基
8、于這樣的統(tǒng)計(jì)結(jié)論,他們提出通過(guò)建立概率模型來(lái)表示所有可能出現(xiàn)的屬性在每個(gè)領(lǐng)域中出現(xiàn)的可能性。對(duì)于一個(gè)給定的查詢接口,考察其屬性集合,在這個(gè)模型上計(jì)算出這個(gè)查詢接口與每個(gè)領(lǐng)域的相似性。前面兩種方法都是基于查詢接口的特征信息實(shí)現(xiàn)對(duì)web數(shù)據(jù)庫(kù)的分類(lèi),另外還提出了兩種利用提交樣本查詢來(lái)實(shí)現(xiàn)分類(lèi)的方法。從返回查詢結(jié)果數(shù)量來(lái)分析一個(gè)web數(shù)據(jù)庫(kù)屬于哪個(gè)領(lǐng)域;從分析返回文本的內(nèi)容來(lái)確定一個(gè)web數(shù)據(jù)庫(kù)的領(lǐng)域。這兩個(gè)工作針對(duì)的不是結(jié)構(gòu)化信息,而是文本
9、信息,但其通過(guò)查詢進(jìn)行分類(lèi)的思想可以為web數(shù)據(jù)庫(kù)的分類(lèi)所借鑒。(3)查詢接口的集成。對(duì)查詢接口自動(dòng)集成的實(shí)現(xiàn)方式上可分為兩大類(lèi):一類(lèi)屬于局部方式,是基于給定的要進(jìn)行集成的查詢接口集合,分析屬性的隱藏信息,特別是語(yǔ)義信息,在它們之間作屬性的匹配,得到一個(gè)新的全局接口;另一類(lèi)屬于整體方式,是基于某個(gè)確定的領(lǐng)域通過(guò)對(duì)這個(gè)領(lǐng)域范圍內(nèi)大量接口的處理,發(fā)現(xiàn)這個(gè)領(lǐng)域上一般的查詢接口,如利用統(tǒng)計(jì)模式匹配的方案。3.2查詢處理查詢處理當(dāng)用戶在集成查詢接
10、口上填寫(xiě)并提交查詢時(shí),要同時(shí)從多個(gè)web數(shù)據(jù)庫(kù)中獲取符合該查詢的結(jié)果,并把這些異構(gòu)的數(shù)據(jù)以統(tǒng)一的模式存儲(chǔ)或展現(xiàn),這就是對(duì)Deepweb數(shù)據(jù)查詢的處理。Web數(shù)據(jù)庫(kù)的選擇。一種基于直方圖的Top—N的選擇方法。該方法分為兩步:第一步是判斷數(shù)據(jù)庫(kù)與特定查詢之間的相關(guān)性;第二步是確定最適合提交查詢的數(shù)據(jù)庫(kù)和從返回的結(jié)果中選擇最合適的記錄。算法實(shí)驗(yàn)表明,這種計(jì)算Top—N查詢的方法是非常有效的。還有一種是基于動(dòng)態(tài)學(xué)習(xí)的Web數(shù)據(jù)庫(kù)選擇算法。其算
11、法流程如下圖,3.3查詢結(jié)果的處理查詢結(jié)果的處理查詢結(jié)果的處理是為了把從各個(gè)web數(shù)據(jù)庫(kù)返回的表現(xiàn)形式不同的結(jié)果在一個(gè)統(tǒng)一的模式下展現(xiàn)給用戶。目前主要的工作集中在如何從查詢結(jié)果頁(yè)面抽取出結(jié)構(gòu)化的查詢結(jié)果。查詢結(jié)果的抽取。1)頁(yè)面抽取語(yǔ)言。它是指特定設(shè)計(jì)的語(yǔ)言,幫助使用者實(shí)現(xiàn)抽取過(guò)程。抽取是用手工的方法編寫(xiě)程序來(lái)實(shí)現(xiàn)的。抽取過(guò)程是基于過(guò)程化的程序,但是抽取結(jié)果依賴于文檔的結(jié)構(gòu)。2)基于DoM樹(shù)的工具。其依賴于Html頁(yè)面的內(nèi)在的結(jié)構(gòu)特征。
12、在抽取之前將頁(yè)面轉(zhuǎn)化成DOM樹(shù),以反映頁(yè)面標(biāo)簽的層次結(jié)構(gòu),然后自動(dòng)或半自動(dòng)地抽取規(guī)則在此樹(shù)上應(yīng)用。3)抽取規(guī)則推導(dǎo)工具。其是從給定的訓(xùn)練樣本中產(chǎn)生基于分隔符的抽取規(guī)則,更適合Html文檔,但需要大量的樣本頁(yè)面。4)基于模式的工具。為感興趣的對(duì)象給定一個(gè)目標(biāo)結(jié)構(gòu)盡量使頁(yè)面上的數(shù)據(jù)部分符合這個(gè)結(jié)構(gòu),通過(guò)圖形界面與用戶交互,由用戶指出頁(yè)面上感興趣的區(qū)域。由于需要和用戶交互,從自動(dòng)化程度上來(lái)講屬于半自動(dòng)抽取工具。4結(jié)論與展望結(jié)論與展望本文對(duì)最近
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
評(píng)論
0/150
提交評(píng)論