深網(wǎng)搜索引擎

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-08 格式：doc 頁(yè)數(shù)：3 大?。?26.50KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩2頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、深網(wǎng)搜索引擎的主要功能和關(guān)鍵技術(shù)研究深網(wǎng)搜索引擎的主要功能和關(guān)鍵技術(shù)研究摘要：摘要：深網(wǎng)又可稱(chēng)為DeepWeb。在此基礎(chǔ)上發(fā)展起來(lái)的深網(wǎng)搜索引擎逐漸成為互聯(lián)網(wǎng)應(yīng)用的一大趨勢(shì)，特別是針對(duì)學(xué)術(shù)研究者有重要意義。本文首先簡(jiǎn)單介紹了深網(wǎng)搜索引擎的研究背景和意義，然后從主要功能方面進(jìn)一步加深對(duì)深網(wǎng)的了解，然后詳細(xì)介紹了深網(wǎng)搜索引擎的關(guān)鍵技術(shù)，最后得出結(jié)論。關(guān)鍵詞：關(guān)鍵詞：DeepWeb，搜索引擎，接口識(shí)別，數(shù)據(jù)庫(kù)分類(lèi)，數(shù)據(jù)庫(kù)選擇，查詢接口集成，查

2、詢結(jié)果抽取1研究背景和意義研究背景和意義用戶在互聯(lián)網(wǎng)上查詢信息時(shí)經(jīng)常遇到的問(wèn)題是重復(fù)信息太多、信息太陳舊更新緩慢、得到的有用信息太少、信息查找不方便。所以如何滿足網(wǎng)民的搜索要求是當(dāng)前搜索引擎研究的重點(diǎn)之一，由此出現(xiàn)了幾種搜索引擎創(chuàng)新技術(shù)，如語(yǔ)義搜索、知識(shí)圖譜、深網(wǎng)搜索。對(duì)于互聯(lián)網(wǎng)上可獲得的但傳統(tǒng)的搜索引擎由于技術(shù)限制不能搜尋到或者經(jīng)過(guò)慎重考慮后不愿意作索引的那些文本網(wǎng)頁(yè)、文件或其他高質(zhì)量、權(quán)威的信息，中文又有“隱形網(wǎng)絡(luò)”、“看不見(jiàn)的網(wǎng)絡(luò)

3、”、“深網(wǎng)”、“暗資源”等說(shuō)法。1994年，美國(guó)學(xué)者Dr.JillEllswth首先使用“看不見(jiàn)的網(wǎng)絡(luò)”InvisibleWeb概念，但沒(méi)有引起重視。直到2000年以后，隨著Web數(shù)據(jù)庫(kù)的廣泛應(yīng)用，才有相關(guān)的研究論文及成果發(fā)表，并迅速引發(fā)了熱烈的討論和研究。深層網(wǎng)的研究目前主要分為兩個(gè)方向：1）深層網(wǎng)的規(guī)模、分布和結(jié)構(gòu)的調(diào)查和研究。美國(guó)BrightPla公司，專(zhuān)門(mén)從事數(shù)據(jù)整合和企業(yè)信息分析，該公司開(kāi)發(fā)了深網(wǎng)檢索平臺(tái)工具DQM(DeepQ

4、ueryManager)。在2000年7月，BrightPla公司對(duì)深網(wǎng)的規(guī)模和相關(guān)性進(jìn)行了研究，并將其調(diào)查白皮書(shū)發(fā)布在互聯(lián)網(wǎng)站點(diǎn)上。UIUC大學(xué)在2004年對(duì)深網(wǎng)做了一次較為準(zhǔn)確的估算。2）深層網(wǎng)搜索引擎系統(tǒng)關(guān)鍵技術(shù)的研究。目前主要的關(guān)鍵技術(shù)有DeepWeb接口識(shí)別方法、信息提取算法、數(shù)據(jù)庫(kù)選擇算法、DeepWeb集成查詢接口生成方法。深網(wǎng)資源內(nèi)容豐富，專(zhuān)業(yè)性較強(qiáng)，質(zhì)量高。因此了解深網(wǎng)主要功能并研究其關(guān)鍵技術(shù)，從而采集互聯(lián)網(wǎng)上巨大的信

5、息資源，為人們提供方便的信息獲取方法，具有比較重要的意義。2深網(wǎng)搜索引擎的主要功能深網(wǎng)搜索引擎的主要功能搜索引擎的英文為searchengine。搜索引擎是一個(gè)對(duì)互聯(lián)網(wǎng)信息資源進(jìn)行搜索整理和分類(lèi)，并儲(chǔ)存在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中供用戶查詢的系統(tǒng)，包括信息搜集、信息分類(lèi)、用戶查詢?nèi)糠帧Ｉ罹W(wǎng)搜索引擎也是搜索引擎的一種，但是其從DeepWeb數(shù)據(jù)庫(kù)中獲得數(shù)據(jù)的過(guò)程與普通搜索引擎有所不同，如下圖，DeepWeb是通過(guò)填寫(xiě)表單，并提交到后臺(tái)服務(wù)器查詢數(shù)據(jù)庫(kù)

6、后，以動(dòng)態(tài)頁(yè)面的形式返回信息。在Deepweb數(shù)據(jù)集成領(lǐng)域存在著許多的研究問(wèn)題，已有的工作主要集中這些問(wèn)題上：web數(shù)據(jù)庫(kù)的發(fā)現(xiàn)、查詢接口模式的抽取、web數(shù)據(jù)庫(kù)的分類(lèi)、查詢接口的集成、查詢的轉(zhuǎn)換、查詢結(jié)果的抽取、查詢結(jié)果的注釋等有些問(wèn)題已經(jīng)得到了較多的研究，而有些問(wèn)題還處在研究的初步階段甚至還沒(méi)有相關(guān)的報(bào)道。為了給出一個(gè)全面的認(rèn)識(shí)，我們提出了Deepweb數(shù)據(jù)集成框架，該框架共分為三個(gè)主要的模塊，如下圖，（2）Web數(shù)據(jù)庫(kù)的分類(lèi)。在查

7、詢接口上提交查詢是獲取web數(shù)據(jù)庫(kù)信息的主要途徑，對(duì)web數(shù)據(jù)庫(kù)的分類(lèi)實(shí)質(zhì)上是對(duì)查詢接口的分類(lèi)。分類(lèi)方法共分為兩類(lèi)：指導(dǎo)方式和非指導(dǎo)方式。針對(duì)應(yīng)用意義最廣泛的電子商務(wù)的web數(shù)據(jù)庫(kù)提出了一種有效的分類(lèi)方法。這種方法是一種非指導(dǎo)的方式，主要利用了電子商務(wù)的web數(shù)據(jù)庫(kù)的查詢接口所在頁(yè)面上的可用特征信息，包括接口中出現(xiàn)的頻繁詞和商品的價(jià)格特征。還有一種指導(dǎo)方式的分類(lèi)方法，根據(jù)統(tǒng)計(jì)特性認(rèn)為查詢接口的模式信息可以作為對(duì)web數(shù)據(jù)庫(kù)分類(lèi)的依據(jù)。基

8、于這樣的統(tǒng)計(jì)結(jié)論，他們提出通過(guò)建立概率模型來(lái)表示所有可能出現(xiàn)的屬性在每個(gè)領(lǐng)域中出現(xiàn)的可能性。對(duì)于一個(gè)給定的查詢接口，考察其屬性集合，在這個(gè)模型上計(jì)算出這個(gè)查詢接口與每個(gè)領(lǐng)域的相似性。前面兩種方法都是基于查詢接口的特征信息實(shí)現(xiàn)對(duì)web數(shù)據(jù)庫(kù)的分類(lèi)，另外還提出了兩種利用提交樣本查詢來(lái)實(shí)現(xiàn)分類(lèi)的方法。從返回查詢結(jié)果數(shù)量來(lái)分析一個(gè)web數(shù)據(jù)庫(kù)屬于哪個(gè)領(lǐng)域；從分析返回文本的內(nèi)容來(lái)確定一個(gè)web數(shù)據(jù)庫(kù)的領(lǐng)域。這兩個(gè)工作針對(duì)的不是結(jié)構(gòu)化信息，而是文本

9、信息，但其通過(guò)查詢進(jìn)行分類(lèi)的思想可以為web數(shù)據(jù)庫(kù)的分類(lèi)所借鑒。（3）查詢接口的集成。對(duì)查詢接口自動(dòng)集成的實(shí)現(xiàn)方式上可分為兩大類(lèi)：一類(lèi)屬于局部方式，是基于給定的要進(jìn)行集成的查詢接口集合，分析屬性的隱藏信息，特別是語(yǔ)義信息，在它們之間作屬性的匹配，得到一個(gè)新的全局接口；另一類(lèi)屬于整體方式，是基于某個(gè)確定的領(lǐng)域通過(guò)對(duì)這個(gè)領(lǐng)域范圍內(nèi)大量接口的處理，發(fā)現(xiàn)這個(gè)領(lǐng)域上一般的查詢接口，如利用統(tǒng)計(jì)模式匹配的方案。3.2查詢處理查詢處理當(dāng)用戶在集成查詢接

10、口上填寫(xiě)并提交查詢時(shí)，要同時(shí)從多個(gè)web數(shù)據(jù)庫(kù)中獲取符合該查詢的結(jié)果，并把這些異構(gòu)的數(shù)據(jù)以統(tǒng)一的模式存儲(chǔ)或展現(xiàn)，這就是對(duì)Deepweb數(shù)據(jù)查詢的處理。Web數(shù)據(jù)庫(kù)的選擇。一種基于直方圖的Top—N的選擇方法。該方法分為兩步：第一步是判斷數(shù)據(jù)庫(kù)與特定查詢之間的相關(guān)性；第二步是確定最適合提交查詢的數(shù)據(jù)庫(kù)和從返回的結(jié)果中選擇最合適的記錄。算法實(shí)驗(yàn)表明，這種計(jì)算Top—N查詢的方法是非常有效的。還有一種是基于動(dòng)態(tài)學(xué)習(xí)的Web數(shù)據(jù)庫(kù)選擇算法。其算

11、法流程如下圖，3.3查詢結(jié)果的處理查詢結(jié)果的處理查詢結(jié)果的處理是為了把從各個(gè)web數(shù)據(jù)庫(kù)返回的表現(xiàn)形式不同的結(jié)果在一個(gè)統(tǒng)一的模式下展現(xiàn)給用戶。目前主要的工作集中在如何從查詢結(jié)果頁(yè)面抽取出結(jié)構(gòu)化的查詢結(jié)果。查詢結(jié)果的抽取。1）頁(yè)面抽取語(yǔ)言。它是指特定設(shè)計(jì)的語(yǔ)言，幫助使用者實(shí)現(xiàn)抽取過(guò)程。抽取是用手工的方法編寫(xiě)程序來(lái)實(shí)現(xiàn)的。抽取過(guò)程是基于過(guò)程化的程序，但是抽取結(jié)果依賴于文檔的結(jié)構(gòu)。2）基于DoM樹(shù)的工具。其依賴于Html頁(yè)面的內(nèi)在的結(jié)構(gòu)特征。

12、在抽取之前將頁(yè)面轉(zhuǎn)化成DOM樹(shù)，以反映頁(yè)面標(biāo)簽的層次結(jié)構(gòu)，然后自動(dòng)或半自動(dòng)地抽取規(guī)則在此樹(shù)上應(yīng)用。3）抽取規(guī)則推導(dǎo)工具。其是從給定的訓(xùn)練樣本中產(chǎn)生基于分隔符的抽取規(guī)則，更適合Html文檔，但需要大量的樣本頁(yè)面。4）基于模式的工具。為感興趣的對(duì)象給定一個(gè)目標(biāo)結(jié)構(gòu)盡量使頁(yè)面上的數(shù)據(jù)部分符合這個(gè)結(jié)構(gòu)，通過(guò)圖形界面與用戶交互，由用戶指出頁(yè)面上感興趣的區(qū)域。由于需要和用戶交互，從自動(dòng)化程度上來(lái)講屬于半自動(dòng)抽取工具。4結(jié)論與展望結(jié)論與展望本文對(duì)最近

眾賞文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論

 聯(lián)系客服

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知眾賞文庫(kù)，我們立即給予刪除！

備案號(hào): 經(jīng)營(yíng)許可證編號(hào):浙ICP備20018660號(hào)

/ 3

  0
 分享

復(fù)制分享文檔地址

http://www.9p6.com.cn/shtml/view-5580102.html

復(fù)制

下載本文檔

感谢您访问我们的网站，您可能还对以下资源感兴趣：

色网亚洲免费在线

怡红院成永久免费人全部视频国产在线不卡精品网站亚洲av综合aⅴ国产av中文中文字幕日韩一级无码视频

深網(wǎng)搜索引擎

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載