

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、當前互聯(lián)網(wǎng)已經成為人們獲取信息和進行事務活動的一個重要平臺。隨著互聯(lián)網(wǎng)上各種數(shù)據(jù)和應用資源的快速增長,搜索引擎成為人們從海量的網(wǎng)上資源中快速準確地獲取信息的必要工具。用戶通過提交查詢到搜索引擎表達他們的信息需求,搜索引擎則根據(jù)對查詢的分析提供給用戶需要的檢索結果,查詢是用戶和搜索引擎之間必要的信息傳遞方式。為了使搜索引擎能夠準確地理解查詢中表達的信息需求,則需要開展查詢自動分析處理技術的研究。
命名實體查詢是一類重要的查詢,在
2、搜索引擎查詢中占有很高的比例,并且具有一些自身特點,研究命名實體查詢的相關處理技術能夠使搜索引擎更好地分析用戶的檢索意圖,提供給用戶準確的檢索結果,改善用戶的檢索體驗。命名實體查詢處理技術通常包括獲取查詢中的語義片段,識別出查詢中包含的實體,分析命名實體查詢的檢索意圖等方面的研究。據(jù)此,本文從以下幾個方面開展了命名實體查詢處理的相關技術研究。
1、基于單語詞對齊模型的無指導查詢自動切分。查詢切分是一項基礎和必要的查詢處理工作,
3、是將查詢從字符序列切分出詞匯或短語等語義單元的過程。由于查詢中出現(xiàn)的詞匯規(guī)模巨大并且包含許多不規(guī)范的詞匯,有指導的方法需要人工標注大量的訓練語料,使其不能很好地適應查詢切分的任務。本文提出了一種基于單語詞對齊模型的無指導查詢切分方法。該方法僅利用查詢日志自動訓練查詢切分模型,并在模型中能夠結合字符的共現(xiàn)信息、位置信息以及繁殖度信息,獲得了較好的查詢切分效果。本文在查詢詞項切分的基礎上進一步對查詢進行了層次化切分,將查詢表示為切分片段的樹
4、狀結構,查詢層次化切分結果可以表示出查詢中哪些切分片段之間的關系更為緊密。實驗結果顯示與已有的切分方法相比,本文方法獲得了更好的查詢切分效果。
2、基于圖上隨機游走模型的查詢日志中命名實體挖掘。查詢日志是一個包含大量命名實體的數(shù)據(jù)資源。從查詢日志中挖掘出的命名實體,更加符合用戶構造查詢時使用命名實體的習慣,并且查詢日志會不斷更新,其中記錄了一些新出現(xiàn)的實體名稱,這使得研究查詢日志中命名實體挖掘對于搜索引擎處理命名實體查詢更具有
5、實際意義。本文中采用了一種弱指導的方法進行命名實體挖掘,其中利用了少量的屬于目標類別的命名實體名稱作為種子,使用從查詢日志中抽取出的候選命名實體、查詢中命名實體的上下文模板以及用戶點擊URL構造三分圖,采用圖上的隨機游走算法獲取目標類別的命名實體。實驗結果顯示,本文方法能夠有效結合查詢日志中的命名實體相關信息,提高查詢日志中獲取命名實體的準確率。
3、基于在線百科的命名實體同義屬性短語獲取。在命名實體的屬性短語中,描述實體同一
6、屬性的不同表達形式的短語,被稱為同義屬性短語。獲取實體的同義屬性短語對命名實體查詢的檢索意圖分析將有所幫助。在命名實體查詢中,用戶通常使用屬性短語構建查詢,表達對實體屬性值的需求意圖。本文從在線百科中獲取命名實體的屬性短語,并采用了分類的框架結合了多種特征去識別出其中的同義屬性短語。據(jù)我們了解,本文方法是首次提出利用在線百科獲取同義屬性短語的研究。實驗結果表明,在線百科是獲取實體同義屬性短語的有效資源,并且本文提出的方法能夠有效地獲取大
7、量的同義屬性短語。
4、命名實體查詢的檢索意圖識別。在本文中包括基于分類的查詢檢索意圖識別和更細粒度的基于查詢檢索模式的檢索意圖識別兩個部分。查詢意圖分類可以限制檢索結果的類別空間,提高檢索準確率。在查詢意圖分類中,采用融合多種資源信息的方法進行分類,其中根據(jù)對查詢文本,查詢日志以及互聯(lián)網(wǎng)檢索結果的分析,獲取了有效的查詢意圖分類特征。本文進一步在查詢意圖分類模型識別出的信息類和事務類命名實體查詢中,抽取用戶經常使用的查詢檢索模
8、式,并將具有相似檢索意圖的查詢檢索模式進行聚類。查詢檢索模式可以用來匹配用戶提交的查詢,幫助搜索引擎準確地分析查詢的檢索意圖。本文中采用了基于圖模型方法和基于相似度方法級聯(lián)地進行命名實體查詢的檢索模式獲取。實驗結果顯示本文方法在多個實體類別上均有效地獲取了查詢檢索模式。
綜上所述,本文開展了命名實體查詢處理一些關鍵技術的研究工作,其中有些查詢處理技術出于更廣泛適應性的考慮,其面向的對象不僅是命名實體查詢,也可以應用到其他查詢上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 搜索引擎相關技術研究.pdf
- 搜索引擎中索引技術研究與實現(xiàn).pdf
- 搜索引擎中查詢擴展的研究.pdf
- 網(wǎng)絡搜索引擎的相關技術研究.pdf
- 個性化智能搜索引擎中查詢擴展技術研究.pdf
- 搜索引擎中的查詢擴展方法研究.pdf
- 搜索引擎檢索技術研究.pdf
- 垂直搜索引擎主要技術研究.pdf
- 搜索引擎日志挖掘技術研究.pdf
- 搜索引擎中的信息抽取技術研究.pdf
- 搜索引擎中的索引壓縮和查詢問題研究.pdf
- 搜索引擎分類展示技術研究.pdf
- 民航主題搜索引擎的索引技術研究.pdf
- 搜索引擎理論與技術研究.pdf
- 搜索引擎中文分詞技術研究.pdf
- 搜索引擎系統(tǒng)中Web挖掘技術研究.pdf
- XML搜索引擎中索引技術的研究.pdf
- 垂直搜索引擎關鍵技術研究
- 傳統(tǒng)搜索引擎與智能搜索引擎比較研究.pdf
- 主題搜索引擎信息抽取技術研究.pdf
評論
0/150
提交評論