職位搜索引擎的研究與設計.pdf_第1頁
已閱讀1頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網的不斷發(fā)展壯大,Internet已經成為世界上最大的信息資源庫。同時,面對紛繁冗雜的網絡資源,如何從中準確、快速、全面的獲取人們所需要的信息已經成為一大難題。搜索引擎的出現就是為了幫助人們解決這一難題的。目前,大多數基于互聯(lián)網的搜索引擎(如:雅虎、百度、谷歌google)是以一種水平的搜索方式向人們提供服務的。也就是說它們是不分種類地把信息提供給人們,各種不同行業(yè)的信息不會被區(qū)別對待。人們稱這種搜索引擎為“水平搜索引擎”。雖然

2、這種“水平搜索引擎”可以提供給人們大量的信息,但是它們在特定領域內的查準率較低。盡管它們能給用戶返回數量可觀的查詢結果,但實際上,其中與被搜索領域相關的結果卻不夠多,返回的內容也可能是很久之前的過時信息?!八剿阉饕妗钡膬r值在于可以通過聚類、分類等各種操作對海量數據進行分析,為人們進行信息“導航”,但是它們卻很難理解使用者的搜索意圖。 正如上文所言,“水平搜索引擎”無法準確、及時、全面的為人們提供特定領域的信息。針對于這一點“

3、垂直搜索引擎”應運而生。所謂“垂直搜索引擎”就是指專們?yōu)槟骋惶囟I域、某一特定人群又或是某一特定需求提供信息和相關服務的搜索引擎,它的設計應該符合所專注的行業(yè)的特點。目前,國內的職位搜索引擎才剛剛起步,在搜索速度等方面都還無法與百度等“水平搜索引擎”相比。 本文根據用戶對職位信息搜索的實際要求,依據軟件工程的思想,對職位搜索引擎進行分析研究、設計和具體實現。主要是從提高系統(tǒng)搜索速度和檢索性能的角度來進行系統(tǒng)架構、分詞器和分類器的

4、設計。最后,經過實際測試證明:本文所設計的新系統(tǒng)提高了搜索性能,滿足了用戶的功能需求。本文的工作與創(chuàng)新如下: 1.職位搜索引擎體系架構的設計為了對原有職位搜索引擎架構Jobui2.0(職友集現行的架構體系的版本代號) 的性能進行改善,本文設計了一套新的職位搜索引擎的架構Jobui3.0(職友集新的架構體系的版本代號)。這包括:1)引進“索引緩存”以減少I/O 消耗提高查詢速度,并通過“索引管理器”來控制緩存索引的更新與選取

5、;2)設計了旨在加速查詢的多級緩存機制;3)設計了一套容錯和集群擴充機制。 2.高效分詞器的設計提出了一種改進的正向最大匹配算法(Forward Maximum Matchingmethod,FMM),并結合Lucene 設計了一個中英文分詞器。本文列舉了這種分詞器和普通分詞器(運用的是原始正向最大匹配算法)的切分對比數據,以及展示了這種分詞器的分詞效果,證明了這種分詞器在堅持一定準確度的情況下,在分詞速度方面已經達到了系統(tǒng)的要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論