51黑料吃瓜在线观看,51黑料官网|51黑料捷克街头搭讪_51黑料入口最新视频

設(shè)為首頁 |  加入收藏
首頁首頁 期刊簡介 消息通知 編委會(huì) 電子期刊 投稿須知 廣告合作 聯(lián)系我們
利用Nutch設(shè)計(jì)實(shí)現(xiàn)生物醫(yī)學(xué)信息垂直搜索引擎

Design and Implementation of Biomedical Information Vertical Search Engine using Nutch Software

作者: 王小磊  李立  趙東升 
單位:軍事醫(yī)學(xué)科學(xué)院衛(wèi)生勤務(wù)與醫(yī)學(xué)情報(bào)研究所(北京100850)
關(guān)鍵詞: Nutch;網(wǎng)絡(luò)信息抓取;Lucene;中文分詞;增量抓取 
分類號(hào):
出版年·卷·期(頁碼):2010·29·6(638-640)
摘要:

在網(wǎng)絡(luò)的海量信息搜索過程中,醫(yī)學(xué)情報(bào)研究和信息服務(wù)機(jī)構(gòu),經(jīng)常需要構(gòu)建面向?qū)n}的垂直搜索系統(tǒng)以滿足特定人群的需求。本文利用Nutch和Lucene等開源軟件設(shè)計(jì)了一個(gè)面向生物醫(yī)學(xué)信息的垂直搜索引擎系統(tǒng),并對(duì)網(wǎng)頁信息抓取、格式處理、內(nèi)容索引和檢索等關(guān)鍵技術(shù)進(jìn)行了說明。在此搜索引擎中,通過加入中文分詞和增量抓取等模塊,提高了中文關(guān)鍵字的識(shí)別率,縮短了信息的更新周期。目前該系統(tǒng)已經(jīng)上線測(cè)試,能夠獲得較為精確和及時(shí)的搜索結(jié)果。

In the process of searching useful information from the massive information network,the vertical search system is often used by the information service organizations for medical information research and information service,to meet the specific needs. This paper uses open-source software Nutch and Lucene to design and implement a vertical search engine for biomedical information. Some key techniques such as crawling and processing of web page,content indexing and searching,are explained and discussed. The system  improves the recognition rate of Chinese keywords and reduces the information update cycle by adding Chinese word segmentation and re-crawl modules. Currently the system has been tested online and obtained more accurate and timely search results.

參考文獻(xiàn):

[1]李莉,魏進(jìn)民.生物醫(yī)學(xué)搜索引擎檢索研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2008,30(18):44-45.
[2]王仕仲,寧龍兵.基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[J].電腦開發(fā)與應(yīng)用,2009,22(7):76-79.
[3]王學(xué)松.Lucene+nutch搜索引擎開發(fā)[M].北京:人民郵電出版社,2008:63-384.
[4]吳寶貴,丁振國.基于Map/Reduce的分布式搜索引擎研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007,154(8):52-55.
[5]趙文才.Nutch插件系統(tǒng)淺析[EB/OL].http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/?S_TACT=105AGX52&S_CMP=tec-csdn.
[6]Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking: Bringing Order to the Web.Standford Digital Library Technologies Project[EB/OL].[1998].http://www-db.stanford.edu/~backrub/pageranksub.ps.
[7]高飛,劉云.Nutch中文分詞方法的實(shí)現(xiàn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2008,(9):71-72.
 

服務(wù)與反饋:
文章下載】【加入收藏
提示:您還未登錄,請(qǐng)登錄!點(diǎn)此登錄
 
友情鏈接  
地址:北京安定門外安貞醫(yī)院內(nèi)北京生物醫(yī)學(xué)工程編輯部
電話:010-64456508  傳真:010-64456661
電子郵箱:[email protected]