在網(wǎng)絡(luò)的海量信息搜索過程中,醫(yī)學(xué)情報(bào)研究和信息服務(wù)機(jī)構(gòu),經(jīng)常需要構(gòu)建面向?qū)n}的垂直搜索系統(tǒng)以滿足特定人群的需求。本文利用Nutch和Lucene等開源軟件設(shè)計(jì)了一個(gè)面向生物醫(yī)學(xué)信息的垂直搜索引擎系統(tǒng),并對(duì)網(wǎng)頁信息抓取、格式處理、內(nèi)容索引和檢索等關(guān)鍵技術(shù)進(jìn)行了說明。在此搜索引擎中,通過加入中文分詞和增量抓取等模塊,提高了中文關(guān)鍵字的識(shí)別率,縮短了信息的更新周期。目前該系統(tǒng)已經(jīng)上線測(cè)試,能夠獲得較為精確和及時(shí)的搜索結(jié)果。
|