目的 基于文本挖掘技術(shù),設(shè)計(jì)出能夠自動(dòng)提取流行病學(xué)致病因素的系統(tǒng)。方法 該自動(dòng)信息提取系統(tǒng)由一個(gè)文本挖掘引擎子系統(tǒng)和一個(gè)基于規(guī)則的信息提取子系統(tǒng)構(gòu)成。首先使用文本挖掘引擎標(biāo)記出所有的名詞短語,并收集該名詞短語的語義等信息。然后利用基于規(guī)則的文本分類器,標(biāo)記出流行病學(xué)致病因素。結(jié)果 為評(píng)估本系統(tǒng),將由流行病學(xué)專家人工注解的文本輸入該系統(tǒng),評(píng)估發(fā)現(xiàn)最好的結(jié)果F-measure為64.6%,其精確率和召回率分別為61.0%和68.8%,該結(jié)果優(yōu)于其它相關(guān)研究,且其中有些錯(cuò)誤仍可避免。結(jié)論 基于文本挖掘的方法對(duì)從流行病學(xué)研究文獻(xiàn)中自動(dòng)提取致病因素信息有很大幫助。
|