目的 面向生物醫(yī)學(xué)領(lǐng)域基于文獻(xiàn)的知識(shí)學(xué)習(xí)及應(yīng)用需求, 為解決實(shí)體識(shí)別中存在的詞語歧義問題, 提出一種基于上下文特征的實(shí)體消歧算法。方法 實(shí)體消歧通常分為候選生成和實(shí)體消歧兩部分。在候選生成階段, 本文采用基于知識(shí)庫的方法對(duì)實(shí)體指稱生成候選, 并根據(jù)實(shí)體在知識(shí)庫中的先驗(yàn)概率對(duì)候選實(shí)體進(jìn)行篩選, 這樣保證了目標(biāo)實(shí)體的召回率并有效減少消歧階段的計(jì)算復(fù)雜度和噪聲。在實(shí)體消歧階段, 本文提出一種基于上下文特征的實(shí)體消歧方法, 構(gòu)建概率模型計(jì)算實(shí)體上下文和實(shí)體指稱上下文之間的相似度, 選取相似度最大的實(shí)體作為目標(biāo)實(shí)體。對(duì)從文獻(xiàn)中識(shí)別出的命名指稱做實(shí)體消歧實(shí)驗(yàn), 通過領(lǐng)域?qū)<遗袛鄬?shí)體消歧結(jié)果的正確性, 比較在不同算法下實(shí)體消歧的準(zhǔn)確率。結(jié)果本文提出的方法在所選擇的數(shù)據(jù)集中獲得了83%的實(shí)體消歧準(zhǔn)確率, 高于其他算法。結(jié)論 基于上下文特征的實(shí)體消歧算法在本領(lǐng)域的實(shí)體消歧工作中效果最佳。
|