《計算機應用研究》|Application Research of Computers

基于開放域抽取的多文檔概念圖構建研究

Multi-document conceptual graph construction research based on open domain extraction

免費全文下載 (已被下載 次)  
獲取PDF全文
作者 盛泳潘,付雪峰,吳天星
機構 電子科技大學 計算機科學與工程學院;南昌工程學院 信息工程學院;東南大學 計算機科學與工程學院
統計 摘要被查看 次,已被下載
摘要 在信息過載的背景下,如何從擁有共同主題的多篇文檔中挖掘并組織核心概念及其語義連接已成為當前開放式信息抽取任務中的一項重要挑戰。為此,提出了一個基于開放域抽取的多文檔概念圖構建模型。首先基于預定主題挖掘主題詞,通過改進的TF-IDF算法對文檔進行排序;然后通過共指消解、篇章權重計算、開放域抽取等一系列的方法從多篇文章中抽取出大量具有事實表達能力的三元組實例。為去除開放域方法本身的噪聲以及提升信息抽取的準確率,提出一種事實過濾算法。通過該算法可有效提取置信度高且具有良好語義兼容性的顯著事實知識集合,并構成多個概念子圖。最后,將不同子圖中等價的概念以及關系進行合并,形成一張具有主題表達能力的連通概念圖。通過在Signal Media新聞數據集上進行驗證,實驗結果表明,所提出的模型能夠跨文檔挖掘并有效組織與特定主題相關的關鍵信息,形成的概念圖在主題概念覆蓋率、事實知識的兼容性等指標上均取得了較好的效果。除此之外,該模型對于自動文檔摘要的應用也具有重要的參考價值。
關鍵詞 開放域抽??;多文檔;概念圖構建
基金項目 國家自然科學基金資助項目(61762063)
江西省自然科學基金資助項目(20171BAB202024)
江西省教育廳科研項目(GJJ170991)
國家建設高水平大學公派研究生項目(201706070049)
本文URL http://www.oirznw.live/article/02-2020-01-015.html
收稿日期
修回日期
頁碼 -
中圖分類號 TP391
文獻標志碼
水果机返水 佳澄果穗作品封面番号 山东老11选5预测 新西兰上网攻略 图片番号网 呼和浩特快餐女上门 …江苏快三开奖结果 北京pk105码倍投技巧 云南快乐十分 一本道杏堂qvod 微乐哈尔滨麻将 快乐10分胆拖对照表 排列3排列5五行选号走势图表 贵州11选5开奖号 500竟彩足球比分直播 辽宁葫芦岛麻将玩法 快乐十分技巧出号规