《計算機應用研究》|Application Research of Computers

基于關鍵詞相似度的短文本分類方法研究

Research on short text classification based on keyword similarity

免費全文下載 (已被下載 次)  
獲取PDF全文
作者 張振豪,過弋,韓美琪,王吉祥
機構 1.華東理工大學 信息科學與工程學院,上海 200237;2.石河子大學 信息科學與技術學院,新疆 石河子 832003;3.大數據流通與交易技術國家工程實驗室——商業智能與可視化技術研究中心,上海 200436
統計 摘要被查看 次,已被下載
文章編號 1001-3695(2020)01-005-0026-04
DOI 10.19734/j.issn.1001-3695.2018.04.0440
摘要 在傳統的文本分類中,文本向量空間矩陣存在維數災難和極度稀疏等問題,而提取與類別最相關的關鍵詞作為文本分類的特征有助于解決以上兩個問題。針對以上結論進行研究,提出了一種基于關鍵詞相似度的短文本分類框架。該框架首先通過大量語料訓練得到word2vec詞向量模型;然后通過TextRank獲得每一類文本的關鍵詞,在關鍵詞集合中進行去重操作作為特征集合。對于任意特征,通過詞向量模型計算短文本中每個詞與該特征的相似度,選擇最大相似度作為該特征的權重。最后選擇K近鄰(KNN)和支持向量機(SVM)作為分類器訓練算法。實驗基于中文新聞標題數據集,與傳統的短文本分類方法相比,分類效果約平均提升了6%,從而驗證了該框架的有效性。
關鍵詞 詞向量; 特征選擇; 短文本分類; 特征權重
基金項目 國家自然科學基金資助項目(61462073)
上海市科學技術委員會項目(17DZ1101003,18511106602)
本文URL http://www.oirznw.live/article/01-2020-01-005.html
英文標題 Research on short text classification based on keyword similarity
作者英文名 Zhang Zhenhao, Guo Yi, Han Meiqi, Wang Jixiang
機構英文名 1.School of Information Science & Engineering,East China University of Science & Technology,Shanghai 200237,China;2.School of Information Science & Technology,Shihezi University,Shihezi Xinjiang 832003,China;3.Business Intelligence & Visualization Research Center,National Engineering Laboratory for Big Data Distribution & Exchange Technologies,Shanghai 200436,China
英文摘要 In order to cope with the problem of data sparsity and curse of dimensionality in text classification, this paper proposed a short text classification framework by taking keyword as features and assigning keyword similarity as feature weight. First, it trained a word2vec model with large corpus data, then got keywords of each category text by textrank. And it selected unique keywords from the keywords collection as features. For each feature, it calculated the similarity of words in the short text by word2vec model, and assigned the maximum similarity as the weight of the feature. Finally, it chose KNN and SVM as classifier. Experiments on dataset of Chinese news headlines demonstrate that the accuracy outperforms other usual methods by 6%.
英文關鍵詞 word embedding; feature selecting; short text classification; feature weighting
參考文獻 查看稿件參考文獻
 
收稿日期 2018/4/27
修回日期 2018/7/2
頁碼 26-29
中圖分類號 TP391.1
文獻標志碼 A
水果机返水 优乐江西麻将官网 微乐龙江游戏下载 3分极速赛车计划软 股票配资l配资658 11选5*结果云南 好运彩票app官方版 北京快3中奖助手官方网站 辽宁11选5开奖直 快乐赛车开奖结果 海口按摩前列腺沐足 快乐12一定牛辽宁 福建22选5最新开奖结果今天 3d走势图试机号开 甘肃11选5开奖结果列表 小赛车 福州沐足哪里可以口