当前位置: 首页 >> 学术报告 >> 正文

基于“词嵌入袋”的文本分类

来源:     报告人:金澎    审核:    编辑:沈立芹     发布日期:2019年04月08日    浏览量:[]

报告题目:基于“词嵌入袋”的文本分类

英文题目:Bag-of-Embeddings for Text Classification

主讲人:金澎 教授

主讲人单位:乐山师范学院

时间:2019年4月11日(周四)16:00

地点:明理楼B306

主办:西南石油大学科研处、计算机科学学院

报告摘要:

一词多义在自然语言中是普遍现象,这给文本分类等任务带来巨大挑战。即便采用词嵌入(word embedding)方法,该问题仍未得到有效解决。我们研究发现同一个词在不同文本类中表现出不同的分布特性。基于上述假设,提出基于“词嵌入袋”的文本分类模型。该模型在训练时,两种词向量同时学习:无标签词向量在全部文档中学习,捕获的是全部文档中的上下文信息。带标签的词向量只在标签类样本中学习,捕获的是该类中的上下文信息。由于这两种模型很好地表示了文本,实验中仅采用简单的贝叶斯分类器就获得了极佳的性能。

报告人简介:

金澎,博士、教授、硕士生导师。现于乐山师范学院计算机科学学院任教,互联网自然语言智能处理省高校重点实验室主任,皇家永利学术技术带头人后备人选。2009年7月毕业于北京大学信息科学技术学院计算语言学研究所,获理学博士学位。主要研究领域为自然语言处理。发表论文50余篇,其中三大检索论文36篇;授权国家发明专利一项;主持国家自然科学基金二项;翻译学术专著一部。

关闭