报告题目:基于“词嵌入袋”的文本分类
英文题目:Bag-of-Embeddings for Text Classification
主讲人:金澎 教授
主讲人单位:乐山师范学院
地点:明理楼B306
主办:西南石油大学科研处、计算机科学学院
报告摘要:
一词多义在自然语言中是普遍现象,这给文本分类等任务带来巨大挑战。即便采用词嵌入(word embedding)方法,该问题仍未得到有效解决。我们研究发现同一个词在不同文本类中表现出不同的分布特性。基于上述假设,提出基于“词嵌入袋”的文本分类模型。该模型在训练时,两种词向量同时学习:无标签词向量在全部文档中学习,捕获的是全部文档中的上下文信息。带标签的词向量只在标签类样本中学习,捕获的是该类中的上下文信息。由于这两种模型很好地表示了文本,实验中仅采用简单的贝叶斯分类器就获得了极佳的性能。
报告人简介:
金澎,博士、教授、硕士生导师。现于乐山师范学院计算机科学学院任教,互联网自然语言智能处理省高校重点实验室主任,皇家永利学术技术带头人后备人选。2009年7月毕业于北京大学信息科学技术学院计算语言学研究所,获理学博士学位。主要研究领域为自然语言处理。发表论文50余篇,其中三大检索论文36篇;授权国家发明专利一项;主持国家自然科学基金二项;翻译学术专著一部。
【关闭】