我院研究生在CIKM和EMNLP发表学术论文
近日,学院皇家永利油气勘探开发智能化工程研究中心在知识检索和自然语言处理领域的研究中取得新进展,分别在ACM International Conference on Information and Knowledge Management(CIKM 2024)和Conference on Empirical Methods in Natural Language Processing(EMNLP 2024)发表系列学术论文。
2022级硕士生付勋担任第一作者,谢文波老师、王欣教授指导,硕士生陈斌、邓涛、邹甜共同参与的论文《ACDM: An Effective and Scalable Active Clustering with Pairwise Constraint》被CIKM 2024录用。CIKM会议是信息检索和数据挖掘领域的顶级国际会议,属于CCF推荐的B类国际学术会议。2024年CIKM共收到1496篇有效投稿,最终录用347篇,录用率仅为23%。这是该团队首次在该会议发表论文。代码链接:https://github.com/briceloskie/ACDM。
论文提出了一种主动聚类扩散模型(ACDM)。ACDM利用最近邻技术构建扩散图,并通过在线框架迭代地改进聚类结果。在每次迭代中:(a) 以批处理方式选择具有高不确定性和代表性的节点;(b) 使用基于邻域集合的新型查询,利用成对约束对所选节点进行分类;(c) 将已分类的节点作为扩散模型中的源节点,细化聚类。复杂性理论分析和实证评估均证明了该方法的有效性和可扩展性。值得注意的是,ACDM对数据相似度不敏感,适用范围广泛。该研究为主动聚类领域做出了重要贡献,为大规模数据的管理提供了新的解决方案。
张望(2021级硕士生)、邓涛(2023级硕士生)、吴晓茹(2023级硕士生)和王欣教授、王骞老师合作完成的论文 《From Text Segmentation to Enhanced Representation Learning: A Novel Approach to Multi-Label Classification for Long Texts》被自然语言处理国际会议EMNLP接收。该会议属于CCF B推荐会议,在国际自然语言处理领域中享有较高声誉。论文提出的LSKTC算法用于多标签文本分类。在该任务中,每个样本可以被分配多个类别标签。现有大多数模型依赖于预训练模型来提供高质量的文本表示。然而,当处理较长的文本时,由于预训练模型对输入长度的限制,这些模型会面临挑战。为了应对长文本分类的问题,论文引入了一个综合性的解决方案,具体如下:1)文本分割算法:该算法旨在克服文本输入长度限制的问题。算法能保证生成最优的文本分割结果,使得长文本可以被分割成更小的片段,然后再分别处理。2)外部知识和标签共现:在表示学习过程中整合外部知识和标签的共现信息,以增强文本和标签的表示能力。这有助于捕捉文本和标签之间复杂的关联性,从而提升分类性能。3)有效性验证:通过在多种MLTC数据集上进行广泛的实验,验证了所提出方法的有效性。实验结果也证实了论文的观点:文本和标签之间具有复杂的相关性。
论文的研究内容旨在改进长文本的多标签分类性能,并通过利用文本内部结构和外部信息来增强模型的理解能力。这样的研究不仅有助于解决实际应用中的长文本分类问题,也为进一步的研究提供了新的视角和技术手段。
更新时间:2024-09-20