+高级检索
基于事件异构图表示的文本去重算法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

基金项目:


Text Deduplication Algorithm Based on Event Heterogeneous Graph Representation
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    基于图结构的文本表示方法在新闻文本去重中具有更好的效果.但是,目前该表示方法还不能完整地表示文本的全部信息,并且忽略了图的语义信息,降低了新闻文本的去重效果.为此,本研究提出基于事件异构图表示的文本去重算法,该算法首先通过事件异构图表示新闻文本的全局语义与结构信息,然后提出双标签图核算法表征事件异构图,实现深度表征图的结构及语义信息.实验结果表明,该研究提出的去重算法比现有的基于图结构的文本表示去重方法在F1-score指标上提升了10%.最后,该算法能提高新闻文本的去重效果.

    Abstract:

    The text representation method based on graph structure has a better effect in news text deduplication. However, at present, this representation method cannot fully represent the complete information of the text, and ignores the semantic information of the graph, which reduces the deduplication effect of news text. To this end, this study proposes a text deduplication algorithm based on event heterogeneous graph representation. The algorithm first represents the global semantic and structural information of news text through event heterogeneous graph, and then proposes a dual-label graph kernel algorithm to represent event heterogeneous graph to realize the structure and semantic information of the deep representation graph. The experimental results show that the deduplication algorithm proposed improves the F1-score index by 10%, compared with the existing text representation deduplication method based on graph structure. Finally, the algorithm can improve the deduplication effect of news text.

    参考文献
    相似文献
    引证文献
文章指标
  • PDF下载次数:
  • HTML阅读次数:
  • 摘要点击次数:
  • 引用次数:
引用本文

艾玮 ,许佳 ,谢灿豪 ,孟涛 ?.基于事件异构图表示的文本去重算法[J].湖南大学学报:自然科学版,2023,(2):74~85

复制
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2023-03-06
  • 出版日期:
作者稿件一经被我刊录用,如无特别声明,即视作同意授予我刊论文整体的全部复制传播的权利,包括但不限于复制权、发行权、信息网络传播权、广播权、表演权、翻译权、汇编权、改编权等著作使用权转让给我刊,我刊有权根据工作需要,允许合作的数据库、新媒体平台及其他数字平台进行数字传播和国际传播等。特此声明。
关闭