+高级检索
一种面向多文本集的部分比较性混合模型
DOI:
作者:
作者单位:

作者简介:

通讯作者:

基金项目:


A Partial Comparative Mixture Model for Multi-collections Documents
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
    摘要:

    针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能.

    Abstract:

    State-of-the-art cross collections topic models suffer from major flaw that they can only analyze the common topics among document collections. We introduced a mixture model PCCMix (Partial comparative Cross Collections Mixture) for multi-collections CTM to detect both common topics and collection-special topics. PCCMix divides the two types of topics in document collections by estimating a probability distribution from the whole dataset in advance, and then trains the model by the Expectation-maximuzation algorithm (EM). Experiment results show that PCCMix can analyze both common topics among collections and collection special topics. The PCCMix model is very effective and can model the document collections more precisely than the two main CTM models.

    参考文献
    相似文献
    引证文献
文章指标
  • PDF下载次数:
  • HTML阅读次数:
  • 摘要点击次数:
  • 引用次数:
引用本文

谭文堂,王桢文,殷风景,葛斌,肖卫东.一种面向多文本集的部分比较性混合模型[J].湖南大学学报:自然科学版,2013,40(11):101~107

复制
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
作者稿件一经被我刊录用,如无特别声明,即视作同意授予我刊论文整体的全部复制传播的权利,包括但不限于复制权、发行权、信息网络传播权、广播权、表演权、翻译权、汇编权、改编权等著作使用权转让给我刊,我刊有权根据工作需要,允许合作的数据库、新媒体平台及其他数字平台进行数字传播和国际传播等。特此声明。
关闭