针对文献的文本数据分析是数据分析一个很有意思的分支。结构化数据的分析维度与分析算法相对丰富多样,相比而言在文献数据的文本分析过程中,除了包含情感方面的分析以外,针对分词后的词频统计分析占据交大比重。突现词检测也是也算是基于分词后的词频统计进行的,不过加入了时间聚集维度。
突现词检测算法主要是指在数据流中发现异常聚集现象的方法。关于突现词检测挖掘研究热点的分析目前应用最广泛的是Kleinberg提出的突现词检测算法。后续陈超美教授的文献计量分析软件CiteSpace中集成了Kleinberg的突现词分析算法,借助这个文献计量分析软件,不同领域进行了广泛的突现词分析与研究,从而将这个算法发扬光大
。Kleinberg在2003年提出的突现词的检测算法本意是准备在众多按时间顺序收到的邮件中发现某个主题的特定规律。主要考虑到该主题邮件收取的时间密集程度与短时间内收取的邮件数量规模来判定是否有“突现”时期。以下以Kleinberg的邮件例子简单介绍一下突现词检测算法:
算法介绍:
Kleinberg的个人邮箱收到了许多邮件,包含科研邮件、基金项目的通知邮件、学生课程相关的邮件等。他希望可以有一个更好的邮件分类规则可以帮助他整理“过载”数量的邮件。下图是Kleinberg教授邮件中包含“ITR”主题的邮件数量分布(ITR是是教授与其他两名同事在1999-2000年申请的国家自然科学基金的一个项目)。下图可以理解为是邮件数量的帕累托图拆解版。左图是按照时间分布的邮件数量累积图,右图是邮件数量按照时间分布的频次图。可以看到有图中按照不同?设定的两条标准来看,有相当长的一段时间内“ITR”主题的邮件相对来说属于“突现”的状态,后期数量逐渐降低。因此,Kleinberg本意是希望可以找到一种算法,检测出不同主题的“突现”状态,从而来更好地整理相关的主题邮件内容。
图1 Kleinberg“ITR”主题邮件数量时间分布(来源于参考文献1)
Kleinberg提出了利用0,1状态模型来模拟信息中的突现状态变化。突现词检测算法主要是基于0,1状态模型。
图2 一个突现序列的状态模型(来源于参考文献1)
如上图2所示,是一个突现序列的状态模型。a)图是按照时间序列排列的状态q0,q1……qn。b)图中表示在不同的标准下划分的突现时间。在这个状态模型中,Kleinberg定义对于每个状态i和j,在从状态qi转化到qj时都存在一个成本函数τ(i,j)。成本函数τ定义为从低强度的突发状态qi到高强度的突发状态qj(j>i)的成本为如公式2所示。从高强度的突发状态到低强度的突发状态成本为0。

其中,j>i并且γ>0. γ代表由状态0到状态1的类似惩罚系数,主要控制由状态0变为状态1的难度。
在论文分析场景中,我们不仅仅需要考虑一个主题的突现情况,论文中极大可能会存在多个主题领域的突现。假设有n批次的文档,第t批次的文档总数为dt,t批次主题的文档数量为rt。假设r=(r1,r2,……,rn),d=(d1,d2,……dn),假设存在两个(0和1,其中1表示突现状态,0表示不突现状态)状态,对于状态序列的索引i≥0,我们定义相关主题文档存在的概率为pi,假设p0=R/D,pi=p0si。由于pi的概率不能超过1,我们限定pi≤1。以信息生成的角度来看,状态序列qi表示以二项分布概率pi产生某主题的相关文档。则成本函数cost c(q|r,d)可以定义如下:
通过构造成本函数,我们可以根据数据发现一个合适的0,1状态序列,使得总体成本最小。
应用:
突现词算法在传统期刊文献前沿内容挖掘中起到重要的作用。Zhinan Wang等基于3D打印的专利数据,根据IPC号将专利数据分成技术融合组与对照组,通过PCA方法挖掘逐年递增的新兴话题。Mallikarjun Dora等基于印度14个图书与情报行业的3713篇期刊,利用标题与作者关键词的突现分析研究印度图情领域的热点趋势。张雪等指出会议科研论文可以研究历史文献的研究热点,也可通过突现指标研究当前研究热点。
除了传统的科技文献,新型科技媒体的突发事件检测中,突现词检测算法的应用也占据了重要的地位。对于新型社交媒体Twitter及微博,通过文本关键词及社交媒体特有的的用户交互及传播行为,可以及时有效地检测社交媒体的突发主题。
算法缺点:
尽管Kleinberg的突现词算法在多个行业中进行了相关的应用,但是作者在实际分析过程中发现该算法还存在一定的缺点,例如对于最新的前沿科技技术,可能从文章的数量来看并不能达到所谓的“突现”状态,但是却是我们需要关注的重点。针对这个问题,后续我会以某个专业毕业论文为例,对最新的文章进行一定的权重加权,来提升新文章所占的频次比重。
参考文献:
- Kleinberg, J. Bursty and Hierarchical Structure in Streams. Data Mining and Knowledge Discovery 7, 373–397 (2003). https://doi.org/10.1023/A:1024940629314
- Zhinan Wang, Alan L. Porter, Xuefeng Wang et al. An approach to identify emergent topics of technological convergence: A case study for 3D printing. Technological Forecasting and Social Change.2019,146:723-732. https://doi.org/10.1016/j.techfore.2018.12.015
- Mallikarjun Dora & H. Anil Kumar.An empirical analysis of the research trends in the field of library and information science in India –2004-2015, COLLNET Journal of Scientometrics and Information Management,2017, 11:2, 361-378, DOI: 10.1080/09737766.2017.1317959
- 张雪,张志强,曹玲静等.学科领域研究前沿识别方法研究进展[J/OL].图书情报工作:1-13[2022-09-09].DOI:10.13266/j.issn.0252-3116.2022.12.013.
- T. Takahashi, R. Tomioka and K. Yamanishi, "Discovering Emerging Topics in Social Streams via Link-Anomaly Detection," in IEEE Transactions on Knowledge and Data Engineering, 26,(1):120-130, Jan. 2014, doi: 10.1109/TKDE.2012.239.
- Z. Zhang, M. Xu and N. Zheng, "Mining burst topical keywords from microblog stream," Proceedings of 2012 2nd International Conference on Computer Science and Network Technology, 2012, 1760-1765, doi: 10.1109/ICCSNT.2012.6526261.
- 陈国兰.基于爆发词识别的微博突发事件监测方法研究[J].情报杂志,2014,33(09):123-128.