特异群组挖掘
上QQ阅读APP看书,第一时间看更新

前言

数据是数字经济的关键要素,数字经济的基本活动是数据资源的开发和利用,所用核心技术是数据挖掘。数据挖掘是从大量数据中寻找规律、发现并实现数据价值的技术。在大数据时代,“寻找”数据规律变得更具挑战性,这需要大数据挖掘技术的支持。大数据集中存在一类高价值、低密度的数据,即一些极为相似的数据对象构成了一个或多个群组,这些群组表现出和其他大多数数据对象不一样的特征。显然这些群组不是通常意义上的对象簇,更不是孤立点。2009年,我们发表的论文首次将这样的群组定义为特异群组,将寻找特异群组的过程定义为特异群组挖掘。

2009年以来,在国家自然科学基金的支持下,我们持续发展了特异群组挖掘技术。2010——2011年,我们将特异群组挖掘应用于医保卡欺诈、股票价格操纵、汽车盗窃等违法行为的甄别;2012年,关于特异群组挖掘的理论研究工作获得了国家自然科学基金的支持;2013年,我们提出了一般数据集上的特异群组挖掘算法,并提炼了特异群组挖掘框架,相关成果发表在国际会议(AAAI等)论文集中;2014年,我们在异质数据网络上进行了特异群组挖掘的探索,提出了特异群组候选对象挖掘算法,相关成果发表在期刊TKDE上;2015年,我们获得了国家自然科学基金的支持,深入研究了证券市场操纵行为,相关研究成果发表在CIKM会议论文集和TKDE期刊上;2016年,我们再次获得了国家自然科学基金的支持,研究了一般意义上的有组织犯罪行为甄别方法,设计了基于数据身模型的特异群组挖掘算法,研究成果直接应用于有组织犯罪调查工作中,相关研究成果发表在KDD和CIKM等会议论文集上。

到2019年,经过10年的努力,我们认为特异群组挖掘已经初步形成了体系。近年来,特异群组挖掘在证券交易、互联网金融、智能交通、社会保险、生物医疗、银行和网络社区等领域的需求越来越多。例如,股价操纵、基金“老鼠仓”、医保卡套现、有组织犯罪等都属于特异群组,只要有相关数据,特异群组挖掘就能够发现这些行为。特别地,2019年,我们与蚂蚁金服合作,将特异群组挖掘技术应用于互联网金融风控中,这使得特异群组挖掘技术进入了一个受众范围非常广阔的新应用领域。鉴于上述情况,我们决定尝试将特异群组挖掘技术编辑成册,进行系统阐述,希望特异群组挖掘技术被更多人理解、在更多的领域获得应用。

本书各章内容如下:第1章介绍特异群组挖掘的概念;第2章分析、比较与特异群组挖掘相关的技术和研究工作;第3章给出特异群组挖掘应用案例;第4章介绍低维空间一般数据集上的特异群组挖掘的基础框架算法;第5章介绍特异群组挖掘的基础问题————相似性;第6章到第10章,介绍针对高维数据的基于特征嵌入表示的特异群组挖掘方法,包括考虑边属性的交互图的节点表示学习、半监督节点表示学习、半监督群组表示学习、增量式节点表示学习和面向动态图的节点表示学习;第11章介绍多源数据的融合方法;第12章对特异群组挖掘的未来研究和应用进行展望。

特异群组挖掘是一个十分有前景的研究方向,随着数字经济的发展和大数据技术的深入运用,越来越多的应用场景对特异群组挖掘技术提出了挑战,包括特异群组挖掘方法的可解释性、多模态上的特异群组挖掘以及标准数据集的建立等。本书阐述了特异群组挖掘体系和适用于不同场景的多个特异群组挖掘方法,一则总结10年来我们的研究工作,二则希望有兴趣的同仁们修正完善特异群组挖掘方法。在特异群组的10年研究过程中,我们得到了钟宁、PHILIP S. YU、裴建、王伟、孔祥南、张嘉洧等的大力支持,和他们共同开展特异群组研究是非常愉快的经历,让我们受益良多,在此向他们表示诚挚谢意。在书稿写作过程中,我们的学生张尧、焦乙竹、陈佳伟、陈惠迪等协助整理了许多材料,在此一并感谢。此外,本书的研究工作得到了国家自然科学基金————通用技术基础研究联合基金重点支持项目(No.U1636207,基于移动大数据的特异群组挖掘与行为预测)的资助。本书的疏漏和错误完全是作者的水平有限所致,如能获得读者的指正是我们的荣幸。

作者
2020年4月