人工智能之大数据挖掘.pdf

资源描述

1、图表目录图 1 数据挖掘是知识发现的过程之一.3 图 2 数据挖掘过程基本步骤.5 图 3 Data Mining 知识图谱.7 图 4 2013-2018 KDD 研究性论文投稿与接收情况.8 图 5 2013-2018 KDD 工业界论文投稿与接收情况.8 图 6 柯洁乌镇大战 AlphaGo 撼负后的微博热议.45 图 7 两个微博名人的微博点赞数据的箱型图.48 图 8 组数较大组距较小的频率分布直方图.49 图 9 相同均值和方差的不同数据.55 图 10 k=3 的 K-means 算法迭代过程.56 图 11 神经元.62 图 12 神经网络.63 图 13 Girvan-Ne

2、wman 算法结果.71 图 14 基于优化 Q 值的算法结果.72 图 15 Louvain 算法步骤.73 图 16 Skip-Gram 模型架构.76 图 17 话题模型的概率图.79 图 18 大数据处理平台技术架构图.80 图 19 基于开源系统的大数据处理平台架构.81 图 20 全球学者分布地图.84 图 21 国内学者分布地图.84 图 22 数据挖掘领域全球 Top1000 学者迁徙图.85 图 23 数据挖掘全球 Top1000 学者机构分布.85 图 24 数据挖掘全球 Top1000 学者 h-index 分布图.86 图 25 数据挖掘全球 Top1000 学者性别比

3、.86 图 26 两阶段的交互推荐方法.126 图 27 视频推荐（左）和视频搜索（右）.127 图 28 方法框架.127 图 29 视频推荐的评测结果.128 图 30 YouTube-8M 数据集上的视频检索.128 图 31 抽取系统的架构图.129 图 32 数据偏差.129 图 33 数据集的实验结果.130 图 34 不同 submodular 的比较结果.131 图 35 共享表示层.131 图 36 UCI 数据集的实验结果.132 图 37 Google 数据的实验结果.132 图 38 PG 模型、MPG 扩展版本.133 图 39 在线系统的 A/B 测试.133 图

4、40 框架结构.134 图 41 实验结果.134 图 42 Microsoft Bing 的可视化搜索.136 图 43 算法展示.137 图 44 降维过程.137 图 45 RBE 模型.138 图 46 Rosetta 的两阶段抽取架构.139 图 47 系统的总体设计.142 图 48 DPG-FBE.142 图 49 阿里巴巴的可视化搜索.143 图 50 可视化搜索系统的离线学习（左）在线搜索系统的总体架构（右）.143 图 51 基于注意力机制网络和 RNN 的深度架构.144 图 52 排序过程.144 图 53 电子商务网站中商品的表示学习.145 图 54 SI 辅助信息

5、.145 图 55 多级级联排名模型.146 图 56 鲲鹏的总体架构.146 图 57 conv-RNN 框架.147 图 58 局部匹配图.148 图 59 关系增强的实体表示.149 图 60 生成有意义的医疗关系.149 图 61 提供实时停车可用性信息的框架图.150 图 62 研究城市中人的活动.151 图 63 大规模实际招聘数据系统.152 图 64 Data Mining 全局热点.153 图 65 Data Mining 近期热点.153 图 66 Data Mining 早期热点.153 图 67 2007 至今 Data Mining 与 Health Care 领域交

6、叉分析.155 图 68 Data Mining 与 Health Care 未来 3 年交叉研究趋势预测.156 表 1 数据挖掘和 KDD 对比图.2 表 2 数据挖掘分类表.3 表 3 两个比较受欢迎的微博名人在 2018 年 3 月到 2018 年 5 月间的一部分微博数据.46 表 4 LDA 模型中的变量和标记.79 1 摘要摘要数据挖掘（Data Mining）是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在大规模数据中发现隐含模式的计算过程。基于大数据时代的背景，本研究报告对数据挖掘这一课题进行了简单梳理，包括以下内容：数据挖掘的概念与研究概

7、况。数据挖掘的概念与研究概况。首先从数据挖掘的定义、分类、过程与功能四个方面介绍了数据挖掘；整理并分析了数据挖掘领域顶级会议 ACM SIGKDD 近六年的信息。数据挖掘的算法与实现。数据挖掘的算法与实现。按照数据挖掘应用的方向，从大数据、机器学习、社会网络、自然语言与统计数据分析五个方面介绍了数据挖掘的算法。基于大数据的数据挖掘主要介绍了数据采集层、数据存储层、数据处理层和服务封装层四个层的基本架构，和部分大数据平台实例；基于机器学习的数据挖掘主要介绍了非监督学习方法与监督学习方法，重点是监督学习方法，包括训练集、验证集与测试集、决策树模式、kNN 算法、神经网络、回归分析；社会网络中的大数

8、据挖掘主要介绍了图的基本要素、图的度量算子，并从行为分析算法、社区发现算法等方面介绍了社交网络上的算法；自然语言中的数据挖掘先介绍了词的表示分析，并从语言模型与话题模型两个层面进行算法介绍；统计数据分析与前三个方面均有交叉，主要从数据描述性分析、回归分析、关联分析、聚类分析三个方面进行介绍。最后具体分析了数据挖掘领域顶级会议 SIGKDD 最近几年在数据挖掘基础理论、社交网络分析和图数据挖掘、大数据挖掘等几个方面的国内外的主要研究成果。数据挖掘领域专家介绍。数据挖掘领域专家介绍。基于 AMiner 数据，对数据挖掘领域专家进行深入挖掘和介绍。包括顶尖学者的全球与中国分布、迁徙概况、学者机构分布

9、、h-index分析，并依据 AMiner 评价体系，从代表学者与近十年代表学者两个层面选取学者进行详细介绍。数据挖掘的应用领域与发展趋势。数据挖掘的应用领域与发展趋势。数据挖掘无论是在科学领域还是工程领域、理论研究还是现实生活中，其应用都十分广泛，有着极为广阔的发展前景。本文对其在物流业、旅游业、零售业等相关领域的应用情况进行了介绍，并基于AMiner 数据，对近期数据挖掘领域研究热点进行可视化分析，对未来数据挖掘方向进行了预测：隐私保护、可视化、与专业领域结合、多媒体数据挖掘等。2 1 概述篇概述篇 1.1 数据挖掘基本概念数据挖掘基本概念数据挖掘（Data Mining），是指从大量的

10、数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息，并将其转化为计算机可处理的结构化表示，是知识发现的一个关键步骤。数据挖掘的广义观点：从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程，是一类深层次的数据分析方法1。数据挖掘是一门综合的技术，涉及统计学、数据库技术和人工智能技术的综合，它的最重要的价值在于用数据挖掘技术改善预测模型。早期数据挖掘并不是作为单独学科存在，追溯到30年前，Gregory I.Piatetsky-Shapiro（也是 KDnuggets 的创始人）等人于 1989 年 8 月在美国底特律的国际人工智能联合会议（IJCAI）上召开了一

11、个专题讨论会（workshop），首次提出了知识发现（Knowledge Discovery in Database，KDD）这一概念。KDD 涉及数据库、机器学习、统计学、模式识别、数据可视化、高性能计算、知识获取、神经网络、信息检索等众多学科和技术的集成，再后来的 30 年间 KDD 逐渐形成了一个独立、蓬勃发展的交叉研究领域。后来经过若干年的培育，1995 年，在加拿大蒙特利尔正式召开了第一届“知识发现和数据挖掘”国际学术会议 KDD。1995 年在美国计算机 ACM 年会上，开始把数据挖掘视为知识发现 KDD 的一个基本步骤。随后成立了 ACM 专委会SIGKDD 以及对应的国际数据挖

12、掘与知识发现大会（ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称 SIGKDD），到目前为止 SIGKDD已是数据挖掘领域的顶级国际会议。会议内容涵盖数据挖掘的基础理论、算法和实际应用，详见 1.2 近年 SIGKDD 概况。数据挖掘的对象可以是任何类型的数据源，可以是关系数据库，此类包含结构化数据的数据源；也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、web 数据，此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的，也可以是归纳的，最终被发现了的知识可以用于信息管理、查询

13、优化、决策支持及数据自身的维护等。2 数据挖掘是 KDD 的一个关键步骤，下表对二者做一比较。表 1 数据挖掘和 KDD 对比图输出不同共同点数据挖掘模型输入的都是学习集（learning sets）目的都是尽可能多的自动化数据挖掘过程知识发现规则 1 http:/www.kdd.org/curriculum/index.html 2 王惠中，彭安群数据挖掘研究现状及发展趋势 J 工矿动化，2011（2）3 一般文件数据仓库知识清理与集成选择与转换数据挖掘评估与表示图 1 数据挖掘是知识发现的过程之一早期比较有影响力的发现算法有：IBM 的 Rakesh Agrawal 的

14、关联算法（IBM Fellow、后来 MS Technical Fellow、第一届 ACM SIGKDD 的创新奖得主）、UIUC大学韩家炜（Jiawei Han）教授等人的 FP Tree 算法（第四届 ACM SIGKDD 的创新奖得主）、澳大利亚的 John Ross Quinlan 教授的分类算法（第十一届 ACM SIGKDD 的创新奖得主）、密西根州立大学 Erick Goodman 的遗传算法。同时已经有一些国际知名公司纷纷加入数据挖掘技术研究的行列，如：美国的 IBM 公司于 1996 年研制的智能挖掘机 Intellingent Miner，用来提供数据挖掘解决方案，此后出

15、现了 SPAA 公司的 Enterprise Miner、SGI 公司的 SetMiner、Sybase 公司的Warehouse Studio，还有 CoverStory、EXPLORA、Knowledge Discover Workbench、DBMiner、Quest 等等。1.1.1 数据挖掘分类数据挖掘分类表 2 数据挖掘分类表分类方依据分类按挖掘的数据库类型文字型网络型 Time 型 Space 型按挖掘的知识类型高抽象层原始数据层多个抽象层按所用技术类型模式识别神经网络可视化统计学面向数据库或仓库技术 l 按挖掘的数据库类型分类按挖掘的数据库类型分

16、类由于数据库有约定俗成的分类方式，例如数据模式、数据类型、应用环境等分类种类，以上几种数据库都有属于自己特有的数据挖掘技术；数据库之间可以互相对应，根据数据库类型定义数据挖掘技术的方法可行。数据挖掘技术若按照数据类型进行分类，可以分为文字型、网络型、Time 型、Space 型等。3 3 王桂芹，黄道数据挖掘技术综述 J 电脑应用技术 2007(69)：10-11.4 l 按挖掘的知识类型分类按挖掘的知识类型分类数据挖掘技术可以按照数据挖掘技术的功能划分，可划分为分析数据的内在规律、分析数据间的内在联系、定义描述等。一个数据挖掘全过程会同时由以上二个、三个或者多个功能组成。数据挖掘还可以

17、划分为广义知识、原始层知识、多层知识等类别。也就是专业术语所说的高抽象层、原始数据层、多个抽象层等类别。经典的数据挖掘技术通常能够找到多层知识。数据挖掘技术也能够按照其内在规律和奇特的异常性进行分类。通常来说，数据的内在规律可以通过分析相关性数据、找出数据之间的内在联系、定义描述、集合类的对象为多个类和估算等方法挖掘4。l 按所用的技术类型分类按所用的技术类型分类数据挖掘按照技术类型划分为：模式识别、神经网络和可视化、机器学习、统计学、面向数据库或仓库技术等；也可按照数据分析方法划分为：建模并模拟神经网络、进化算法、集合类似的对象为多个类、分类树、推演规律等。大型的数据挖掘系统通常包含二种或

18、三种以上挖掘方法，或者吸取多种挖掘方法的优点来处理数据挖掘。l 按应用分类按应用分类数据挖掘技术应用的领域不同，分类也不同。比如生物医学行业、交通行业、金融行业、通信行业、股市行业等都有自己合适的且已广泛应用的数据挖掘方法。因此不可能做到用同一个数据挖掘技术应用到各个行业领域。1.1.2 数据挖掘过程数据挖掘过程数据挖掘是指一个完整的过程，该过程从大型数据库中挖掘先前未知的、有效的，可实用的信息，并使用这些信息做出决策或丰富知识。下图描述了数据挖掘的主要步骤和过程。数据挖掘过程中各步骤的大体内容如下：第一步：确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的，

19、但要探索的问题应是有预见的。不能盲目的为了数据挖掘而数据挖掘。第二步：数据准备。数据准备分为三个阶段。数据的选择：搜索所有与目标对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。数据的预处理：研究数据的质量，为进一步的分析做准备，并确定将要进行的挖掘操作的类型。数据的转换：将数据转换成一个分析模型。这个分析模型是 4 JiaweiHan,MichelineKamber,JianPei,et al.数据挖掘:概念与技术M.机械工业出版社,2012.5 针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。逻辑数据库被选择的数据预处理后的数据被转换的数据被抽

20、取的信息被同化的信息选择预处理转换挖掘分析和同化图 2 数据挖掘过程基本步骤第三步：进行数据挖掘。对得到的经过转换的数据进行挖掘。第四步：结果分析。解释并评估结果，其使用的分析方法一般应视数据挖掘操作而定，通常会用到可视化技术。第五步：知识的同化。将分析所得到的知识集成到所要应用的地方去5。1.1.3 数据挖掘功能数据挖掘功能目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征，概念描述分为特征性描述和区别性描述，特征性描述描述对象的相同特征，区别性描述描述对象的不同特征；关联分析主要用来发现数据库中相关的知识以及数据之

21、间的规律，关联分为简单关联、时序关联、因果关联；分类和聚类就是根据需要训练相应的样本来对数据分类和合并；偏差分析用于对对象中异常数据的检测。1.1.4 大数据与数据挖掘大数据与数据挖掘大数据是近年随着互联网、物联网、通信网络以及人类社交网络快速发展的结果，成为一个交叉研究学科，和数据挖掘紧密相连。一方面大数据包含数据挖掘的各个阶段，即数据收集、预处理、特征选择、模式挖掘、表示等；另一方面大数据的基础架构又为数据挖掘提供上层数据处理的硬件设施；最后大数据的迅速发展也使得数据挖掘对象变得更为复杂，不仅包括人类社会与物理世界的复杂联系，还包括呈现出的高度动态化。这使得很多传统数据挖掘算法不再适用，

22、传统数据挖掘算法必须满足对真实数据和实时数据的处理能力，才能从大量无序数据中获取真正价值。5 王桂芹，黄道.数据挖掘技术综述C全国第 18 届计算机技术与应用学术会议论文集，2007 6 大数据具有 4V 特性，对 4V 特性的解释有多种，包括美国国家标准技术研究院 NIST 的解释：即规模庞大（Volume）、种类繁多（Variety）、增长速度快（Velocity）和变化多样（Variability）。IBM 给出了类似的解释，但 Variability变成了真实性（Veracity），后来将数据价值（Value）引入了进来，成为了大数据的 5V 特性。麦肯锡全球研究机构（McKinsey

23、 Global Institute）后来给出了大数据定义，综合了“现有技术无法处理”和“数据特征定义”定义，这也是目前比较公认的定义：即规模庞大（Volume）、种类繁多（Variety）、变化频繁（Velocity）和价值（Value）。大数据的快速发展极大的促进了数据挖掘领域的发展。1.2 数据挖掘知识图谱数据挖掘知识图谱本节分析了近年来数据挖掘领域的高水平学术论文，挖掘出了包括社交网络、大数据、情报分析、聚类分析、文本挖掘、用户行为、推荐系统、离群检测、专家系统等相关关键词近年来全球活跃的学术研究。此外，结合知识图谱技术，本报告将以上研究领域表示为三级图谱结构，具体分析和处理的方法如下

24、：1.使用自然语言处理技术，提取每篇论文文献的关键词，据此，结合学科领域知识图谱，将文章分配到相应领域；2.依据学科领域对论文文献进行聚类，并统计论文数量作为领域的研究热度；3.领域专家按照领域层级对学科领域划分等级，设计了三级图谱结构，最后根据概念热度定义当前研究热点。下图是数据挖掘二级知识图谱的可视化表示，三级详细数据可以参见本报告附录，或到 https:/ 中直接下载原始数据。7 图 3 Data Mining 知识图谱 1.3近年近年SIGKDD概况概况国际知识发现与数据挖掘大会（ACM SIGKDD Conference on Knowledge Discovery and Dat

25、a Mining，简称 SIGKDD）是数据挖掘领域的顶级国际会议，由ACM 的数据挖掘及知识发现专委会负责协调筹办。会议内容涵盖数据挖掘的基础理论、算法和实际应用，SIGKDD 主会期间，除了学术研究论文，自 2010 年起还设有面向工业和政府应用的专题研讨会，以及工业应用博览的邀请报告会。SIGKDD 发展的历史可以追溯到 1989 年，一系列关于知识发现及数据挖掘的研讨会从那时开始组织。自 1995 年以来，SIGKDD 以大会的形式连续举办了24 届，论文的投稿量和参会人数呈现出逐年累增的趋势。由于 SIGKDD 的学科交叉性和广泛应用性，吸引了来自统计、社会网络分析、机器学习、大数据

26、挖掘、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互及高性能计算等众多领域的学者。SIGKDD 每年的大会都会吸引大量的研究界和工业界的投稿。图 4 和图 5 分别给出了 KDD 近几年研究性论文（Research Track）和工业界论文（Industrial Track，最近改为 Applied Data Science Track）的投稿和录用情况。总的来说研究性论文投稿相对比较稳定，录用率也一直在 14%-20%之间；而工业界论文近年呈现明显快速增长趋势。尤其 2018 年达到近 500 篇投稿。投稿录用率也降到 20%8 以下。这与近年深度学习、人工智能、大数据等相关算法

27、在工业界大量应用密不可分。图 4 2013-2018 KDD 研究性论文投稿与接收情况图 5 2013-2018 KDD 工业界论文投稿与接收情况下面就近几年 SIGKDD 大会分别做一个简单概述，相信读者能够对整个SIGKDD 乃至数据挖掘领域有个更深入的了解。（1）SIGKDD 2013 2013 年 8 月 11-14 日，第 19 届知识发现与数据挖掘大会（SIGKDD 2013）在美国芝加哥召开，此次大会的主题是大数据挖掘。SIGKDD 2013 大会的主席是前通用汽车高级研究经理 Ramasamy Uthurusamy 博士和伊利诺伊芝加哥大学的

28、 Robert L.Grossman 教授，研究性程序委员会主席由来自德克萨斯奥斯丁大学的 Inderjit S.Dhillon 教授和 Google 的Yehuda Koren 博士担任，另外有 50 名高级程序委员会委员和 300 名程序委员负责论文评审。吸引了来自全球 50 多个国家 1200 多人参加。7261036819784748983125151160142130181-40.0%-20.0%0.0%20.0%40.0%60.0%020040060080010001200201320142015201620172018Research Tracksubmittedaccepted

29、SUB annual growthACC annual growth1361971893313904963444686686112-20.0%0.0%20.0%40.0%60.0%80.0%0100200300400500600201320142015201620172018Applied Data Science TracksubmittedacceptedSUB annual growthACC annual growth 9 SIGKDD 2013 大会收到来自 50 多个国家的 726 篇论文投稿，每篇文章由至少 3 名审稿人评审，然后由相应领域的高级程序委员协调讨论并推荐，最后由程序

30、主席决定是否接收。最终录用论文 125 篇（录用率约 17.2%），其中大会报告论文 66 篇（仅 9.1%）、张贴报告论文（Poster Presentation）59 篇。SIGKDD 2013大会邀请了微软的Raghu Ramakrishnan、斯坦福的Andrew Ng、威斯康辛的 Stephen J.Wright 以及 Google 的 Hal Varian 四位在产业界与学术界均产生重要影响的专家进行大会主题报告。SIGKDD 2013 的具体获奖情况如下：l 最佳研究性论文最佳研究性论文最佳论文奖最佳论文奖 Simple and Deterministic Matrix Ske

31、tching 简易及确定性矩阵草图作者作者：Edo Liberty 摘要摘要：该论文研究的问题是针对给定的矩阵 A，如何能找到一个更小的压缩矩阵B对原矩阵A进行估计，这是基于社交网络大数据分析中的一个关键问题。地址地址：https:/ 最佳论文奖第二名最佳论文奖第二名 Querying Discriminative and Representative Samples for Batch Mode Active Learning 批量模式主动学习的查询判别样本和代表性样本作者作者：Zheng Wang，Jieping Ye 摘要摘要：他们解决了在主动学习中如何能够挑选同时具有代表性又具有区

32、分性的样本。地址地址：https:/ 最佳学生论文奖最佳学生论文奖 A space efficient streaming algorithm for triangle counting using the birthday paradox 一种利用生日悖论的空间高效三角形计数流算法作者作者：Madhav Jha、C.Seshadhri、Ali Pinar 10 摘要摘要：该论文设计了一种节省空间的算法，该算法近似于传递性（全局聚类系数）和总三角形计数，只有一次通过作为边缘流给出的图形。模型基于经典的概率结果，即生日悖论，作为单通道流式算法，通过存储极小部分的边缘来维持图的三角形的传递性/数

33、量的实时估计。地址地址：https:/ 最佳学生论文奖第二名最佳学生论文奖第二名 Recursive Regularization for Large-scale Classification with Hierarchical and Graphical Dependencies 具有层次结构和图形依赖性的大规模分类的递归正则化作者作者：Siddharth Gopal、Yiming Yang 摘要摘要：该篇论文的目的是为大范围的层次分类，提出一种规则化框架，一次解决两个问题：1.利用 class-labels 间的层次依赖性提升性能；2.同时保持大规模的层次间的可扩展性。地址地址：http

34、s:/ l 最佳工业界与政府论文最佳工业界与政府论文最佳论文奖最佳论文奖 Amplifying the Voice of Youth in Africa via Text Analytics 通过文本分析放大非洲年轻人的心声。作者作者：Prem Melville 及 UNICEF 的多名研究人员摘要：摘要：他们的课题是通过文本分析，让世界听到非洲的年轻一代发出的声音，从某种程度上也体现了 KDD 注重将数据挖掘用于为世界公益做出贡献的精神。地址地址：https:/ 最佳论文奖第二名最佳论文奖第二名 Query Clustering based on Bid Landscape for Sp

35、onsored Search Auction Optimization 基于竞价格局的查询聚类对赞助搜索竞价优化作者作者：微软公司以 Ye Chen 为代表的一众人摘要摘要：集群查询更小但更有效的微市场，定义为基于集群的拍卖参数。11 地地址址：https:/ l 最佳博士论文最佳博士论文最佳博士毕业论文最佳博士毕业论文 Mining Heterogeneous Information Networks 挖掘异构信息网络作者作者：Yizhou Sun 博士，其导师为韩家炜（Jiawei Han）教授摘要摘要：论文从许多将互连数据视为同构图或网络的现有网络模型中，研究了挖掘异构信息网络

36、的原理和方法，半结构化异构信息网络模型利用了类型化节点和链接的丰富语义。这种半结构化异构网络建模为挖掘互联数据提供了一系列新原则和强大的方法。地址地址：https:/ 最佳博士毕业论文第二名最佳博士毕业论文第二名 Machine Learning in Health Informatics:Making Better use of Domain Experts 健康信息学中的机器学习：更好地利用领域专家作者作者：Byron Wallace 博士，其导师为 Carla Brodley 教授。摘要摘要：此次他们集中关注了临床信息学和具有大量信息的典型案例，发现因为临床信息学内在特性的原因，解决相

37、关问题需要专业领域的知识，而该领域现有的机器学习技术普遍性能表现较弱。该论文目的旨在使用新奇的机器学习与数据挖掘方法，让现实世界中的学习系统更加有效率。地址地址：https:/ l SIGKDD创新和服务大奖创新和服务大奖创新贡献奖：创新贡献奖：Jon Kleinberg（康奈尔大学）（康奈尔大学）2013 年创新奖（Innovation Award）由康奈尔大学的 Jon Kleinberg 教授获得，以表彰他在社交网络和信息网络分析中的传递行为以及用户个体行为建模方面的工作。Jon Kleinberg 是社会网络分析方向的知名学者，三十余岁时即当选为美国科学院、工程院、艺术与科学院院士，

38、代表算法是 HITS。SIGKDD 创新奖是知识发现与数据挖掘领域（KDD）的最高荣誉，授予对这一领域做出重大技术贡献的研究人员。根据评审要求，其研究成果必须在数据挖 12 掘理论或商业数据挖掘系统的开发上能够产生深远的影响。这是 SIGKDD 每年最重头的奖项，也是数据挖掘领域最高技术奖项。服务贡献奖：服务贡献奖：Gabor Melli（索尼互动娱乐）（索尼互动娱乐）2013 年杰出服务奖（Service Award）由 Gabor Melli（索尼互动娱乐）获得。Gabor Melli 博士因其对数据挖掘实践和应用的重大技术贡献，以及对全球 KDD社区的杰出服务而受到表彰。他长期为 KDD

39、社区服务，从 1997 年开始，他在上发布了合成数据集生成器。在 2005 年，他与伙伴共同创立了数据挖掘案例研究研讨会系列（），并成为 SIGKDD信息总监。从那时起，他参与组织了许多 KDD，ICDM 和 CIKM 国际会议，担任出版主席，研讨会主席，赞助主席，竞赛主席，展览主席和演示主席等职务，同时担任 KDD，CIKM，PAKDD 的评委和 ACM 计算调查。2013 年，Gabor Melli博士启动了一个半自动创建广泛的KDD概念网络知识库（杰出服务奖主要授予在知识发现及数据挖掘领域作出重大服务贡献的个人或团队，包括主办会议、主持学术团

40、体等服务性工作，并在数据挖掘教学及财务性事务等方面的工作。该奖主要奖励对知识发现及数据挖掘领域作出重大服务贡献的个人或团队，考察的因素主要包括主持学术团体、主办会议等服务性工作，教育学生、研究者和实践者，资助研发活动，为传播技术信息提供专业志愿服务，并通过知识挖掘应用为社会做出贡献，改善全球性医疗、教育、灾难危机管理及环境等议题。l KDD CUP竞赛竞赛第一名：Algorithm 队第二名：Dmitry&Leustagos&BS Man 队 KDD CUP 2013 由微软的学术搜索系统提供数据集，共开设两个专题，任务分别是识别作者与论文的对应关系，和作者的名字消歧，分别吸引了 561

41、和 241支队伍参赛。最终两个专题的冠军皆被国立台湾大学的林智仁教授、林守德教授和林軒田教授带领的团队斩获。（2）SIGKDD 2014 2014 年 8 月 24-27 日，第 20 届国际知识发现与数据挖掘大会（SIGKDD 2014）在美国纽约市召开。本届大会的主题为“Data Science for Social Good”（数据科学推动社会进步），旨在呼吁和推动数据科学家投身和致力于解决实际社会问题。13 本届大会的主席由 Facebook 公司的数据科学家 Sofus Macskassy 博士和Dstillery 公司的首席科学家 Claudia Perlich 博士共同担任，研究

42、性程序委员会主席由斯坦福大学 Jure Leskovec 教授和加州大学洛杉矶分校的 Wei Wang 教授共同担任，工业界程序委员会委员会主席由芝加哥大学 Rayid Ghani 教授（曾任奥巴马政府首席科技顾问）和 Social Alpha 创始人兼首席执行官 Prem Melville 博士共同担任。吸引了 2320 人注册参加。SIGKDD 2014 共收到 1036 篇研究性论文和 197 篇工业和政府应用性论文投稿，双双高于 SIGKDD 2013 相应投稿数量的 40%以上。每篇投稿文章由至少 3名审稿人评审及 1 名相应领域的高级程序委员协调讨论并推荐，最终由程序委员会主席决定

43、是否录取。在 46 名高级程序委员和 340 名评审人的共同努力下，本次大会最终录取 151 篇研究性论文（录用率约 14.6%）和 44 篇工业和政府应用性论文（录用率约 22%）。中国大陆学者作为第一作者在本届大会共发表 13 篇相关研究论文，作者来自清华大学、南京大学、浙江大学、上海交通大学、中国人民大学、吉林大学等科研院校，共有 80 余位大陆学者参加了 SIGKDD 2014。SIGKDD 2014 邀请了艾伦人工智能研究所首席执行官 Oren Etzioni 博士，微软雷蒙德研究院院长 Eric Horvitz 博士，伊坎基因组织学和多尺度生物学研究所所长 Eric Schadt

44、博士，哈佛大学经济系 Sendhil Mullainathan 教授以及彭博资讯公司首席执行官 Dan Doctoroff 先生进行大会主题报告。SIGKDD 2014 除了经典的最佳论文、最佳学生论文等奖项外，还设置了与会议主题有关的论文奖项，具体的获奖情况如下：l 最佳研究性论文最佳研究性论文最佳论文奖最佳论文奖 Reducing the Sampling Complexity of Topic Models 减少主题模型的采样复杂度作者作者：Aaron Q.Li、Amr Ahmed、Sujith Ravi 及 Alexander J.Smola 摘要摘要：该论文研究如何降低主题模型求

45、解过程中的采样复杂度，其提出的算法比传统方法提高一个数量级的时间复杂度。地址地址：https:/ 最佳学生论文奖最佳学生论文奖 An Efficient Algorithm For Weak Hierarchical Lasso 弱层次套索的一种有效算法作者作者：Yashu Liu、Jie Wang、Jieping Ye 14 摘要：摘要：分层套索是一种有效的方法，用于规范试图捕获非线性特征交互的模型的参数。本文提出了解决使用这种正则化器时出现的非凸性的算法。地址地址：https:/ l 最佳主题论文最佳主题论文 Targeting Direct Cash Transfers to the

46、Extremely Poor 定位极度贫困人口直接发放现金作者作者：Enigma、Give Directly 的研究者们摘要摘要：他们的论文主要针对社会问题，通过分析肯尼亚贫困村庄的卫星遥感数据来鉴别极度贫穷家庭，以此为根据为他们提供无条件的人道主义关怀和金钱资助。地址：地址：https:/ l 最佳工业和政府论文最佳工业和政府论文 Style in the Long Tail:Discovering Unique Interests with Latent Variable Models in Large Scale Social E-commerce 长尾设计：在大型社交电子商务中通过

47、潜在的变量模型发现独特的兴趣作者作者：Diane J.Hu，Rob Hall 和 Josh Attenberg 摘要：摘要：该论文描述了在 Etsy 站点上部署两个基于样式的新推荐系统的方法和实验。其使用了 Latent Dirichlet Allocation（LDA）来发现 Etsy 上的趋势类别和样式，然后用它们来描述用户的“兴趣”配置文件。还探索了散列方法，以便在 map-reduce 框架上执行快速最近邻搜索，以便有效地获取建议。这些技术已经成功实施，大大改善了许多关键业务指标。地址：地址：https:/ l 最佳博士论文最佳博士论文 Reconstruction and Appl

48、ications of Collective Storylines from Web Photo Collections 将来自网页照片集合中的集合故事线重构、应用作者作者：Gunhee Kim 博士，其导师为 Eric Xing 教授 15 摘要摘要：该论文的目标是通过联合推断图像集的时间趋势和重叠内容，来创建集体故事情节，还利用重建的照片故事情节，来探索新颖的计算机视觉和数据挖掘应用程序。提出了分支故事情节图的重建算法。地址地址：https:/ l 时间检测奖（时间检测奖（Test of Time，也就是十年最佳论文），也就是十年最佳论文）SIGKDD 大会从 2014 开始设立 Tes

49、t of Time 最佳论文奖，旨在表彰过去 20年 KDD 大会上发表得有重大影响力的优秀论文，该奖项最初两年各颁发给三篇论文，之后将每年颁发给一篇论文。以下三篇论文在 2014 年获此殊荣：A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise(KDD 1996)一种基于密度的具有噪声的大型空间数据库集群发现算法作者：作者：Martin Ester、Hans-Peter Kriegel、Joerg Sander、Xiaowei Xu 摘要：摘要：该论文提出的 DBSC

50、AN 算法对基于密度的聚类算法产生了巨大的影响，并已成为聚类算法中公认的重要算法之一。地址地址：https:/ Integrating Classification and Association Rule Mining(KDD 1998)集成分类和关联规则挖掘作者作者：刘兵、Wynne Hsu、LinkedIn 公司的 Yiming Ma 摘要摘要：该论文率先提出了整合关联规则和分类算法来帮助数据挖掘分类的思想，该方法激发了一系列后继工作的发展。地址地址：https:/ Maximizing the Spread of Influence through a Social Network(

展开阅读全文