1、大数据助力社会科学研究:挑战与创新沈浩黄晓兰关键字:大数据时代数据科学网结科学 数据挖掘 社会科位 社交网络 微博 摘要:大数据时代己经来临,如何从海量数据中发现知识,寻找隐藏在数据中的模 式、趋势和相关性,揭示社会现象与预知社会发展规律,需要我们拥有更好的数 据洞察力。随着社交网络、移动互联网和物联网的兴起,大数据会越变越大,网 络科学和数据科学提供了新的科学发展观和方法论。大数据对社会生活、媒介生 态和商业带来机遇与挑战是颠覆性的,大数据带来社会科学研究的春天,我们必 须拥抱大数据,拓展新闻传播研究新弱界,勇于创新,迎接挑战。“这是一个令人兴奋的时代,也是一个大数据的时代,数据科学让我们越
2、来 越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着人 类的未来,但并非是数据本身改变了我们的世界,起决定作用的是我们对可用知 识的增加”。这段话是笔者为全球复杂网络权威,“无标度网络”创立者巴拉巴西 (Albert-Laszlo Barabasi)在暴发一书中文版发行所撰写的推荐语。该书提 出:“人类行为93%是可预测的”,这是大数据时代背景下预见未来的新思维,阐 述了如何从大数据中塑造未来美好世界的正能量。大数据时代已向我们走来,什么是大数据(Big Data) ?它将如何改变我们 的社会生活?对政府管理、商业活动、媒介生态、个人生活将产生怎样深刻的影 响?我们该如何拥
3、抱大数据?大数据热已经成为不争的事实,但是围绕着大数据 的相关概念、社会影响、未来趋势,特别是针对信息时代的社会化媒体发展和变 革,我们该如何获取数据,分析并应用它来解决社会和商业问题,己成为学术界 和实业界面临的新机遇与挑战,特别是在社会科学领域,如何拥抱大数据,迎接 大数据时代的变革与创新,大数据都将助力于社会科学研究。和深度学习等跨学科领域都迎面而来。可以这么说,不懂数据挖掘的人是不会大 数据分析的。6. 大数据与新闻传播学研究传统的社会科学研究,包括新闻传播学研究,有一个共同的特点:研究使用 的都是随机抽样的属性数据。在研究影响关系的时候,所有的影响因素都来自个 人的属性,而脱离了他所
4、处的群体。哥伦比亚大学的一位社会学家艾伦巴顿曾 经写过这样一段话来描述社会科学的主流研究。在过去30年,经验性的社会 研究被抽样调查所主导。从一般的情况而言,通过对个人的随机抽样,调查变成 了一个社会学的绞肉机将个人从他的社会情景中剥离出来并确保研究中没 有任何人之间会产生互动。如果我们的目的是理解人类的行为而不是仅仅记录 它,我们就需要了解凝聚群体、邻里、组织、社交圈、社区,以及互动、沟通、 角色期望、社会控制。巴顿写下的这段话在传播研究中也是正确的,主流的研 究总是关注人们的个体行为,不考虑行为的社会方面,也就是人们之间的互动和 对彼此的影响。当然这一方面受制于社会科学的实证研究方法论,也
5、受制于采集 关系数据的巨大成本和不可操作性。但是今天的大数据时代,社会化媒体,特别 是微博的广泛应用,使得基于社会网络的关系数据唾手可得。微博构建的社交网 络既是技术也是平台,是一种微媒体,它拓展了我们与社会其他人联系的能力。当我们回顾传播学研究的历史,你会发现,曾有一些研究学者试图从关系的 角度去理解传播。例如瑞恩和格罗斯20世纪30年代在艾奥瓦进行的杂交玉米 种研究,他们实际上是研究一种创新在社区的扩散研究。这项研究的资料后来帮 助罗杰斯重新发现了社会计量学,并从结构的视角开展研究,还培养出了一大批 社会网络分析的重要学者。在20世纪50年代中期,哥伦比亚大学的一些社会 学家提出了一般性的
6、社会网络观念,他们的领导者就是拉扎斯菲尔德。在伊利县 研究中发现了人际传播对选民决定的影响,并提出了信息先经过大众传播到意见 领袖再经过人际传播至一般受众的“两级传播理论,同时界定并区分出意见 领袖”的概念。关注在把个人关联在一起的各种交往,体现了一种结构性视角。 大数据的显著特征来自网络和社会化媒体的数据,社会网络传播意味着打破大众 媒体传统的传播方式,大数据能够扑捉并挖掘人际传播路径和传播过程,可以分 析社交网络中的每一个个体的位置角色以及行为态度。大众传播效果的实现最终 也以经由人际传播产生效果。大数据分析我们需要思考以社会人之间的互动研究为基础的结构性方法,这 种方法被称为社会网络分析
7、,它基于一个直觉性的观念,行动者嵌入在其中的社 会关系的模式,对于他们的行动结果有着重要的影响。社会网络分析的对象并不 是传统的属性数据,而是一种通常用矩阵表示的关系数据”,注重数据的图形 可视化表现,以及依赖于数学模型和计算机的使用。实际上,传播学正在经历着 一个从定性研究到定量研究,从简单分析到复杂处理,从属性数据到关系数据的 研究范式和方法论思考过程。社会科学研究在大数据背景下可以将原子论和整体 论融合与统一,形成新的研究范式,注入更具自然科学研究的色彩。7. 大数据的应用与社会影响美国政府在911后启动了大规模数据挖掘项目,去年奥巴马政府提出了大 数据战略,反恐和挖掘恐怖分子及网络成为
8、大数据应用的经典案例。美国能源机 构根据每个家庭用电数据,为每个家庭提供能源使用报告,分析该家庭与周边或 同类家庭能源使用情况比较,由此带来整个社会的能源节约。大数据的简单算法 比小数据的复杂算法更有效,Google和Facebook的成功,其经营模式并非建 立在硬件或软件基础上,而是拥有用户大数据和挖掘数据的能力。大数据时代诞生和即将催生很多创新产业,重构甚至颠覆某些行业的传统产 业链。基于移动互联网的智能终端APP应用、物联网和社会化媒体原则上讲都 是云计算和大数据应用。不久前淘宝与新浪微博的战略合作将大数据的可能商业 应用和发展前景推向产业前端,进一步掀起了大数据产业的新高潮。从一定意义
9、 上讲,大数据应该是国家战略,大数据是一种社会公共资源。但是当今大数据更 直接的影响是对商业模式和企业运营的改变,基于大数据分析的数据库营销和精 准营销成为企业重要的营销手段,越来越多的企业认识到了数据挖掘的价值,将 大数据处理能力作为最重要的核心竞争力。社会征信稽核、税收欺诈、银行欺诈 侦测,电子商务个性化服务,个性化推荐技术、搜索引擎的精准营销、广告实时 竞价等大数据应用越来越广泛,随着可穿戴技术,社交网络会深入和影响社会生 活方方面面。如果我们能够分析每一个个体,进行社会计算,我们就可以预知社 4Zxo大数据时代的海量数据是信息技术为主的互联网产业、传媒产业下的新媒体 和移动通信产业不断
10、融合和新技术发展的结果。大数据的商业应用广泛而深远, 会带动一系列产业发展,催生新技术的快速推广和普及,例如云计算、移动互联 网、物联网、内存计算等,一些新的涉及大数据挖掘技术,例如文本挖掘、意见 挖掘、中文分词和NLP自然语言处理、神经网络算法、网络分析SNA、数据可 视化等。当然,大数据在一定程度上更多的应用价值来自社交媒体,特别是以新 浪微博为代表的微媒体背景下的大数据商业应用和社会影响。尽管新浪微博的商 业模式并不明朗,但微博营销已成为最显著、最直接的大数据应用。社会化媒体 是一种重要的营销工具,它是企业发布信息和影响消费者,并收集反馈信息与之 互动的重要渠道。社交网络传播意味着打破了
11、大众媒体传统的传播方式,针对特 定的目标群体,通过关键的Hub节点关键成员,传递特定的信息,以影响 舆论和购买决策的形成。如何从海量的关系数据中发现有价值的信息、建立精准 营销的目标客户、分析客户价值模型是很多企业关注的问题。企业对社会化媒体 的认知和投入,将催生新媒介形态与产品营销思路。另一方面,大数据对社会科学,特别是传播学研究带来革命性的变革和研究 方法论上的创新。特别是微博重塑了社会关系总和,微媒体产生的微动力在一定 程度上改变了媒介生态环境,舆情和谣言的信息传播经由社会网络在大数据条件 下可以采用网络科学的结构性角度扑捉整个传播路径、传播模式和传播过程。对 信息扩散过程全貌的分析与剖
12、析是研究大数据挖掘中信息(谣言)传播过程更为 扎实且具体的方法。从整个信息传播系统的角度考察信息传播或谣言形成、扩散 与消失的过程,实际上就是将信息置于整个传播生态的背景下,通过对微观个体 的多样性与差异性来建模,再现信息传播的演化过程,深入分析信息传播过程中 的各种属性因素,特别是思考网络关系和传播结构等因素的影响,对于建立正向 反馈与应急传播机制具有实际的社会意义,比如,我们将实现有效阻击谣言通过 人际传播在网络中形成的自组织现象,避免在自组织的临界状态下导致舆情的发 生和突变。社交网络产生的大数据,可以让我们从关系视角构建人际传播和结构 主义研究范式,可以在微观与宏观的分野间架起传播结构
13、与传播网络研究的桥 梁。大数据将助力传播学新的研究范式和方法论。尽管我们目前对人类传播行为方式理解极为有限,而且传播过程中的个体行 为多样善变,借助大数据,我们仍然具备识别其多个个体所构成的受众群体的传 播行为模式的能力。也就是说,尽管我们面对着个体的受众有其自由的个性化, 我们还是能够对社会整体进行预言,甚至我们也可以对个人传播意图和行为能够 自由到何种程度有所感知,由这些个体所构成的整体网络会呈现一定的传播模式 和传播效果,这对于制定宣传策略、了解传播效果的研究将颇有帮助。8. 大数据带来的一系列问题和思考当然,大数据不仅仅带来商业和社会正能量,也同时带来了一系列重大社会 问题,网络安全和
14、个人隐私成为大数据时代人们极为关心的个人和社会问题。个 人隐私,不同的人可能有不同的理解,每个人都有自己的容忍限度。一些人不愿 意让别人知道自己的任何信息,希望自己的隐私孤立于社会或公众的注意之外, 免受打扰,不想被公开或不受大众控制,而另一些人却希望自己生活的每一个细 节都展示给世界。在一个相互联系的网络社会,完全自由的那个人是不存在的。 政府在大数据时代面对新技术的出现,需要制定更为明确和严格的法规条例,规 定每个公民必须服从一套简单的规则,这些规则必须被强制执行。每个人必须受 到社会规范和制度控制,且公民要树立隐私保护意识。大数据和相关技术在定义 隐私、保护隐私和侵犯隐私方面都扮演着重要
15、角色。我们要把数据作为资本、劳动力和自然资源之外的第四种生产要素。尽管大 数据的定义还没有统一,其实统一的定义并不重要,最重要的是揭示大数据时代 数据决策对社会和商业的影响和机遇。如果你不能量化一个事物,你就不能理解 它,不能理解也就不能控制,控制不了也就无法改变。大数据的基本特征和商业 应用是关于社会科学领域的传播现象和规律特点,以及可能应用的前景。无论是 从社会网络到信息传播网络的大数据应用,还是从人际口碑传播到国家之间的相 互联系,我们都是大数据的一部分。大数据分析思想已经推广到了社会科学研究的多个学科领域。当今社会是网 络化和数据化的,只要我们生活在社会中,我们就不得不同网络打交道。大
16、数据 可以让社会更民主,传播网络可以帮助我们获得大规模的言论分享度,无论赞同 还是反对,无论我们想不想与大数据牵扯到一起,数据都会找到我们,覆盖我们。开放的社会,美好的心灵,大数据时代的崛起,我们必须勇于面对,热情拥 抱大数据,迎接大数据的挑战。1. 大数据时代到来了美国奥巴马政府率先提出国家大数据战略,而徐子沛所著大数据一 书,阐述了正在到来的数据革命,以及如何改变政府、商业和我们的生活。该书 封面写到:“除了上帝,任I可人都必须用数据来说话。中央电视台对话栏 目播出了被誉为大数据时代的预言家”的维克托专题节目,其所著大数据时 代提出了一场生活、工作与思维的大变革。我们必须拥抱大数据,生活在
17、社会 中,就不得不与数据打交道,我们也是数据的一部分,无论我们想不想与大数据 牵扯在一起,数据都会找到我们,覆盖我们。大数据时代已经来临,如何从海量 的数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示社会现象与 社会发展规律,以及可能的商业应用前景,都需要我们拥有更好的数据洞察力。 其实,笔者也没见过大数据,我们更愿意说这是一个大数据时代,或许是大数据 太热了,不同学科背景的人都在谈论,特别是人文社会学者、商界人士都在谈论, 说明大数据时代到了,全球已经点燃了大数据时代。2. 什么是大数据到底什么是大数据(Big Data) ?维基百科(Wikipedia )提到:大数据就 是这样一
18、种数据集,它特指用现有通用软件在可容忍的时间内无法加工、处理和 分析的数据就是大数据。今天度量数据存储的大小已经到了 Tb级和Pb级,甚 至到了 Eib级(2的60次方)。但数据量的巨大并不是大数据的唯一特征,在 一定条件下,对个人而言是大数据,对企业级应用就是中数据,对移动和淘宝可 能就是小数据,对谷歌和百度可能不算数据了。所以有一种说法:大数据就是越 来越大的数据。现在比较流行的一种大数据说法叫3V或4V理论,强调大数据 的数量(Volume )、类型(Variety )、速度(Velocity )、可用性(Veracity) 或价值(Value )。当然,大数据的定义,甚至概念界定至今并
19、没有得到学界或 业界的统一,不同专业领域,不同学科背景,不同应用场景都有着不同侧重点的 阐释。其实大数据这个概念没有流行前,我们就面临着海量数据的处理问题,所 以在一定程度上大数据概念落地就是早年的数据挖掘(data mining ),是指从 海量数据中发现知识的过程,也称为KDD ( Knowledge Discover in Database )。数据挖掘(Data Mining )就是从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程。进一步狭义的定义就是利用自动或半自动手 段,采用统计技术和机器学习方法,
20、从大型数据库中揭示海量数据中有意义的潜 在规律和提取人们感兴趣的知识的处理过程。数据挖掘技术经历20多年的发展 已经基本成熟,有着一套完整的方法论和挖掘软件工具,但是其狭义的定义和解 决问题的工具方法并不容易被业界掌握和诠释。在一定程度上说,大数据概念只 是点燃了数据挖掘的社会意义和应用价值,今天的大数据是泛化了的数据挖掘。 所以我们更愿意说这是一个大数据时代,但大数据所具有的特征和对社会的影响 却是巨大而深远的,特别是在社会科学领域,大数据带来的变革和挑战是颠覆性 的,显著特征就是人类社会的数字化生存,社会化媒体使得人们的社会生活,行 为态度、交往过程、互动关系都被数据记录并保存下来,这为社
21、会科学研究和预 知社会产生革命性影响,大数据带来了社会科学研究的春天。3. 大数据的基本特征多带来不同,大数据具有最显著特征之一就是多带来不同。传统的思维方式 更倾向于线性思维,线性的就是直线的,直线的就是简单的因果关系。我们已经 进入一个复杂科学领域,随看云计算、云存储、物联网、二维码技术和LBS(基 于位置的服务)的互联网技术广泛应用,人类的各种社会互动、沟通设备、社交 网络和传感器正在生成海量数据。商业自动化导致海量数据存储,但用于决策的 有效信息又隐藏在数据中,如何从数据中发现知识,以数据挖掘为代表的大数据 分析技术应运而生。社交网络数据源,大数据真正的兴奋点来自于社交网络,比如国外的
22、 Facebook和Twitter,国内近年来兴起的微博,特别是新浪微博,这种具有媒 介属性的社会化媒体,每天每秒都在产生亿级的文本话语。人天生需要与他人交 流和传播信息,基于信息传播的关系数据,为大数据的社会影响带来无限想象力 和商业应用价值,大数据产生的背景离不开社交网络、移动互联网和物联网的兴 起,大数据会越变越大,具有边收集、边应用、边生产的特点。开放性、公开、易获得,大数据的开放性和公开易获得是大数据兴奋的另一 重要特点,大数据的产生并非是为了分析去存储,而是商业过程自动化产生并存 储下来。过去的大数据往往存在于特定的政府、企业和机构。例如,移动电信公 司拥有客户的电话沟通记录,电子
23、商务网站拥有众多消费者的购物信息,互联网 的cookie技术记录了网民的行为,但这些数据都属于企业内部,并不易被第三 方获得,海量数据的挖掘也仅仅是帮助企业解决自身运营问题,揭示企业运作中 的内在规律,为企业运营提供商业智能和决策支持,并为企业带来巨大经济效益。 但是今天Twitter和微博每天产生的大数据可以在一定规则开放性下,通过应用 程序接口 ( API)和爬虫技术采集,一些商业机构和政府组织也向社会研究机构 提供各种海量数据源,特别是美国政府开始提供权威开放数据源Data.gov等开 源数据。与此同时国内外众多机构开始采集海量Twitter和微博上的传播信息和 个人属性特征和标签,期望
24、预测社会舆情和社会情感、预测电影票房、预测商业 机会,进而期望预测人们的态度和行为。开放的公开易获得数据源是大数据时代 的基本特征和产生社会影响本质。重预测爱社会,预测是大数据的重要特征。科学重在了解而非预测,但在大 数据时代,任何行业预见未来的能力都是企业的杀手铜。最近人们津津乐道的美 国在线电影电视下载服务Netflix公司推出纸牌屋,就是通过其拥有近3000 万用户的播放”(包括暂停、倒退和快进等动作),依据其注册用户的400 万次评级、300万次搜索,根据受众在Netflix上对电影电视节目贴上的不同标 签(tag),从演员、导演、情节、题材类型等诸多方面,分析受众观看视频的 时间和设
25、备,通过海量数据挖掘,知道人们喜欢看什么。该剧播出大获成功,对 用户数据的细致入微的理解改变了电视产业的运作方式,它用逻辑和计算取代了 依赖传统和直觉的生产方式,通过大数据分析制作原创内容,因为它能先于受众 知道人们想要看什么。更经典的案例来自于一个商家可以比父亲更早知道未成年 女儿怀孕,因为商家根据女儿的购物行为预测到可能怀孕而邮寄相关宣传品。人 们津津乐道的大数据应用都是预知社会问题,是数据背后的人的问题,所以说大 数据更偏爱社会科学领域。重发现非实证,传统的实证研究,强调在理论的前提下建立假设,收集数据, 证伪理论的适用性,采用随机抽样的定量调查问卷获取数据,验证假设,你不问 的问题被访
26、者也不会回答。这是一种自上而下的决策和思维过程。大数据时代重 在发现知识,预知未来,为探索未知的社会现象带来机遇。这种预见性是一种自 下而上的知识发现过程,是在没有理论假设的前提下去预知社会和洞察商业趋 势、规律。经典的案例就是沃尔玛超市利用海量的购物篮交易数据,发现每到周 末男人去买婴儿尿布一般都会买啤酒的现象。一般说数据挖掘是在没有明确假设 的前提下去挖掘信息、发现知识,数据挖掘所得到的信息应具有先前未知,有效 和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的。重关系非因果,大数据重关系而不关心因果,问什么而不问为什么是另一个 重要特征。因果关系并非来自统计,而是来自研究者的理
27、论和假设。但是大数据 分析更关注数据的相关性测量和商业应用价值。大数据是发现那些不能靠直觉发 现的信息和知识,甚至是违背直觉的,有时候越是出乎意料可能越有商业价值。重全体轻抽样,大数据是商业自动化存储的数据,在软硬件满足的条件下可 以分析海量数据。随着存储和软硬件的经济性和工具的先进,海量数据的处理能 力得到提升,数据挖掘算法不断改进和丰富,特别是统计分析和机器学习的神经 网络建模技术发展,抽样并非是必要的手段和方法论。尽管大数据不一定是总体, 理论上讲再大的局部也没有随机抽样更具代表性,但是大数据分析技术也需要抽 样,随机抽样和过度抽样也是必要的建模过程和方法论。非结构化数据,数据挖掘要发现
28、那些先前未知、实用、有效的信息和知识, 往往更多来自非结构化数据,这是大数据时代的更为显著的特征。有一种说法, 地球上产生的数据只有10%的是结构化数据,90%的数据都是非结构化数据。 社交媒体,特别是微博产生的大量文本导致海量有价值信息隐藏其中,大数据分 析带来对中文文本挖掘的技术突破,如何从大量的文本挖掘中发现人们的行为、 态度和情感,文本挖掘和语义分析技术带来了大数据时代的社会情感挖掘,意见 挖掘和舆情监测的需求和商机。与此同时,传统IT行业面对非结构化的大数据 存储、抽取和转换提出了新的需求和变革,大数据时代的各种Hadoop集群、MapReduce和NoSQL等非关系型数据库和IT新
29、技术日新月异。从一定意义 上讲,大数据落地就是近年来非常流行的数据挖掘(data mining )、文本挖掘 (text mining ) x网络挖掘(web mining )、NLP自然语言处理、机器学习 等IT和商业智能(Business Intelligence , BI)信息技术和决策支持系统的广 义概念和流行趋势,只是更强调对社会科学领域的应用。4. 大数据与社会科学社会科学研究的是人,以及人所在的群体、组织和相互关系。社会是由人和 关系组成的,而社交网络为人们提供了在线交流和传播信息,人们在线社会化生 活,社会化媒体形成新的媒介生态环境,社交媒体为人们构建了一张巨大的社会 网络且不
30、断演化,关键是这些信息都被记录下来,网络科学和社会网络分析成为 大数据分析的重要技术和方法论,网络科学让我们能够更好的观察到人类社会的 复杂行为模式。所以大数据更偏爱社会科学,从自然人到经济人,现在进入了社 会人的社会化生存,社会越来越个性化,意味着人越来越需要社会化。社会人是 因为他人的存在,你才成为真正的你。大数据时代重在研究网络环境下的社会人 的态度行为和社会影响,传统的社会平均人不是重点了,过去的数据分析更 多的给出是群体行为模式,北京人如何,大学生如何,高收入群体如何,现在我 们可以基于大数据分析和挖掘每一个人的社会行为,如果我们能够从大数据中扑 捉某一个个体行为模式,并将分散在不同
31、地方的信息数据,全部集中在大数据中 心进行处理,就能扑捉群体行为。所以,有种说法,大数据时代也是社会科学研 究的春天来了。社会科学的大数据洞察还在于小就是大,是重大的意思。在微博上一张图片、 一段博文或一个数字会产生重大舆情,甚至引发突发危机事件和社会公共事件。 特别典型的案例是微博上随手拍的一张照片,表叔事件就产生了,带来反腐 重大舆情,郭美美”的一条微博和注册信息带来了红十字会的公信力危机。在 大期居时代,社会科学理论更需要思考突变理论(catastrophe theory ),解决 人们如何理解微小作用导致社会突然变化的机理开拓道路;混沌理论(Chaos theory )提出了复杂而不断
32、变化的系统,即使其初始状态是详尽了解的,也会迅 速进入无法精确预知的状态;复杂性理论(Complexity theory )表明在大量 个体各自按照不多的几条简单规则相互作用时,解释如何从中产生出秩序与稳 定。这些理论和网络科学为大数据时代背景下的社会治理、舆情研究、传染病传 播、谣言传播、微博营销提供了理论基础。5. 数据科学和网络科学在一定程度上数据挖掘是在理论没有完全建构完善的基础上已经有了大量 商业应用的结果。大数据时代带来网络科学和数据科学等新兴学科的崛起和发展 机遇,数据科学家和数据分析等跨学科和复合型人才需求旺盛。大数据更多来自 社交网络,而社交媒体和传播网络记录了人们的社会生活
33、,不仅有每个人的属性 数据,更能够扑捉其社会关系,而新的研究范式强调探究社会规律的成因不取决 于个体的想法或意图,而应从个体所嵌入的社会结构中去发现规律。我们被困 在无法逃避的相互关系网络中,任何事情,如果直接地影响了一个人,就会间接 地影响所有人”,这种相关关系就是覆盖我们每个人的社会网络。网络科学 就是以网络为研究对象的学问,社会网络的研究对象就是社会中人与人之间构成 的社会关系的网络,特别是传播网络,研究的是传播过程中传受者之间的信息沟 通过程和传播关系。网络科学的重要成果就是在自组织机制下,社会网络会形成 具有小世界现象的服从无标度(Scale-free )分布的幕率分布(power-
34、law distribution )网络。幕律分布最典型的特征是在网络中存在少数但数量不可忽 略的具有巨大连接和强连接能力的节点,正是这些具有高的度分布(degree ) 取值的节点在社会网络动力演化中发挥着重要的作用。网络科学的无标度性是指 网络拓扑结构中边的连接的度分布服从幕律分布,该分布具有标度不变性。网络 科学正在与众多新兴科学,相互交融与推动,提供了大数据时代一种新的科学发 展观和方法论,它使得决定论与随机性、有序性与无序性、复杂性与简单性等, 又一次达到了和谐统一,帮助我们认识大数据的内在结构产生了新的飞跃,并且 成为大数据时代人们认识客观世界的有力武器。与此同时,数据科学(Dat
35、a Science )兴起,人们调侃说数据科学家成为 最抢手、最热门、最性感的职业。大数据时代需要有能掌控大数据分析能力的人, 他们应该能够寻找丰富的数据来源,在一定软硬件及带宽的限制条件下有能力处 理大量的数据,并能清洗数据,确保数据质量的一致性、唯一性和安全性,能够 构建大数据中心,融合不同数据源和数据类型的数据仓库拿握数据可视化技术, 且能构建丰富的软件工具,让别人能有效地处理数据。DJ帕蒂尔在描述数据科 学家的特征素质:1)拥有技术专长:在一些科学学科有深厚专业知识,2 )有 好奇心:勇于探索内在,发现和提炼问题,分解明确的可测试问题,3 )沟通: 使用数据能力,与内外沟通,讲故事,4 )创新和应用:在不同问题上有创造性 和掌握工具方式。大数据带来了新的数据分析要求,海量关系数据的数据库存储 和数据挖掘技术,数据建模方法论,中文自然语言处理,中文分词技术,语义分 析,情感或意见挖掘,舆情分析等,以及社会网络分析、数据可视化、机器学习