资源描述
从大数据到人工智能
从大数据到人工智能 从AlphaGo在围棋领域战胜人类选手后,启动人工智能的新纪元,人们对于人工智能的探讨还是基于概念的探讨和前景的展望上,则是人工智能如何落地的核心一年。从政府到公司,从分析机构到业界专家,几乎所有的公司和个人都将目光锁定到了人工智能上。从广义上讲,人工智能的应用已经非常广泛,各大新闻客户端会根据你的阅读爱好推送有关新闻、各大电商平台会根据你的购买习惯推送有关商品、几乎所有你浏览的网页所呈现的广告都与你的历史搜索有关……这些都可以称得上是人工智能。并且,与过去60年人工智能的发展重要集中在实验室里不同,新一轮的人工智能已经在诸多应用场景中发挥威力,应当说,新一轮的人工智能浪潮才刚刚开始。从云计算到大数据,人工智能已经具有了相对坚实的基本。其中,大数据称得上是人工智能赖以开展的生产资料,而云计算则是人工智能发展的生产工具。但是,从当下人工智能的发呈现状看,大部分的人工智能还停留在大数据分析阶段,距离真正的人工智能尚有一定的距离。如果说60年前人工智能概念的提出,多少有些科幻的成分,那么,今天人工智能概念的再次火热却带有强烈的现实意义。与以往人工智能凭借强大的算法(穷举)战胜人类不同,在围棋领域,人工智能呈现出了机器学习的能力。几乎所有的IT互联网公司,以及那些还在推动互联网+、数字化转型的老式公司,也开始谋求借助人工智能实现自身的转型升级,以人工智能为代表的新技术正在成为新的生产力。人工智能领域蕴含着极大的机会,也对老式产业带来的冲击。但如何推动人工智能的落地,将这些设想变成现实仍旧是一种难题。在这一过程中,云计算、大数据这两大技术正在人工智能的发展过程中扮演越来越重要的角色。云计算提供计算能力,起到了生产工具的角色;大数据提供数据基本,起到了生产资料的角色。从技术发展的逻辑讲,人工智能从云计算、大数据的角度切入,再合适但是;但从应用角度讲,如何通过云计算、大数据的应用,实现人工智能,仍旧还需要很长的路要走。应当说,人工智能与以往的技术概念炒作路线完全一致,也在经历从过度神化走向落地。而从行业应用的角度讲,那些天生对计算能力和数据规定较高的行业正在启动人工智能应用的大门。正如高通全球副总裁、创投董事总经理沈劲所说,人工智能已经进入下半场,下半场意味着其发展速度会比我们想象地快的多,人工智能已经可以迅速变革各个行业。这缘于人工智能所拥有的三大推动力:数据、网络、计算能力,它们各自都在以指数级的速度发展。而高盛首席经济学家JanHatzius也表达,将来人工智能技术将会全面驱动生产力的提高,犹如电力对各行各业的影响,人工智能将会进入到农业、金融、医疗、零售、能源等诸多行业中,机会巨大。从大数据到机器学习 人工智能发展渐入佳境尽管人工智能的新时代已经启动,但目前人工智能的发展和运用,还重要集中在大数据技术层面:通过对海量数据的分析,得出相应的数据规律,从而指引人们根据数据分析成果进行决策的优化,释放数据价值。正如创新工场CEO李开复曾讲到的那样,人工智能最初被使用到的场景就是大数据积累得比较好的场景。因此,诸多从事大数据分析的公司开始给自己贴上人工智能的标签,严格来说,这样做不免有蹭热点的嫌疑,却也合乎逻辑。如果把新一轮的人工智能发展重新界定,大数据技术的进一步应用可以算作是人工智能的1.0时代。基于对数据的分析、洞察数据的秘密,这里的主体仍然是人,而并非机器。但机器学习、深度学习的浮现,则让主体逐渐变成了机器,开始体现人工智能的真正意义。从人对数据分析到机器通过数据来学习,这样一种变迁的意义可谓深远,称得上是人工智能的2.0时代。但从目前人工智能的发呈现状看,只有很少的公司可以进阶到以机器学习为代表的人工智能2.0阶段。与大数据分析相比,机器学习的浮现,则是在大数据分析的基本上,对算法不断优化,让机器可以借助这些算法持续提高大数据分析的能力。这里的算法,就像是人类赋予机器的智慧和能力,从“授之以鱼”到“授之以渔”。从技术角度看,云计算、大数据到机器学习,人工智能的发展尽管迅速,但仍然处在线性发展阶段。真正高阶的人工智能,则是机器自身具有数据收集、整顿、分析的能力,并自主对算法进行调节和优化,自主做出判断和决策。这样的人工智能才称得上是人工智能的3.0时代,也更接近人们抱负中的人工智能。而从应用角度看,李开复也给出了自己的判断:将来10~人工智能将按照如下三个阶段发展:一方面,人工智能会在数据化限度高的行业发生;另一方面,随着感知、传感器和机器人的发展,人工智能会延展到实体世界;最后人工智能将穿透到个人场景。人工智能下一种突破点:应用场景不管是国际象棋,还是围棋或是德州扑克,人工智能在此类棋牌游戏中能否战胜人类,已经变得没有悬念。如果人工智能只能做到这些,这一新兴技术的魅力就会大打折扣。事实也是如此,如今,人们对此类人机大战开始变得漠不关怀,开始盼望在几乎所有的工作和生活场景中应用这一新技术,就犹如当年计算机、互联网浮现之初同样。彼时,计算机的应用让人们进入无纸化的信息时代,而互联网的应用则让人们得以打破信息传播的边界,真正让世界变得更加互联互通。从目前的态势看,人工智能所带来的革命性将远超计算机和互联网,由于它要做的是要替代,或者说部分替代人类的思考。例如,在医疗行业,医生的诊断能力很大限度上取决于这个医生个人的医疗水平、医疗经验。通过对病人各项指标的化验数据,那些经验丰富的医生可以做出更加精确的诊断,而那些年轻医生的精确性则要差诸多。相比较而言,人工智能显然更具优势,由于它可以对所有有关病例数据进行分析,从而得出更加接近真相的诊断。医疗显然是人工智能可以发光发亮的热门领域之一。人工智能类似的应用还可以推广到更多的场景中,例如金融、能源、交通,甚至是文艺创作等众多行业。人工智能给人们带来的,不仅是通过数据分析呈现其规律,协助人们进行决策;而是规避人类被情绪、感情等因素的干扰,协助人们做出更加合理的决策。但是,相比较人工智能技术的演进,人工智能当下最重要的任务是如何普及到更多的应用场景中,并真正在这些场景中为人们所应用。人工智能需要不断获取新的数据、进行持续且深度的学习,“越用越灵”可以说是人工智能发展的核心。而从目前市场应用的角度看,人工智能还只是在某些特殊的领域和特殊的地方试用而已,远远没有普及开来,也很难真正发挥其作用。从实验室到普及,人工智能显然尚有一种相称长的路要走。因此,现阶段人工智能的机会正更多集中在不同的应用场景上,而不只是实验室级别的应用。迅速全面建立自己的大数据知识体系?诸多人都看过不同类型的书,也接触过诸多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,因此作者第一时间,带人们从整体体系思路上,理解大数据产品设计架构和技术方略。大数据产品,从系统性和体系思路上来做,重要分为五步:? 第一步,针对前端不同渠道进行数据埋点,然后根据不同渠道的采集多维数据,也就是做大数据的? 第二步,基于采集回来的多维度数据,采用ETL对其各类数据进行构造化解决及加载;? 然后第三步,对于ETL解决后的原则化构造数据,建立数据存储管理子系统,归集究竟层数据仓库,这一步很核心,基于数据仓库,对其内部数据分解成基本的同类数据集市;? 然后基于归集分解的不同数据集市,运用各类R函数包对其数据集进行数据建模和各类算法设计,里面算法是需要自己设计,个别算法可以用R函数,这个过程产品和运营参与最多;这一步做好了,也是诸多公司顾客画像系统的底层。? 最后根据建立的各类数据模型及算法,结合前端不同渠道不同业务特性,根据渠道触点自动匹配后端模型自动呈现顾客个性化产品和服务。建立系统性数据采集指标体系建立数据采集分析指标体系是形成营销数据集市的基本,也是营销数据集市覆盖顾客行为数据广度和深度的前提,数据采集分析体系要涉及顾客全活动行为触点数据,顾客构造化有关数据及非构造化有关数据,根据数据分析指标体系才干归类汇总形成筛选顾客条件的属性和属性值,也是发现新的营销事件的基本。构建营销数据指标分析模型,完善升级数据指标采集,依托顾客全流程行为触点,建立顾客行为消费特性和个体属性,从顾客行为分析、商业经营数据分析、营销数据分析三个维度,形成顾客行为特性分析模型。顾客维度数据指标是不同维度分析要素与顾客全生命周期轨迹各触点的二维交叉得出。目前做大数据平台的公司,大多数采集的数据指标和输出的可视化报表,都存在几种核心问题:采集的数据都是以渠道、日期、地区记录,无法定位到具体每个顾客;计算记录出的数据都是规模数据,针对规模数据进行挖掘分析,无法支持;数据无法支撑系统做顾客获客、留存、营销推送使用。因此,要使系统采集的数据指标可以支持平台前端的个性化行为分析,必须环绕顾客为主线来进行画像设计,在初期可视化报表成果基本上,将记录出来的不同规模数据,细分定位到每个顾客,使每个数据均有一种顾客归属。将分散无序的记录数据,在根据顾客来衔接起来,在既有产品界面上,每个记录数据都增长一种标签,点击标签,可以展示相应每个顾客的行为数据,同步可以链接到其她记录数据页面。由此可以推导出,以顾客为主线来建立数据采集指标维度:顾客身份信息、顾客社会生活信息、顾客资产信息、顾客行为偏好信息、顾客购物偏好、顾客价值、顾客反馈、顾客忠诚度等多种维度,根据建立的采集数据维度,可以细分到数据指标或数据属性项。① 顾客身份信息维度性别,年龄,星座,居住都市,活跃区域,证件信息,学历,收入,健康等。② 顾客社会生活信息维度行业,职业,与否有孩子,孩子年龄,车辆,住房性质,通信状况,流量使用状况……③ 顾客行为偏好信息与否有网购行为,风险敏感度,价格敏感度,品牌敏感度,收益敏感度,产品偏好,渠道偏好……④ 顾客购物偏好信息品类偏好,产品偏好,购物频次,浏览偏好,营销广告喜好,购物时间偏好,单次购物最高金额……⑤ 顾客反馈信息维度顾客参与的活动,参与的讨论,收藏的产品,购买过的商品,推荐过的产品,评论过的产品……基于采集回来的多维度数据,采用ETL对其各类数据进行构造化解决及加载数据补缺:对空数据、缺失数据进行数据补缺操作,无法解决的做标记数据替代:对无效数据进行数据的替代格式规范化:将源数据抽取的数据格式转换成为便于进入仓库解决的目的数据格式主外键约束:通过建立主外键约束,对非法数据进行数据替代或导出到错误文献重新解决数据合并:多用表关联实现(每个字段加索引,保证关联查询的效率)数据拆分:按一定规则进行数据拆分行列互换、排序/修改序号、清除反复记录数据解决层 由 Hadoop集群 构成 , Hadoop集群从数据采集源读取业务数据,通过并行计算完毕业务数据的解决逻辑,将数据筛选归并形成目的数据。数据建模、顾客画像及特性算法提取与营销有关的客户、产品、服务数据,采用聚类分析和关联分析措施搭建数据模型,通过顾客规则属性配备、规则模板配备、顾客画像打标签,形成顾客数据规则集,运用规则引擎实现营销推送和条件触发的实时营销推送,同步到前端渠道交互平台来执行营销规则,并将营销执行效果信息实时返回到大数据系统。根据前端顾客不同个性化行为,自动匹配规则并触发推送内容根据顾客全流程活动行为轨迹,分析顾客与线上渠道与线下渠道接触的所有行为触点,对营销顾客打标签,形成顾客行为画像,基于顾客画像提炼汇总营销筛选规则属性及属性值,最后形成细分顾客群体的条件。每个顾客属性相应多种不同属性值,属性值可根据不同活动个性化进行配备,支持顾客黑白名单的管理功能。可以预先配备好基于不同顾客身份特性的活动规则和模型,目前端顾客来触发配备好的营销事件,数据系统根据匹配度最高的原则来实时自动推送营销规则,并通过实时推送功能来配备推送的活动内容、优惠信息和产品信息等,同步汇总前端反馈回的效果数据,对推送规则和内容进行优化调节。大数据系统结合客户营销系统在既有顾客画像、顾客属性打标签、客户和营销规则配备推送、同类型顾客特性归集分库模型基本上,将来将逐渐扩展机器深度学习功能,通过系统自动收集分析前端顾客实时变化数据,根据建设的机器深度学习函数模型,自动计算匹配顾客需求的函数参数和相应规则,营销系统根据计算出的规则模型,实时自动推送高度匹配的营销活动和内容信息。机器自学习模型算法是将来大数据系统深度学习的核心,通过系统大量采样训练,多次数据验证和参数调节,才干最后拟定相对精确的函数因子和参数值,从而可以根据前端顾客产生的实时行为数据,系统可自动计算相应的营销规则和推荐模型。大数据系统在深度自学习外,将来将通过逐渐开放合伙理念,对接外部第三方平台,扩展客户数据范畴和行为触点,尽量覆盖顾客线上线下全生命周期行为轨迹,掌握顾客各行为触点数据,扩大客户数据集市和事件库,才干深层次挖掘客户全方位需求,结合机器自学习功能,从主线上提高产品销售能力和客户全方位体验感知。大数据知识工程基本研究正式启动日前,国家重点研发筹划“云计算与大数据”重点专项——大数据知识工程基本理论及其应用研究正式启动。该项研究将通过研究摸索海量碎片化知识“在线学习—拓扑融合—知识导航”三阶段“量—质—序”的转化机理,建立大数据知识工程的理论与措施学体系,研制碎片化知识融合与导航服务系统,并开展示范应用。据悉,大数据知识工程是国内学者提出、引领大数据分析走向大知识研究和应用的国际前沿研究领域。与老式知识工程相比,大数据知识工程除权威知识源以外,知识重要来源于顾客生成内容,知识库需要自完善与增殖能力,问题求解过程根据顾客交互进行学习。针对大数据知识海量、低质、无序等特点,该项研究将形成运用碎片化知识构建新型知识服务平台的措施学体系,突破以专家知识为核心的老式知识工程中“知识获取”和“知识再工程”两大瓶颈问题,在医疗、教育、商业等各领域都具有广泛需求。“该研究有望形成国内在下一代知识工程领域的先发优势,为建立知识密集型的新型知识服务业打下坚实基本,并增进有关产业业态的变革。”项目首席科学家、合肥工业大学研究团队学科带头人吴信东专家简介,研究筹划运用四年半时间,力求在大数据知识工程基本理论与核心技术方面获得突破性成果,形成自主知识产权,促使国内在大数据知识工程领域的研究走在国际领先行列。同步,该项研究还将开发碎片化知识解决形成高附加值的工具,并且在普适医疗、远程教育和“互联网+服务”重大应用方面形成特色,搭建基于大数据知识工程的新型知识服务平台和应用系统,增进知识服务新业态的形成。据简介,该项研究初步筹划研发面向领域碎片化知识整合与解决的基本工具软件,融合10个以上领域的碎片化知识,建立PB级的网上数据与知识服务中心,顾客规模将超过600万人。
展开阅读全文