1、 中国电信行业大数据应用市场研究白皮书 赛迪顾问股份有限公司 2013 年 6 月(英特尔公司委托开展)中国电信行业大数据应用市场研究白皮书 2 一、电信行业大数据应用需求分析 1、电信行业大数据应用背景 由于移动互联网、云计算等新一代信息技术的兴起,以百度、腾讯、阿里巴巴、奇虎 360 等为代表的互联网公司目前已经开始与传统电信运营商重新划分产业价值链,迫使电信运营商的角色正在不知不觉中发生着变化。首先是传统运营商所提供的服务类型已经从传统的语音业务结合少量的数据业务,向以数据业务为主体的业务模式转变;其次,是价值链的改变,运营商不得不面对为数众多的、并且在逐步壮大的互联网服务提供商和应用提
2、供商。如何处理与互联网公司的竞合关系?云、管、端三线布局能否避免被管道化的隐忧?这是移动互联网时代,摆在中国移动、中国联通、中国电信三大电信运营商面前的难题。图 1 移动互联网时代产业竞争分析 资料来源:赛迪顾问,2013.06 中国电信行业大数据应用市场研究白皮书 3 随着传统电信业务收入的下降,电信行业投资规模增长乏力,固定资产投资已经出现了增长瓶颈,而运营商对于成本的控制力度也愈发增强,所以电信行业若要保持快速增长的局面,亟需“新鲜血液”推进电信业的快速发展。图 2 2008-2012 年电信行业投资规模 数据来源:工业和信息化部,赛迪顾问整理,2013.06 随着电信运营商在其 IT
3、应用架构的应用层和服务层的投资加大,电信业中的软件和服务投资增速已经出现了高增长态势。2012 年,虽然电信行业硬件投资增长速度较 2011 年有所下滑,但是软件和服务的投资呈加速上涨之势,由于加大了业务转型力度,服务投资比例从 2011 年的 17.1%增长为 18.8%,服务采购的投资额增速较快,主要受益于 2012 年 3G 网络建设的加快和电信运营商对于业务效率提升和客户服务体验的重视程度增加,新的服务投资规模不断加大。中国电信行业大数据应用市场研究白皮书 4 表 1 20112012 年中国电信行业 IT 投资规模 单位:亿元 2011 年 2012 年 同比增长 硬件 951.3
4、1045.0 9.9%软件 173.2 204.2 17.9%服务 232.5 290.5 24.9%整体 1357.0 1539.7 13.5%数据来源:赛迪顾问,2013.06 随着移动互联网的快速发展,电信行业的业务系统已经呈现了新的业务形态和数据类型。微博、微信的快速发展所带来的非结构化语言记录、音频、图片和视频等数据加快了电信行业数据量的增长速度。虽然运营商拥有和管理大量的数据,但处理这些结构化的数据并未给运营商带来什么困难。然而,当前面临的情况已经完全不同,海量的非结构化数据带来的并不仅仅是存储、传输的问题,做好海量非结构化数据分析以更好的服务客户、提高业务效率已经成为全球运营商当
5、前最为紧迫的问题。2、电信行业大数据应用需求分析 从当前电信业务发展趋势来看,电信行业对于大数据应用需求主要在以下三个方面。其一,传统数据仓库无法有效存储日益增长的业务数据 随着运营商业务数据量的增加,同时伴随应用复杂导致的数据量的进一步增加,海量的数据增加了运营商业务系统数据存储和处理压力;而数据仓库无法线性扩容,导致运营商信息系统出现管理难度加大、成本高、扩容压力大、效率下 中国电信行业大数据应用市场研究白皮书 5 降等问题。运营商的用户上网记录数据量巨大,经过对其系统分析可以发现,用户每个月上网记录条数基本上处于几万到几十万的范围,甚至有的用户达五六十万,之前采用的方案是在网关上用户流量
6、必经地方采集,分析流量数据,然后生成上网记录话单,话单量非常大。其二、传统数据仓库无法有效处理新型的业务数据 运营商对于电子渠道越来越重视,现在很多的业务直接在网站就可以办理,用户可以定制一些电信业务,或者进行查询。所有用户在网站上的这些行为,其实也是一定程度上的运行测试行为。运营商以前做的分析,主要都是关于客户交费是否及时、信用度是否较好,但并没有把网站上的用户关注度或行为特点记录下来。如果将这部分数据跟原有的数据库进行整合分析,就能将用户个人的购买行为轮廓真正地描绘出来。中国移动现在做的飞信和 139 社区等领域,其数据都是文本、图片或视频等非结构化数据,不同于传统通信业务分析特点,需要对
7、内容等非结构化、大容量信息进行有效分析,传统的架构处理难以应付。现在通过一些技术手段逐渐可以实现和逐渐完善,比如山西移动目前就可以针对某个飞信用户的好友进行针对性营销。其三、分散建设的系统和标准化程度较低的数据亟需大数据平台来统一和规范 运营商当前很多业务系统建设分散,难以实现资源和应用的共享。经营分析、信令监测、综合网络分析、不良信息监测、上网日志留存等大数据系统分专业建设,其中部分系统分省建设,造成资源重复建设、应用重复开发、专家资源无法共享。另外,数据的分散存储、标准化缺失是运营商面临的一个重大问题,各大数据系统数据模型不统一,跨系统综合分析需求不断增加。运营商的数据库目前 中国电信行业
8、大数据应用市场研究白皮书 6 仍以传统架构为主,建设成本高昂,且难以满足业务发展的需要。高可扩展的、成本低的新的大数据架构成为未来运营商大数据采购和分析的重要方向。其四、融合架构下的集中化商业智能平台需要大数据提供数据和营销支持 运营商实施数据管理和分析的一个重要平台是商业智能平台,随着数据量的激增以及客户营销定位要求提升,具备集中化的、强大扩展性和高可用性的商业智能系统平台构建成为运营商基于大数据应用的关键一环。比如,运营商一方面要求商业智能平台支持海量结构化及非结构化数据分析挖掘,此外,结合用户上网日志及互联网网页内容,为精准行销提供用户行为偏好分析;为互联网业务发展提供大趋势及业务竞品分
9、析能力。由于集中化建设,集中化 BI 系统将面临着数据规模大、数据处理复杂、混合负载多样等多种挑战,传统的单一数据仓库技术难以满足,需要引入大数据技术。二、应用案例 1、中国移动详单实时查询 实施背景:中国移动现有计费系统维护成本高,这侵蚀了计费业务单位的盈利能力。当前高科技个性化的客户支持模式不可扩展,无法应对爆炸性的需求增长,可能会导致用户流向竞争对手。RDBMS 解决方案无法满足存储规模和实时查询要求,进而无法为用户提供满意的服务。解决方案:1)优化硬件性能,以处理大数据。使用 Apache Hadoop 软件的英特尔分发版与至强 5600 系列搭配的通用计算平台,进而降低总的保有成本及
10、提高性能。2)基于 Hadoop 的近实时分析。采用 Apache Hadoop 软件的英特尔分发版来消除数据访问瓶颈和发现用户使用习惯,开展更有针对性的营销 中国电信行业大数据应用市场研究白皮书 7 和促销活动。3)利用 Hadoop 分布式数据库(Hadoop HBase)扩展存储。Apache Hadoop 软件的英特尔分发版的“大数据表”增强了 Hadoop HBase,可以跨节点自动分割数据表,降低存储扩展成本。技术创新:1)基于Apache Hadoop软件的英特尔分发版的基本优化算法,应用程序变得更高效,计算存储数据可以更均衡地分布。借助至强系列硬件技术,英特尔至强处理器安装程序
11、控制的自动调谐配置有助于无缝地优化性能。2)经过充分测试的企业级 Hadoop 版本可确保长期稳定运行。与最新的开放源码相集成,确保了各个组成部分之间的一致性,并且得到英特尔充分支持,从而简化了运营管理。商业价值:1)解决方案性能因此显著提高,降低了整体硬件投资,提高能源效率,并提供了一个未来升级路径。2)由于集群分配服务的总体网络带宽高,这个解决方案带来了高速的 HBase 数据库访问。3)新帐单查询系统具有较低的总体拥有成本、高扩容能力和高处理性能,从而为中国移动广东公司在高业务量的背景下不断改进客户服务奠定了非常坚实的基础。图 3 广东移动使用的 Apache Hadoop 软件的英特尔
12、分发版 资料来源:英特尔,赛迪顾问整理,2013.06 中国电信行业大数据应用市场研究白皮书 8 2、中国联通 3G 流量大数据应用 实施背景:中国联通的用户上网记录数据量巨大,联通 3G 用户用移动手机访问新浪网首页,基本能生成 20 条左右上网记录话单;如果点击 iPad 新闻链接,将产生 180 条上网记录;如果访问淘宝网首页,会产生 60 条请求和回应,在手机上网记录当中有大量 DNS 查询和推送服务。以中国联通某一个中等省份公司为例,日均上网记录达到 10 亿条,每个月的数据接近 9TB。图 4 电信运营商大数据处理需求 资料来源:赛迪顾问,2013.06 解决方案:传统 IOE 架
13、构应对联通的海量流量记录已经力不从心,所以联通采用 x86 平台+Hadoop 来实现对大数据的存储和分析,基于 Hadoop 构建了结构化的访问数据库。在结构化的访问数据库之上提供了数据挖掘工具,另外也提供了一些分布式同步,以及远程调用和序列化工具。总体架构采用 Apache Hadoop 软件的英特尔分发版,还采用数据仓库技术,针对海量数据进行高性能 中国电信行业大数据应用市场研究白皮书 9 查询和分析工作。中国联通已经构建了一个全国集中的一级架构海量数据存储和查询系统。技术创新:1)基于 Apache Hadoop 软件的英特尔分发版的技术架构,用HBase 来管理海量数据,入库速度迅速
14、,查询速度也非常快。2)采用普通 x86服务器部署这个系统,利用 Hadoop 本身三个节点控制数据即数据存储节点,现在有 178 个数据存储节点,每个数据存储节点有 14TB 的容量,集群的监控节点,入库服务节点。商业价值:1)联通目前已经部署完成了 4 个省份,北京、黑龙江、浙江、重庆四个省份所有用户上网记录都可以快速查询,提高了使用效率。2)每天入库条数超过 42 亿条用户上网数据记录,每天入库数据量超过 1.2TB,在这种数据量的情况下,现在已经保存了几个月的上网记录数据而没有给整个存储系统带来压力。3)联通采用的 Hadoop 在实际使用当中感觉也是非常好的,更重要的是利用这个系统可
15、以做深入的数据挖掘工作。三、电信行业大数据应用发展展望 随着移动互联网的快速增长,电信运营商不仅可以利用自身在电信网络平台的优势,更可以突破传统模式,发展大数据分析服务、移动营销等高端大数据业务。未来,随着大数据的技术成熟和应用的推广,运营商将围绕数据标准化、精准营销、优化用户服务体验、提高业务效率等四个方面来强化大数据的应用。由此可见,电信业势必将投资重点转向大数据应用市场。根据赛迪顾问分析预测,未来三年,中国电信行业大数据应用市场将保持快速增长势头,增长水平 中国电信行业大数据应用市场研究白皮书 10 高于大数据整体市场增速,到 2015 年,电信业大数据应用市场规模预计将达到25.3 亿
16、元。图 5 2013-2015 年中国电信行业大数据应用规模预测 数据来源:赛迪顾问,2013.06 对于三大运营商来讲,各家对于大数据的发展思路也各不相同。中国联通对大数据的探索源自于 2010 年中国联通数据大集中策略的提出。2009 年,中国联通 3G 业务正式商用,提出“统一品牌、统一业务、统一包装、统一资费、统一终端政策、统一服务标准”的“六个统一”策略。2012 年底,中国联通就已经成功将大数据和 Hadoop 技术引入到移动通信用户上网记录集中查询与分析支撑系统。当前,中国联通已经新增 100 亿投资重庆大数据计划,显现了其发展大数据,转型自身业务的决心。中国移动数据部认为,在移
17、动互联网时代,电信运营商需要转型,要以开放的姿态获取更多的合作,而中国移动的阅读、游戏、动漫、音乐等业务都将通过开放合作的方式来寻求发展。通过开放合作平台,中国移动从“移动通信专家”到“移动信息专家”的策略转变,就是为顺应移动互联网时代潮流而做出的改变。6.5 13.3 25.3 90.8%105.6%90.6%80%85%90%95%100%105%110%0510152025302013E2014E2015E规模(亿元)同比增长率(%)中国电信行业大数据应用市场研究白皮书 11 这一战略的发展基础就是中国移动针对大数据和云计算研究所获得的应用发展方向。中国移动在大云 1.5 平台上部署了分
18、析型 PaaS 产品,利用 BC-Hadoop构建大数据处理平台,在部分系统采用了英特尔至强Apache Hadoop 软件的英特尔分发版的配置组合,同时建设了并行数据挖掘系统(BC-PDM&ETL)以及商务智能平台(BI-PAAS)等大数据应用平台,为将来在大数据应用和服务市场做了充分准备。中国电信很早就已经意识到移动互联网时代的到来,并于 2005 年提出了战略转型的构想,主要目的就是为了应对移动互联网时代的挑战。而当前,中国电信已经提出了“智慧城市”发展战略,其中很重要的技术结合点就是物联网和大数据。基于以上战略,中国电信定位成为智能管道的主导者、综合平台的提供者、内容应用的参与者。而在
19、“流量经营”方面,中国电信从“话务经营”向“流量经营”转型。结合大数据技术,中国电信也将深入 IDC 服务以及智慧城市建设,并发掘移动互联与之结合的商机,重塑转型之路。图 6 三大运营商未来大数据投资预测 0123456789102013年 2014年 2015年 2.74 5.35 9.74 2.48 5.12 9.75 1.23 2.79 5.77 中国联通 中国移动 中国电信 单位:亿元RMB 中国电信行业大数据应用市场研究白皮书 12 数据来源:赛迪顾问,2013.06 总体来看,运营商利用大数据来推动业务转型将是未来电信市场的一个重要方向。电信运营商如果能够通过技术的进步,不断释放其管道中庞大数据的潜在力量,将会成为未来移动互联时代中最大的赢家。