1、03目 录CONTENS一、云智一体,促进数字化转型与智能化升级一步到位四、智能数据挖掘,驱动数据资产价值最大化二、云智一体的智能大数据产品架构全景图三、云原生湖仓架构,构建企业大数据基础设施1.1 产业智能化,数字经济发展新阶段1.2 百度智能云战略升级1.3 云智一体的百度智能云架构2.0,加速产业智能化4.1 数据资产管理与运营平台DAMP 4.1.1 数据资产目录 4.1.2 数据在线应用工具 4.1.3 数据服务超市 4.1.4 数据资产看板4.2 数据可视化Sugar BI2.1 数据要素成为数字经济时代的新战略资源2.2 大数据驱动千行百业数字化转型和业务创新2.3 大数据的未来
2、发展趋势2.4 企业构建大数据平台的原则 2.4.1 成效为先 2.4.2 治理为要 2.4.3 安全为本 2.4.4 持续运营2.5 百度智能云大数据产品架构全景图3.1 云原生 3.1.1 按需创建 3.1.2 存算分离 3.1.3 弹性扩缩容 3.1.4 运维托管3.2 数据湖架构 3.2.1 BOS数据湖存储 3.2.2 丰富的数据湖分析引擎3.3 一体化平台 3.3.1 元数据统一管理 3.3.2 自动数据集成 3.3.3 全流程可视化数据治理开发 3.3.4 数据湖分析3.4 成功实践0205112403030406070808090909091012121213141415161
3、92020212122262626262727五、隐私计算铸就安全防护新体系六、企业数据资产构建与应用实践七、更多行业案例参考八、关于本报告5.1 数据安全的落实规则 5.1.1 覆盖数据全生命周期的安全体系 5.1.2 隐私数据的安全保护闭环 5.1.3 安全合规的数据流通形式 5.1.4 主流的隐私计算核心引擎5.2 百度全生命周期数据安全防护体系 5.2.1 资产安全 5.2.2 隐私保护 5.2.3 隐私计算5.3 百度点石成功实践6.1 数据治理 6.1.1 搭班子 6.1.2 做盘点 6.1.3 定标准 6.1.4 稳实施6.2 资产管理与运营 6.2.1 资产管理 6.2.2 资
4、产运营6.3 业务应用6.4 企业数据资产应用实践 6.4.1 徐工综合经营管理决策驾驶舱 6.4.2 陕西广电媒体融合数据资产建设 4.2.1 直连多数据源 4.2.2 丰富的图表和拖拽式编辑 4.2.3 炫酷大屏与智能交互4.3 全功能AI开发平台BML 4.3.1 BML总体架构 4.3.2 BML为数据科学提供的核心功能 4.3.3 面向行业的智能数据挖掘解决方案4.4 智能数据挖掘成功实践 4.4.1 邮储大脑机器学习平台 4.4.2 某集团研发中心设备健康管理系统364556572728282929303132323338383939404041414143464647484849
5、494950515152云智一体,促进数字化转型与智能化升级一步到位“云智一体”技术与应用解析系列白皮书 智能大数据篇0202“云智一体”技术与应用解析系列白皮书 智能大数据篇1.1 产业智能化,数字经济发展新阶段当前,我们正处在科技创新和产业发展最好的时代,以人工智能、大数据、云计算、5G等为代表的新一代信息技术蓬勃发展,驱动新一轮科技革命和产业变革。在产业应用新兴技术和数据资源转型升级的过程中,数字化是基础;而随着人工智能等新一代信息技术的发展,以及数据的爆发式增长,产业加快应用智能技术,从海量数据中发现规律、训练模型、提炼知识,促进产出增加和效率提升,实现企业生产经营的智能化,进而实现整
6、个产业的智能化升级。因此,数字经济既包括数字化转型,也包括智能化升级,产业智能化是数字经济发展的新阶段。1.2 百度智能云战略升级百度是拥有强大互联网基础的领先AI公司。从成立的第一天起,百度搜索引擎就与人工智能、云计算等技术息息相关。经过多年的技术积累和产业实践,百度已形成了全面布局,从基础的算力和数据技术、深度学习算法及框架,到语音、视觉、自然语言处理等感知、认知技术,以及飞桨深度学习开源开放平台等,具备云智一体的独特优势。基于百度的技术优势和对产业发展的洞察,经过跟合作伙伴的共同成长与产业实践,百度智能云的战略升级为:以“云计算为基础”支撑企业数字化转型,以“人工智能为引擎”加速产业智能
7、化升级,云智一体“赋能千行百业”,促进经济高质量发展。云智一体的“云”为数字化转型提供安全、稳定、灵活的数字化底座,“智能化引擎”为智能化升级提供领先的创新技术和平台。我们推荐客户数字化转型与智能化升级一起做,一步到位,这样效率更高,效果更好。同时,如果客户只做数字化转型,我们有丰富的云计算产品可以支持;或者客户已经有了数字化基础,我们的智能化引擎也可以助力智能化应用。百度智能云的“云”,不仅为数字化转型提供安全稳定、弹性灵活的云计算服务,同时也是适合跑AI的云,我们称之为“AI原生云”,继承云原生的优势,面向AI场景,提供极致弹性的高性能异构算力,打造简洁、高效的AI应用开发架构。“云智一体
8、的智,是百度将深耕十余年的AI技术,以及AI赋能产业的实践经验,沉淀为助力产业智能化升级的技术、平台及方法论,是以加速产业智能化升级为己任、懂场景的AI。031.3 云智一体的百度智能云架构2.0,加速产业智能化基于百度智能云的战略升级,云智一体的百度智能云架构2.0同时发布,包含数字化底座、智能化引擎和全场景应用(如图1.3-1所示)。数字化底座,包括基础云、数据库、物联网、边缘计算、区块链等基础平台,以及视频云、大数据、云原生开发和地图服务等;同时还有安全模块,为技术创新和产业转型升级保驾护航。在数字化底座之上是智能化引擎,百度自主研发的飞桨深度学习平台为核心,软硬一体AI大生产平台-百
9、度大脑为支撑,包括AI中台和知识中台等。智能化引擎与行业深度融合,帮助企业建设自己的智能化中台,助力智能化升级。基于数字化底座和智能化引擎,百度智能云深入行业场景,打造智能应用,同时与生态伙伴一起,在制造、能源、城市、金融、医疗、媒体等领域,助力数字化转型和智能化升级一步到位。我们希望以百度智能云为纽带,联合技术和产业生态伙伴,通过开源开放平台降低AI开发的门槛,加快人工智能融入传统产业,帮助越来越多的行业大步快跑,加入产业智能化的大潮。(图1.3-1)百度智能云全新架构2.0智能化引擎全场景应用智能客服企业搜索智能办公智能推荐工业质检智能创作智慧城市智慧交通智慧金融智能制造智慧能源智慧媒体智
10、慧医疗数字化底座云为底座 飞桨为核 生态为翼AI中台知识中台软硬一体AI大生产平台产业级深度学习开源开放平台存储网络大数据服务视频云云原生开发服务区块链数据库物联网边缘计算基础云安全地图服务计算“云智一体”技术与应用解析系列白皮书 智能大数据篇04云智一体的智能大数据产品架构全景图05052.1 数据要素成为数字经济时代的新战略资源随着新一轮科技和产业革命的浪潮席卷而来,特别是大数据、人工智能、移动互联网、云计算、5G等新一代信息技术的应用,人类进入数字经济时代。数字经济是以数字化的知识和信息作为关键生产要素,以数字技术为核心驱动力量,以现代信息网络为重要载体,通过数字技术与实体经济深度融合,
11、不断提高经济社会的数字化、网络化、智能化水平,加速重构经济发展与治理模式的新型经济形态。2019年,高收入国家的数字经济占GDP比重达到47.9%,其中发达国家这一比例高达51.3%,美国、德国等国家则超过60%。中国信通院发布的中国数字经济发展白皮书(2021)显示,2020年我国数字经济规模达到39.2万亿元,占GDP比重为38.6%,保持9.7%的高位增长速度,成为稳定经济增长的关键动力。“十四五”规划纲要中将“数字经济核心产业增加值占GDP比重”作为创新驱动的关键指标之一,并预期“数字经济核心产业增加值占GDP比重”将从2020年的7.8%上升到2025年的10%,大数据将成为驱动未来
12、数字经济发展的强大推动力。在数字经济中,数据要素是数字经济时代的新战略资源。2020年,国务院发布了关于要素市场化配置的指导意见,明确把“数据”与土地、劳动力、资本、技术等并列为五大生产要素。和其他生产要素相比,数据生产要素有两个作用,即创造和放大。创造创新方面,数据作为一种新的生产能力,直接驱动了很多新模式、新经济形态、新产业。特别近两年疫情不断反复期间,很多产业实现了彻底的数字化和线上化,而今年大火的“元宇宙”概念,也是数字化产业发展的新方向。放大方面,数据要和资本、土地、劳动力、技术等其他生产要素协同,发挥乘数作用,解决供需优化、创新价值链流转方式等问题,放大其他要素价值。(图2.1-1
13、数字经济成为“十四五”期间高质量发展新引擎2020年数字经济占 GDP 比重中国信息通信研究院报告50.7%54.3%60%38.6%39.2万亿高收入国家发达国家美英德中国上海加快发展数字经济推动实体经济高质量发展的实施意见打造上海市数字化转型示范区全面推进杨浦区城市数字化转型行动方案(2021-2023年)北京市关于加快建设全球数字经济标杆城市的实施方案 有价值的数据资源催生和创造数字经济新产业、新业态、新模式数据对其他要素发挥乘数作用数据驱动供需优化、创新价值链流转方式放大劳动力、资本等要素价值创造放大零售大数据金融大数据制造大数据政务大数据视频大数据医疗大数据交通大数据教育大数据能源
14、大数据农业大数据智慧选址智能投顾预测性维护城市驾驶舱智能推荐临床辅助诊疗数字指挥中心个性化施教能耗优化农作物生产供应链场景繁杂需高效和智能分析更多数据需要深度价值挖掘 大数据和 AI 深度融合 规模指数增长、类型更多样实时性强、价值密度低 4V 特性更凸显 数据安全是生命线数据安全法规政策密集出台安全合规数据流通和运营公有云、私有化、混合云“云智一体”技术与应用解析系列白皮书 智能大数据篇062.2 大数据驱动千行百业数字化转型和业务创新回顾近几年可以发现,大数据已经驱动零售、政务、城市治理、金融、创造业、教育、医疗等很多行业,进行了数字化转型或者业务创新的尝试与实践。在零售行业,开店选址对最
15、终业务成功非常关键,结合大数据技术和目标客群定位,实现精准智能选址,从源头降低经营的不确定性和风险;在制造业,以前设备交付给用户后,还面临着维护售后等运营问题,结合大数据和物联网技术,可以及时了解设备状态,实现预测性维护,大大提升了制造业的服务效率和用户体验;在视频行业,长、短视频等信息载体,已经实现了个性化推荐,这背后也是基于大数据技术,提升用户体验,创造新的增长空间。通过这些例子可以看到,大数据在各行各业的数字化转型和业务创新里面有非常多的实践和案例,驱动着千行百业的数字化转型和业务创新。大数据驱动千行百业数字化转型和业务创新数据要素成为数字经济时代战略资源(图2.2-1)(图2.1-2)
16、有价值的数据资源催生和创造数字经济新产业、新业态、新模式数据对其他要素发挥乘数作用数据驱动供需优化、创新价值链流转方式放大劳动力、资本等要素价值创造放大零售大数据金融大数据制造大数据政务大数据视频大数据医疗大数据交通大数据教育大数据能源大数据农业大数据智慧选址智能投顾预测性维护城市驾驶舱智能推荐临床辅助诊疗数字指挥中心个性化施教能耗优化农作物生产供应链07(图2.3-1)大数据领域发展趋势2.3 大数据的未来发展趋势首先,4V特性更凸显(规模性-多样性-实时性-价值型)。随着5G、IoT等技术的发展,以及企业更加重视数字化发展,数据总量成指数级增长,数据价值密度越来越低。同时,除传统结构化数据
17、外,视频、语音、图像等海量非结构化数据不断积累,且随着企业数字化程度的提高,数据处理的实时性也越来越高。其次,大数据和AI深度融合。AI也是一种数据处理技术,它与大数据的深度融合,让数据处理更高效,帮助企业从海量业务数据中挖掘更多价值。第三,数据安全是生命线。关于数据安全,近几年国际和国内范围内都密集出台了多个数据安全类法规。从数据安全趋势来看,社会各方在数据流通与运营过程中,数据安全合规是基础生命线,必须满足。综上,新型的数据基础设施、深度挖掘数据价值,以及保障数据安全,是构建大数据平台的关键。2.4 企业构建大数据平台的原则2.4.1 成效为先随着人工智能等新一代信息技术的发展,数据以指数
18、级速度成倍增长,海量数据的存储和计算带来了巨大的IT成本和复杂性。云计算的发展有效实现了企业IT基础设施的弹性灵活性和成本低廉性;而当企业面对更大规模、类型更多样、更实时、价值密度低等数据挑战时,构建云原生湖仓数据基础设施就成为了一种新的有效应对方式。场景繁杂需高效和智能分析更多数据需要深度价值挖掘 大数据和 AI 深度融合 规模指数增长、类型更多样实时性强、价值密度低 4V 特性更凸显 数据安全是生命线数据安全法规政策密集出台安全合规数据流通和运营“云智一体”技术与应用解析系列白皮书 智能大数据篇08该类新型数据基础设施优势:一是以云为基础,提供弹性低成本的数据存储、按需伸缩的计算资源;二是
19、以湖仓引擎为架构,在低成本基础上保障各种数据处理场景中数据加工处理灵活性、数据分析高性能性、异构数据源融合分析等特性;三是提供一体化数据治理与开发平台,以统一元数据为抓手,支持数据集成、治理、开发、分析、服务等一站式数据服务。此外,大数据领域流传一句话即“数据是资产,也是负债”,衡量企业大数据落地效果,核心还是要看业务落地成效,即在繁杂的业务场景下能高效实现数据价值挖掘的能力。AI的大发展驱动了数据分析的智能化和数据价值的深度挖掘。在百度智能云服务企业用户做数据应用落地过程中,我们发现,帮助企业构建敏捷智能BI、全功能AI开发平台,可以更高效地驱动数据应用落地。综上,新型的数据基础设施、深度挖
20、掘数据价值,以及保障数据安全,是构建大数据平台的关键。2.4.2 治理为要在信息化时代,信息系统建设是面向具体业务的,例如人力管理建设-人力资源管理系统、设备管理建设-管理系统、项目管理建设-项目管理系统等。因系统间缺乏关联互助、建设标准不同,带来数据孤岛、标准不一致等问题;而数据的全面性、数据质量、数据及时性与一致性等直接影响数据的应用和效果。因此,数据治理是企业大数据应用落地的必要环节。数据湖架构中的数据治理工具平台,可以提高数据治理的实施效率。在数据治理的实施过程中,搭建专业的实施班子,做好数据资源、IT架构、业务情况的盘点,定好数据分类、数据模型、数据质量、应用指标的标准,再实施数据采
21、集、数据分层建设,可以有效保障数据治理实施效率和效果。2.4.3 安全为本“没有网络安全就没有国家安全”。中华人民共和国网络安全法、中华人民共和国数据安全法、中华人民共和国个人信息保护法以及关键信息基础设施安全保护条例等多部法律法规及管理办法对行业提出了规范性的要求。例如数据安全法明确要求,“数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力”。因此,大数据应用要以数据安全为本,从数据全生命周期来看,数据安全保障主要包括数据资产安全保障、数据隐私保护、数据流通安全等。百度智能云提供全栈数据安全防护体系,全力保障数据资产不被恶意访问、数据隐私不被
22、非法侵犯,通过业界领先的网络安全技术、信息安全技术、隐私计算技术等综合安全能力,实现数据要素的全方位保障。2.4.4 持续运营要保障数据应用价值的持续性,数据资产和应用都需要“持续运营”。大到产业、小到每个具体企业,都具有动态发展变化性,数据和业务必然也持续变化。所以,大数据的应用落地不是一次性项目,数据基础设施、数据治理、数据应用等实施完成后,需要持续的管理和运营。结合产业实践不难发现,平台化的管理方式可以提高运营效率,比如建设数据资产管理和运营平台,有利于帮助企业实现数据“好管理”、“好找到”、“好理解”、“好应用”。此外,运营过程配套建设运营体系比如数据覆盖、数据质量、数据成本、数据价值
23、等,对于优化和指引未来规划价值也非常大。09(图2.5-1)2.5 百度智能云大数据产品架构全景图基于以上原则,百度智能云以云和AI为依托,打造了云智一体的智能大数据产品架构全景图,注重实践经验积累,力争做到成效为先、治理为要、安全为本、持续运营,为更多企业构建云智一体的大数据技术与能力体系,实现对更大规模、更多类型、更多源数据进行处理和应用,全面助推企业数字化转型。百度智能云大数据产品架构全景图共三层:底层,通过湖仓数据基础设施为企业提供数据存储、数据处理、数据开发等能力;中层,数据价值挖掘平台充分利用百度智能大数据技术,实现企业数据资产价值最大化;顶层,则基于底层和中层的技术,帮助各行各业
24、落地大数据应用落地。以下篇章将做详细解读。百度智能云大数据产品架构全景图公有云、私有化、混合云数据价值挖掘平台湖仓数据基础设施产业实践资产目录数据资产管理与运营DAMP 数据可视化 Sugar BI全功能 AI 开发平台 BML数据工具应用超市资产看板数据接入自助报表多端分享智能大屏算法开发模型训练模型管理模型部署资产管理商业智能数据科学湖仓引擎治理开发丰富组件托管大数据平台 BMR 弹性伸缩监控运维集群管理BESBSCBLS物化视图数据仓库 MPP 架构 实时 CRUD向量化执行数据集成数据治理数据开发数据分析数据服务数据湖管理与分析 EasyDAP 统一元数据 对象存储 BOS 隐私计算多
25、方安全计算 机密计算安全联邦学习隐私保护数据安全数据审计授权鉴权加密脱敏密钥管理数据安全防护体系智慧能源智能制造智能媒体智慧金融智慧城市“云智一体”技术与应用解析系列白皮书 智能大数据篇10云原生湖仓架构,构建企业大数据基础设施 1111随着企业数字化转型加速,企业日常运营中产生的数据量呈指数级增长,且数据类型更加多样化,数据的应用场景也日益繁杂,以及基于实时数据的快速决策越来越普及因此,单一的数据仓库或者数据湖解决方案满足不了用户对数据挖掘和使用的需求,湖仓一体架构成为云原生时代数据架构演变的必然趋势。百度智能云湖仓一体架构的优势主要体现在:云原生、数据湖架构以及一体化平台,下面展开来讲。(
26、图3-1)云原生湖仓架构3.1 云原生大数据处理技术广泛应用于各个行业,为业务解决海量存储和海量分析需求,数据量的爆发式增长,对数据处理能力、基础设施成本、集群运维管理提出了更大的挑战。而云原生天生具有的高效部署、云计算资源成本和弹性扩展等优势,百度智能云大数据平台提供云原生架构的大数据集群服务,直接选型公有云大数据产品,即可享受按需创建、智能扩缩、运维托管等海量大数据处理能力。3.1.1 按需创建在百度智能云上,通过界面化点选的操作方式,即可根据业务场景可视化创建适合业务数据处理场景的BMR开源大数据处理集群、百度数据仓库、BES集群等。例如,在百度智能云创建BMR大数据处理集群,可按需选择
27、组件如HDFS、Spark、Hive、Flink、Clickhouse等,同时提供不同组件版本的选择,平台自动进行组件参数推荐;按需配置集群套餐类型、集群节点规模、集群存储配置等,配置完成后,分钟级完成集群创建操作。3.1.2 存算分离数据总量指数级增长,相应地要求数据库有极致的弹性伸缩能力、持续服务能力和合理成本。传统的存算一体架湖仓数据基础设施湖仓引擎治理开发丰富组件托管大数据平台 BMR 弹性伸缩监控运维集群管理BESBSCBLS物化视图数据仓库 MPP 架构 实时 CRUD向量化执行数据集成数据治理数据开发数据分析数据服务数据湖管理与分析 EasyDAP统一元数据对象存储 BOS“云智
28、一体”技术与应用解析系列白皮书 智能大数据篇12构弊端逐步显现,比如随着数据量和业务激增、资源调度互相影响、集群故障风险随着规模增大而剧增、不同集群数据无法共享等,导致系统架构的可靠性降低、运营困难和成本居高不下。百度智能云云原生湖仓通过先进的计算存储分离架构,实现了计算资源和存储资源的灵活扩展,解决了数据同步的延时问题,并提升了计算横向扩展能力。表现在:集群因不可抗力出现异常时可快速恢复,可用性更高;数据存储更可靠,支持多组件数据挂载BOS对象存储,存储灵活,可弹性扩展,更方便,按需归档;集群节点灵活选配CDS云盘,多副本保证数据可靠不丢失。相比存算一体架构,这种计算存储分离架构更能兼顾性能
29、成本、灵活性等特点。3.1.3 弹性扩缩容通过智能弹性伸缩,可以根据作业负载情况或业务周期时间,自动增减计算资源,不用为闲置的计算资源付费,降低用户成本。既可以基于场景按时间维度自由定制扩缩容规则,也可以根据CPU使用量、作业延迟度等自定义弹性伸缩规则。(图3.1.2-1)(图3.1.3-1)云原生-存算分离、冷热分离云原生-弹性扩缩容集群节点灵活选配 CDS 云盘多组件数据存储支持挂载 BOS 对象存储Alluxio 等性能优化结合 BOS 多层数据类型自动沉降存算分离架构,更高效、便宜基于场景按时间自由定制扩缩容 时间点 周期自定义规则,弹性扩缩容 CPU 作业延迟等智能分析,动态扩缩容
30、普通节点到竞价实例都支持智能弹性伸缩,更高性价比某公司上线 BMR 弹性伸缩后,成本下降40%133.1.4 运维托管提供全托管服务,用户只需专注于业务开发,无需关注部署运维,提供SLA保障、24小时技术专家支持、实时可视化监控运维告警大盘体系,更专业、更弹性、更可靠。3.2 数据湖架构数据在以指数级增长的同时,还逐渐呈现出类型更多样、更实时、价值密度低等特点,这些挑战加大企业IT设施的成本和复杂性,湖仓一体架构成为云原生时代数据架构演变的必然趋势。百度智能云大数据平台数据湖架通过BOS数据湖支持低成本存储任意规模结构化和非结构化数据;提供丰富的数据湖分析引擎,满足不同业务场景的数据分析需求,
31、同时基于元数据的统一管理,支持数据湖分析、跨数据源联邦分析,为用户提供全面的数据分析能力。(图3.2-1)数据湖架构-多种分析形态,满足不同的业务场景管理控运维管控AmbariGangliaHMS安全管控RangerKerberosAduit元数据Hive-metaAtlas网关LivyKnox数据开发HueJupyterZepplin数据科学与高级分析MLFlowTF/MXNET/PPSk-learn数据处理与分析HadoopPrestoHive/Tez FlinkSparkBeam在线存储/OpDB HBASETSDBKuduDruidESPALO数据接入KafkaSqoopFlumeNI
32、FI资源调度体系YARNK8S资源隔离VMLXCKataCgroup存储体系Task Temp Storage on CDSAlluxio 加速 BOSHDFS元数据网关“云智一体”技术与应用解析系列白皮书 智能大数据篇143.2.1 BOS数据湖存储百度智能云BOS,提供稳定、安全、高效、高可扩展的云存储服务。用户可以将任意数量和形式的非结构化数据存入BOS,并对数据进行管理和处置。BOS支持标准、低频、冷和归档等多种存储方式,满足多场景存储需求。具有如下特点:海量规模。BOS提供超过EB级别物理空间,数万级别服务器,万亿级别文件规模,规模业内领先。帮助用户数据快速高效上云,既提供面向离线传
33、输的磁盘传输方式,也提供面向在线的Cloud Flow产品,支持创建各种模型的在线传输任务。高可靠性。BOS全面自研且自主可控的冗余存储架构,保障数据的持久存储能力,确保用户业务连续性。数据可靠性高达99.9999999999%(12个9),数据可用性高于99.95%。极具性价比。BOS提供标准存储-多AZ、标准存储、低频存储-多AZ、低频存储、冷存储和归档存储等共 6级存储体系,成本逐级下降,用户可根据数据热度匹配合适的存储类型,合理控制成本。另外,BOS提供智能的生命周期管理和业界领先的读写性能,满足用户在大数据场景下的性价比需求。行业首发智能存储。针对视频、图像、大容量文件等类型,百度智
34、能云在BOS侧更好地封装集成了百度相关的AI能力,包括几十项图像的审核能力,以及图像增强和特效能力,这些特有能力的集成,能够轻松的降低编码复杂度。用户可以直接通过BOS的事件触发框架,在数据访问或者数据上传时,通过统一的接口拓展和调用这些智能处理能力、及时得到AI处理的效果,让数据分析和存储更近,降低管理、运维的复杂性。(图3.2.1-1)云原生-BOS 存储业界领先海量规模EB 级别物理空间数万级别服务器万亿级别文件规模高可靠性数据可靠性12个9服务可用性99.95%极具性价比6级分级存储体系智能生命周期管理国内最早磁带介质归档存储行业首发智能存储AI+Picture:智能图像处理AI+Vi
35、deo:音视频处理能力AI+Data:大数据存储,云端数据分析高可用性极致性能简单易用开源生态流批一体极简运维领先的技术架构丰富的场景基于百度智能云 BCC、CDS、BLB部署 内核优化,冷热存储分离、高性能、低成本NLP 技术结合 BES 管控平台 特色与优势BES 集群 Baidu ElasticsearchKibanaBES 管控平台 新建删除索引置冷定时调度 数据量观测基于BOS冷热数据分离 热数据 SSD冷数据 BOS搜索:随时随地搜索任何内容日志分析:充分利用日志价值可视化运维监测:全面管理应用VPC 隔离、热迁移、弹性伸缩云磁盘、数据安全VIP 访问、更换机器、扩缩容、用户无感知
36、企业内搜网站、App应用内搜索、电商店铺等搜索,轻松快速构建强大、高效的搜索体验利用 Elasticsearch+Logstah+Kibana 最适合日志分析的组合,轻松实现日志收集、查询分析和可视化充分利用 Kibana 的可视化能力,全面收集应用数据,支持多种数据集成,丰富的可视化图表功能,随时掌握应用状态基于 BOS 冷热存储分离,成本降低80%领先的百度 NLP 技术、高效中文分词、智能权重识别集群自动部署、启停,高效率运维管理调度管理能力,数据自动置冷插件管理、自定义插件安装索引数据量可视化153.2.2 丰富的数据湖分析引擎为满足数据湖数据的各种处理场景需求,百度智能云提供丰富的数
37、据湖分析引擎,包括:兼容各类开源大数据处理分析组件的百度托管大数据分析平台BMR,提供了Spark、Flink、Hive、Hbase等多种数据分析处理引擎;百度数据仓库,专门应对高并发、低延时的PB级实时数据仓库分析场景;百度BES全文检索和分析引擎等。托管大数据分析平台BMR百度MapReduce(BMR),定位于组件完备、高性价比、开源开放的企业级托管大数据平台,包括丰富的hadoop生态组件,如Hadoop、Spark、Hive、Flume、Storm、Flink、Hbase、Druid等,用户可通过界面灵活选择所需组件和配置,一键创建所需集群,并且通过可视化界面、API方式灵活管理集群
38、此外,先进的存储计算分离技术和弹性伸缩技术,确保高可靠的同时,真正帮助用户做到用时高效获取资源、闲时释放资源,帮助用户用低成本获得最高计算性能。百度BMR特点如下:完备大数据生态组件。包括:数据集成组件Sqoop、Kafka等,离线计算组件MapReduce、Tez、Spark等,流式计算组件Flink等,数据仓库组件Hive、Hbase、Druid等,数据分析组件Impala、Presto等,作业调度组件Azkaban、Ooize等,安全管理组件Kerberos、Ranger、LDAP等。一键创建高效运维。根据模版可视化一键创建、开箱即用,支持按需灵活配置,如选组件、选版本、选套餐。此外,
39、全方位可视运维,如平台运行状态、作业执行分析、资源使用监控、多租户配置管理、监控报警配置等。智能弹性扩缩。通过智能弹性伸缩,可以根据作业负载情况或业务周期时间,自动增减计算资源,不会为闲置的计算资源付费,降低用户成本。支持基于场景按时间自由定制伸缩规则,如指定时间点、按天、周、月等周期配置。自定义规则,弹性伸缩如根据CPU负载指标、作业延迟指标、自定义指标依据等。存算分离。通过先进的计算存储分离架构,集群不可抗力异常时可快速恢复,可用性更高;数据存储更可靠,存储弹性扩展,更方便。多层级、全方位安全机制。BMR提供多层级的安全机制保障集群平台和数据的安全。基础架构上,用户基于BMR创建的大数据基
40、础平台运行在独立的VPC网络环境下,从网络上进行隔离,并支持用户主机安全审计。提供Kerberos 和 Ranger组件,为用户提供基于用户身份、作业提交和资源使用,以及数据访问的认证和鉴权,细粒度保障平台和数据的安全。百度数据仓库百度数据仓库是基于Apache Doris(百度捐赠)构建的企业级MPP数据仓库,专门应对高并发、低延时的PB级实时数据仓库使用场景,全面兼容MySQL协议,可以针对亿万级数据实现毫秒级多维分析透视和业务探查。在架构上来看,百度数据仓库与常见的分布式存储系统的架构有些不同,主要有FE(Frontend)和BE(Backend)这两类系统进程,其中FE可以理解为百度数
41、据仓库的管控节点,主要负责用户请求的介入、查询计划的解析、元数据的存储以及集群管理等工作,BE主要负责数据存储以及查询计划的执行,这两类系统进程都可以横向拓展,而不需要依赖任何第三方系统(如HDFS、ZooKeeper等),这样高度集成的架构设计也极大简化了一款分布式系统的运维成本。同时百度数据仓库在FE进程中实现了MySQL兼容协议层,这样用户通过标准MySQL客户端或其他各类工具即可便捷连接到百度数据仓库,并且还支持标准SQL语言,不论是简“云智一体”技术与应用解析系列白皮书 智能大数据篇16单的单表聚合、排序过滤抑或复杂的多表关联、子查询、窗口函数、自定义函数等,都可以通过SQL快速完成
42、极大减少用户使用成本。使用百度数据仓库时,可以从本地、RDS、BOS、百度智能云MapReduce等导入海量数据,进行大数据的多维分析。同时它还兼容主流BI工具,数据分析师可以通过可视化的方式分析和展示数据,快速获取洞察以辅助决策。此外,其还提供了全新UI支持,5分钟上手,即可轻松实现建库建表、数据导入、数据查询。百度数据仓库特点:极致性能。采用了现代化MPP架构,使用高效列式存储引擎和向量化执行引擎,加以智能物化视图技术,可以实现极致性能,100台集群可达10wQPS,无并发瓶颈。简单易用。提供标准SQL支持,完全兼容MySQL协议,同时,灵活的数据模型,Join表现优秀,并具有在线表结构
43、变更、Bitmap索引精确去重等贴近业务场景的实用功能。流批一体。可以支持批量和实时流式数据导入,行级别数据更新/删除,多版本机制解决读写冲突,导入事务支持,保证ACID,实现Exactly-Once语义。极简运维。运维方面,百度数据仓库架构高度一体,无任何外部组件依赖,集群规模弹性伸缩,任何节点可线性拓展,无代码即可完成运维。高可用性。对数据库而言,最核心的宗旨就是要稳定。百度数据仓库在稳定性方面,做到了主节点高可用,数据多副本存储,节点故障自动副本迁移,自动请求路由,数据分片自动均衡。开放生态。百度数据仓库源自百度开源并捐赠的Apache Doris,核心代码全部对外开放,有近200名开发
44、者曾为项目贡献代码;可以与主流大数据生态,比如数据源端的BOS/HDFS/Kafka等数据无缝导入、与Spark进行联邦数据分析、为ES提供分布式SQL查询,以及与主流BI工具进行适配。(图3.2.2-1)百度数据仓库海量规模EB 级别物理空间数万级别服务器万亿级别文件规模高可靠性数据可靠性12个9服务可用性99.95%极具性价比6级分级存储体系智能生命周期管理国内最早磁带介质归档存储行业首发智能存储AI+Picture:智能图像处理AI+Video:音视频处理能力AI+Data:大数据存储,云端数据分析高可用性极致性能简单易用开源生态流批一体极简运维领先的技术架构丰富的场景基于百度智能云 B
45、CC、CDS、BLB部署 内核优化,冷热存储分离、高性能、低成本NLP 技术结合 BES 管控平台 特色与优势BES 集群 Baidu ElasticsearchKibanaBES 管控平台 新建删除索引置冷定时调度 数据量观测基于BOS冷热数据分离 热数据 SSD冷数据 BOS搜索:随时随地搜索任何内容日志分析:充分利用日志价值可视化运维监测:全面管理应用VPC 隔离、热迁移、弹性伸缩云磁盘、数据安全VIP 访问、更换机器、扩缩容、用户无感知企业内搜网站、App应用内搜索、电商店铺等搜索,轻松快速构建强大、高效的搜索体验利用 Elasticsearch+Logstah+Kibana 最适合日
46、志分析的组合,轻松实现日志收集、查询分析和可视化充分利用 Kibana 的可视化能力,全面收集应用数据,支持多种数据集成,丰富的可视化图表功能,随时掌握应用状态基于 BOS 冷热存储分离,成本降低80%领先的百度 NLP 技术、高效中文分词、智能权重识别集群自动部署、启停,高效率运维管理调度管理能力,数据自动置冷插件管理、自定义插件安装索引数据量可视化17 百度Elasticsearch百度Elasticsearch(BES)是开源的全文检索和分析引擎Elasticsearch的托管服务,完全兼容开源Elasticsearch功能,同时内置了基于百度NLP技术的分词插件,以及即开即用、自动运维
47、以及丰富的监控指标,减少用户运维开销,帮助用户快速启动业务分析。技术领先的冷热数据分离能力,帮助用户减少50%+的存储成本。同时具备冷数据可查询功能,用户使用流程无差异。BES应用场景包括:日志分析。利用Elasticsearch+Logstah+Kibana最适合日志分析的组合,轻松实现日志收集、查询分析和可视化,充分挖掘和利用日志数据,辅助实现应用监控、设备运维等。企业搜索。Elasticsearch作为搜索引擎,提供高性能且轻量的搜索能力,常用于企业内搜网站、App应用内搜索、电商店铺等搜索,轻松快速构建强大、高效的搜索体验。可视化运维监控。Kibana作为Elastic生态一员,提供强
48、大的可视化能力,全面收集应用数据,支持多种数据集成,丰富的可视化图表功能,随时掌握应用状态。(图3.2.2-2)文本检索分析-BES领先的技术架构丰富的场景基于百度智能云 BCC、CDS、BLB部署 内核优化,冷热存储分离、高性能、低成本NLP 技术结合 BES 管控平台 特色与优势BES 集群 Baidu ElasticsearchKibanaBES 管控平台 新建删除索引置冷定时调度 数据量观测基于BOS冷热数据分离 热数据 SSD冷数据 BOS搜索:随时随地搜索任何内容日志分析:充分利用日志价值可视化运维监测:全面管理应用VPC 隔离、热迁移、弹性伸缩云磁盘、数据安全VIP 访问、更换机
49、器、扩缩容、用户无感知企业内搜网站、App应用内搜索、电商店铺等搜索,轻松快速构建强大、高效的搜索体验利用 Elasticsearch+Logstah+Kibana 最适合日志分析的组合,轻松实现日志收集、查询分析和可视化充分利用 Kibana 的可视化能力,全面收集应用数据,支持多种数据集成,丰富的可视化图表功能,随时掌握应用状态基于 BOS 冷热存储分离,成本降低80%领先的百度 NLP 技术、高效中文分词、智能权重识别集群自动部署、启停,高效率运维管理调度管理能力,数据自动置冷插件管理、自定义插件安装索引数据量可视化“云智一体”技术与应用解析系列白皮书 智能大数据篇18(图3.3-1)大
50、数据为数字化转型战略中第一要务3.3 一体化平台根据相关机构的调研显示,大数据已成为数字化转型战略第一要务。企业要数字化转型,需要利用大数据技术来构建有价值的数据资产,并通过各种大数据分析技术,基于业务场景来进行数据分析,破解企业生产经营中的应用难题,实现业务的转型和创新。而大数据技术的复杂性、多样性、技术迭代等特性,为企业数字化转型中的大数据应用落地,带来了巨大挑战。百度智能云大数据平台提供全场景、低门槛、开放兼容、安全可靠的一站式数据管理与分析平台EasyDAP。EasyDAP以数据流为核心,形成数据汇聚、开发、分析、管理、服务等一套完整产品体系,并提供简易的可视化开发操作界面,降低使用门






