1、数据湖建设解决方案目 录项目概述1总体规划2建设方案3项目建设背景“4智”应用基础支撑企业集团大数据智能化经营管理智能化业务作业智能化医疗健康行业运营智能化解决数据“汇”、“存”、“管”、“用”、“营”难题数据湖及应用平台数据管理和业务应用要求 数据分散:基础数据分布在各个应用平台中,应用开发商整合能力差;数据管理能力较弱:缺乏统一的数据标准管理、数据质量管理、数据开发管理、数据服务管理、数据安全管理和监控运维管理等;数据利用能力不强:现有数据无法适应新业务需求,同时历史数据无法并入新的系统再利用。集团战略要求 集团战略管控数字化;业务运营数字化;产业协同数字化;管理支撑数字化。“十四五“规划
2、愿景 响应国家“十四五”规划提出的“加快数字发展,建设数字中国”,推进“三医”联动持续深化改革,以“守护生命与健康”为使命,筹划建设“集团城市健康中心”,打造以传统中医药理论为基础,依托现代科技赋能,基于用户关系经营,通过大数据、实体医疗、网络诊疗平台、药事服务平台和新零售平台等提供防、养、调全渠道多场景的健康产品、健康内容、健康定制和健康管理服务,打造一站式解决目标用户健康问题的创新型健康服务中台。集团信息化现状分析集团领导市场财务销售运营办公自动化系统三方OMS生产管理系统全渠道数字化平台移动应用门户网站ERP系统人力资源系统业务信息系统集团级集团财务系统业务系统信息化基本形成体系项目管理
3、级公司级1线上线下业务信息化整合工作稳步推进2决策管理和数据分析应用正在迭代完善3集团统一数据管理和应用体系尚未建成4业务运营和管理遇到的问题分析未统一业务口径和数据标准数据质量层次不齐缺乏统一数据管理支撑平台需方多、变化快信息化投入较大,却不能及时有效了解集团整体业务运营情况海量业务报表,却无法对决策管理提供有效支撑无法通过企业关键绩效指导决策大量时间精力投入到数据收集、报表制作中缺乏统一的业务运营口径和指标标准业务的管理口径和财务口径不一致,各部门运营管理信息存在交叉重复对上级部门运营管理汇报要求不够灵活,响应效率低下;对下级单位数据收集不及时、不准确运营管理缺乏综合性系统和完整的数据支撑
4、能力缺少统一的平台满足决策层、管理层和运营层等对数据应用的各种需求运营管理需求反复变更、“多对多”的情况,IT服务部门疲于应付运营管理应用需求类型多、数量多、口径不一和数据质量差等原因,导致开发周期较长,时效性差等问题业务数据来源分散,缺乏整合统一的基础数据,无法有效支撑决策和管理集团高管层(决策层)IT服务支撑层业务运营管理层数据孤岛、数据分散总体建设目标以“守护生命与健康”为使命,推动企业数字化转型,建立集团数据湖及应用平台,全面提升集团智慧化经营决策管理能力。借助5G、云计算、大数据、物联网和人工智能等技术,重点解决战略闭环、业务运营、管理支撑等业务系统间数据不通和数据孤岛等问题,破解数
5、据“汇”、“存”、“管”、“用”、“营”等难题。通过建立集团统一的数据湖及应用平台,提供数据汇聚、存储、治理、分析、服务、共享、应用和运营能力,夯实企业大数据智能化、经营管理智能化、业务作业智能化、医疗健康行业运营智能化的“4智”应用基础支撑能力,构建跨业务、跨部门和跨层级的融合应用场景,形成企业“数智化”运行的智能中枢,实现经营状态的实时监测,经营数据的辅助决策、指标的智能预警预测,关键问题的智慧决策,打造集团运行管理闭环与智慧化决策能力。总体建设目标数据汇聚能力数据存储能力数据治理能力数据分析能力数据服务能力数据应用能力数据运营能力离线数据采集实时数据采集结构化数据采集非结构化数据采集视频
6、数据采集物联网数据采集互联网数据采集手工数据补录采集数据库数据存储文件数据存储图片数据存储声音数据存储视频数据存储关系图谱数据存储时序数据存储数据架构管理数据标准管理数据建模管理数据开发管理数据调度管理数据质量管理元数据管理数据安全管理数据生命周期管理统计分析灵活查询多维分析数据挖掘人工智能标签管理指标管理知识图谱数据可视化数据需求管理资源目录管理数据服务接口管理数据共享交换管理数据报送管理数据开放管理数据服务评价人员管理用户管理营销管理渠道管理财务管理风控管理工程管理生产管理监管报送数据运维管理数据产品管理数据资产价值评估数据资产营销推广数据资产合作数据资产价值变现数据运营考核评价12345
7、67 总体架构规划 数据架构规划 技术架构规划 应用体系规划 数据治理规划 数据共享规划 平台工具规划 平台建设蓝图规划 建设目标规划数据湖及应用平台框架体系、搭建技术基础平台,实现C端用户数据采集、入湖、治理和共享服务,以及支撑企业务+(私域流量业务)综合分析和智能化应用,总结经验教训,为集团数据湖及应用平台的整体建设奠定基础。目标基础平台搭建数据治理体系建设数据共享服务建设数据分析应用建设框架体系规划大数据平台TBDS安装部署数据治理产品安装部署数据共享交换产品安装部署用户数据采集用户数据建模用户数据开发数据质量检查元数据管理数据标准管理用户需求分析应用设计数据及应用开发数据共享与服务对接
8、共享服务需求分析资源目录梳理共享服务发布共享服务申请用户信息调研共享服务调用12345共享服务授权预期成效:”七步走”解决企业面临的数字化转型发展痛点利用大数据技术建立集团统一的数据湖,实现数据采集、存储、处理、分析和服务的统一管理,提高信息和数据的响应时间,提高经营管理工作效率,有利于压缩开支,降低管理成本,推进数字化转型发展。03020406070503信息烟囱数据分散利益割据数据保密不全面数据标准不统一管理机制不成体系安全保障不健全数字化转型面临的痛点”七步走”解决问题1设立专管机构,完善管理体系2整合数据孤岛,统一数据标准3构建数据采集体系,打通数据整合通道4设计数据存储策略,提升数据
9、存储效率5初步构建数据治理体系6制定数据共享服务策略,促进数据融合安全发展7奠定数据应用基础,打造大数据综合应用能力目 录项目概述1总体规划2建设方案3建设总体思路搭建技术基础平台,探索平台应用能力第一阶段夯实数据基础,推进服务与应用建设第二阶段完善应用体系,提升平台智慧能力第三阶段建立数据运营体系,持续优化平台能力第四阶段数据湖及应用平台建设规划数据采集技术平台搭建数据存储技术平台搭建数据处理技术平台搭建数据调度技术平台搭建数据治理技术平台搭建数据共享技术平台搭建试点数据域(用户)采集、存储、治理、分析和共享实施集团与事业部应用建设全面支撑(人员管理、用户管理营销管理、渠道管理、财务管理、工
10、程管理、合同管理、生产管理、风控管理、应急指挥、监管报送)基础分析能力完善(指标、标签、知识图谱)综合分析应用增强态势感知能力建设实时分析应用场景体系建设算法模型体系建设AI服务体系化建设区块链技术场景应用数据资产运营规划数据产品体系建设数据产品价值评估体系建设数据价值变现体系建设数据运营安全体系建设数据采集能力迭代升级数据治理能力迭代升级数据分析能力迭代升级数据应用能力迭代升级数据共享服务能力迭代升级算法模型中心健全AI服务能力迭代升级场景应用持续推进数据运营考核体系建设数据治理体系咨询规划技术平台能力增强集团与四大事业部数据入湖全域数据采集、存储、治理、分析和共享体系建设数据治理体系建设A
11、I平台搭建与应用探索基础分析能力建设(指标、标签、知识图谱)综合分析应用建设实时分析与应用场景探索重点应用建设支持数据湖及应用平台总体架构(构建六个平台、四个中心、三个保障体系,一个统一门户)运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换离线数据同步实时数据同步数据补录共享监测共享审计权鉴发布订阅认证注册数据源业务系统互联网数据外部数据物联网数据HR系统OAERP主数据渠道系统三方OMS财务系统Hadoop关系数据库MPP内存数据库图数据库对象数据库时序数据库爬虫离线数据处理实时数据处理非结构化数据转化数据统一调度数据分
12、析平台统计分析多维分析即席查询机器学习数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务数据产品服务知识图谱服务可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务库表共享服务接口共享服务共享服务引擎共享服务管理共享服务保障文本识别影像识别语义解析图像识别语音识别数据服务中心数据需求管理应用集成运营可视化数据资源目录管理租户管理统一用户/权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价12345678实时分析9101112业务赋能管理驾驶舱客
13、户营销资金管理财务分析产能预测风险审计用户分析绩效考核监管报送13平台管理实时数据区汇聚区临时库ODS库基础区主题区分析区应用集市区实时数据存储实时分析处理实时指标计算当事人财务用户管理营销管理指标库标签库经营分析用户画像数据湖及应用平台分阶段规划运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换离线数据同步实时数据同步数据补录共享监测共享审计权鉴发布订阅认证注册数据源业务系统互联网数据外部数据物联网数据HR系统OAERP主数据渠道系统三方OMS财务系统Hadoop关系数据库MPP内存数据库图数据库对象数据库时序数据库爬虫离
14、线数据处理实时数据处理非结构化数据转化数据统一调度数据分析平台统计分析多维分析即席查询机器学习数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务数据产品服务知识图谱服务可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务库表共享服务接口共享服务共享服务引擎共享服务管理共享服务保障文本识别影像识别语义解析图像识别语音识别数据服务中心数据需求管理应用集成运营可视化数据资源目录管理租户管理统一用户/权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价1
15、2345678实时分析9101112业务赋能管理驾驶舱客户营销资金管理财务分析产能预测风险审计用户分析绩效考核监管报送13平台管理实时数据区汇聚区临时库ODS库基础区主题区分析区应用集市区实时数据存储实时分析处理实时指标计算当事人财务用户管理营销管理指标库标签库经营分析用户画像二阶段:夯实三阶段:完善一阶段:打基础四阶段:运营事业部数据资源池集团数据资源池实时区实时数据存储实时分析处理实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据基础区当事人内部机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目主题区用户管理营销管理运营管理风险管理财务管理集市区经营分析用
16、户画像风险审计监管报送产能预警财务分析事业部应用分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区123456123456数据湖及应用平台数据架构(统一标准,构建集团和四大事业部数据湖的六大数据区)(1)数据源(2)采集(3)汇聚(6)共享服务(4)治理(5)分析(7)数据应用标签服务API实时服务API数据库共享文件共享数据共享服务API共享离线采集实时采集消息CDCAPI.文件数据库接口补录填报.实时数据源物联感知数据实时营销数据物流数据离线数据源业务系统HR系统OAERP主数据渠道系统三方OMS财务系统外部数据互联网数据数
17、据来源数据采集平台指标服务API关系图谱服务API数据检索服务API数据安全服务API数据应用管理驾驶舱客户营销资金管理财务分析产能预测风险审计指挥调度绩效考核监管报送用户分析集团数据湖与事业部四大数据湖之间定位及关系探讨事业部数据资源池集团数据资源池实时区实时数据存储实时分析处理实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据基础区当事人内部机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目主题区用户管理营销管理运营管理风险管理财务管理集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库O
18、DS库事业部基础区事业部主题区事业部分析区事业部应用集市区123456123456方案一:事业部独立建设数据湖,集团汇聚整合建湖方案二:集团统一建湖,事业部数据湖同步和特色发展方案建议:集团领导牵头,统一标准和统一建湖 方案描述:事业部根据自身业务特色构建数据湖和数据治理体系,集团数据湖汇聚事业部数据湖数据,设计数据标准,进行数据治理、数据分析和数据共享服务。优点:建设灵活,能快速满足各事业部和集团数据湖的应用需求。缺点:难以统一标准和数据口径,多头数据采集,后期维护工作量较大。方案描述:集团数据湖统一标准和数据治理体系,统一汇聚、治理、分析和数据共享服务;集团数据湖根据事业部数据需求统一分发
19、数据,事业部同步数据和,并根据自身特色构建数据湖及应用。优点:集团与事业部数据标准统一,后期管理协调难度较少。缺点:前期统一难度较高,事业部建设灵活度不高。先进经验:目前信息化领先行业和企业的数据平台能力建设,大部分采用集团统一标准、统一建设、统一管理和统一运营。方案建议:目前集团和事业部业务系统已较为完备,数据湖建设处于起步阶段,为集团统一标准和建湖奠定了基础。目 录项目概述1总体规划2建设方案3建设范围数据湖平台框架体系规划、技术基础平台搭建,集团C端用户数据采集、入湖、治理、共享服务和用户分析应用 总体架构规划 数据架构规划 技术架构规划 应用体系规划 数据治理规划 数据共享规划 平台工
20、具规划 平台建设蓝图规划 1.数据湖平台框架体系规划3.数据汇聚4.数据资源中心建设5.数据治理6.数据分析2.平台搭建7.数据共享服务 TBDS基础平台搭 数据治理平台搭建 数据共享服务平台搭建 健康事业部用户数据汇聚 省医药公司用户数据汇聚 药品事业部用户数据汇聚 云健康事业部用户数据汇聚 信息调研 基础区数据模型设计 主题区数据模型设计 应用数据集市模型设计 数据清洗、转换和汇总 数据标准管理 元数据管理 数据质量管理 C端用户分析需求调研 C端用户数据分析设计 C源用户数据分析开发 C端用户数据资源目录梳理 C端用户数据共享发布建设总体思路事业部用户数渠道分析用户月活用户日活地域分析时
21、间分析数据入湖及治理数据分析应用数据可视化FineReportFineBI用户信息数据用户标签模型填报数据、参数数据采集数据建模数据清洗数据加载数据整合数据汇总数据源健康事业部省医药公司药品事业部智慧零售达人管理微信公众号后台医疗器械app电商系统数据excelerp孩子王电商saas云健康电商平台用户电商平台用户门店用户数据生意参谋数据共享服务用户资源目录梳理用户数据目录挂接用户数据共享发布逻辑架构:搭建基础平台,以集团C端用户需求为试点打通数据湖链路本期范围运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换离线数据同步实
22、时数据同步数据补录共享监测共享审计权鉴发布订阅认证注册数据源业务系统互联网数据外部数据物联网数据HR系统OAERP主数据渠道系统三方OMS财务系统Hadoop关系数据库MPP内存数据库图数据库对象数据库时序数据库爬虫离线数据处理实时数据处理非结构化数据转化数据统一调度数据分析平台统计分析多维分析即席查询机器学习数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务数据产品服务知识图谱服务可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务库表共享服务接口共享服务共享服务引擎共享服务管理共享服务保障
23、文本识别影像识别语义解析图像识别语音识别数据服务中心数据需求管理应用集成运营可视化数据资源目录管理租户管理统一用户/权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价12345678实时分析9101112业务赋能管理驾驶舱客户营销资金管理财务分析产能预测风险审计用户分析绩效考核监管报送13平台管理实时数据区汇聚区临时库ODS库基础区主题区分析区应用集市区实时数据存储实时分析处理实时指标计算当事人财务用户管理营销管理指标库标签库经营分析用户画像数据架构事业部数据资源池集团数据资源池实时区实时数据存储实时分析处理实时指标计算汇聚区临时库ODS库集团
24、数据健康数据药品数据中药数据省医药数据基础区当事人内部机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目主题区用户管理营销管理运营管理风险管理财务管理集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区123456123456(1)数据源(2)采集(3)汇聚(6)共享服务(4)治理(5)分析(7)数据应用标签服务API实时服务API数据库共享文件共享数据共享服务API共享离线采集实时采集消息CDCAPI.文件数据库接口补录填报.实时数据源物联感知数据实时营销
25、数据物流数据离线数据源数据来源数据采集平台指标服务API关系图谱服务API数据检索服务API数据安全服务API健康事业部用户数据省医药公司用户数据药品事业部用户数据云健康事业部用户数据数据应用管理驾驶舱客户营销资金管理财务分析产能预测风险审计指挥调度绩效考核监管报送用户分析本期范围1.数据湖平台框架体系规划行业最佳实践平台提升机会专家知识战略定位应用体系规划规划原则调研问卷调研访谈现状调研评估建议分项规划目标现状期望问题总体评估平台提升建议提升机会分析总体架构规划技术架构规划数据架构规划数据共享服务规划运维体系规划蓝图规划与演进蓝图规划与演进平台工具规划数据治理规划业务与IT部门输入服务提供商
26、输入与分析2、基础技术平台搭建需求沟通1环境准备2平台安装部署3平台部署验证4平台优化完善5 TBDS部署需求沟通 数据共享交换部署需求沟通 数据治理部署需求沟通 网络访问需求沟通 服务器确定 网络环境确定 端口环境确定 操作系统确定 软件版本确定 操作系统安装部署 TBDS安装部署 数据共享安装部署 数据治理安装部署 平台功能验证 平台访问和服务验证 平台系统接口验证 外部接口验证 网络访问验证 平台实施需求支持 应用功能优化完善 系统运行问题处理 平台搭建流程预期成效用户分析平台搭建完成,操作使用正常具备数据湖实施支撑能力具备完整平台运维文档3、数据采集汇聚提供异构数据源之间的数据同步能力
27、,实现集团C端用户整库迁移、全量数据汇聚、增量数据汇聚、ETL任务管理和监控运维。数据汇聚架构数据汇聚流程汇聚范围确定1汇聚信息整理2数据汇聚开发3任务调度配置45 汇聚业务范围确定 汇聚系统范围确定 汇聚表范围确定 汇聚手工数据范围确定 系统信息整理 数据字典整理 接口信息整理 网络信息整理 汇聚调度任务整理 汇聚调度任务基础信息配置 汇聚调度任务依赖触发配置 任务调度测试验证 调度任务监控配置 汇聚任务监控预警 汇聚监控任务故障处理 日常运维巡检 汇聚监控运维 用户信息配置 数据源配置 汇聚区建表配置 数据汇聚任务配置与开发 数据汇聚任务测试 数据汇聚查看和问题处理 预期成效数据汇聚需求数
28、据源汇聚知识库采集汇聚引擎采集汇聚知识库汇聚知识库数据源管理数据采集开发管理数据采集调度管理数据采集监控预警汇聚区数据库文件CDC日志消息接口临时区ODS数据汇聚平台健康事业部省医药公司药品事业部智慧零售达人管理微信公众号后台医疗器械电商系统数据erp孩子王电商平台智云健康电商平台用户电商平台用户门店用户数据生意参谋4、数据体系建设总体流程信息调研(ID)业务需求分析应用概要设计项目前期准备业务调研(BD)业务需求编写应用开发系统软硬件资源安装系统测试与验收系统管理与维护项目结束回顾业务访谈项目管理(Project Management)应用详细设计前端界面设计逻辑数据模型设计物理数据模型设计
29、数据接口规范设计映射/ETL/实时数据开发应用设计需求分析系统开发系统设计上线与维护数据治理4、数据资源中心建设步骤一:信息调研工作内容了解企业的整体IT架构和发展规划了解企业的当前业务系统的现状了解3-5年内业务系统建设的规化了解企业针对信息系统建设标准化的规划详细查看每个实体业务含义和数据特征、并且进行分类和取舍定义详细查看每个字段业务含义和数据物理特征、进行分类和取舍定义掌握针对人员、组织机构、客户、营销、产品、渠道、合同、财务、生产、ERP等定义重要业务编码规则仔细整理业务系统的代码编码、主外键关联关系检查客户提供的重要业务编码规则是否在系统中完整执行检查业务系统的代码的一致性和完整性
30、,并且做出代码映射关系基于实体和字段的物理特征,给出初步的数据质量审核报告基于现有ID情况,结合业务需求调研,进行简要的缺口分析识大局找关系掌握业务系统之间的业务功能划分掌握业务系统之间的数据交换、流向、以及数据衍生关系掌握现有分析系统从业务系统之间进行数据抽取的内容和方式掌握现有分析系统和业务系统以及应用系统的数据回送情况看细节查质量调研流程1.收集源系统源:系统需求文档、操作手册、表结构说明书、代码值、样本数据、建库脚本1.了解系统系统架构、功能、业务处理及其它系统间的关系2.了解系统的数据量、改造计划、软硬件平台3.了解数据表的业务含义,并初步筛选出关注的表4.筛选出需求相关的表1.通过
31、分析样本数据验证前期调研的结果、分析表间关系2.在复原源系统ER图的过程中了解表之间关系、表与字段的业务含义1.根据调研结果及入模型策略筛选入仓范围2.基于信息调研结果编写信息调研报告1.分系统确认信息调研报告:主要确认如模型范围2.评审信息调研报告准备访谈分析评审1.了解源系统的字段的业务含义2.只调研初步筛选关注的表(1)生产系数据统结构与资料不一致怎么办?(2)源系统设计人员不配合怎么办?(3)入模型范围如何确定?(4)资料收集资料收集系统与表级调研字段级调研样本数据分析调研报告编写调研报告评审1234564、数据资源中心建设步骤二:数据模型设计方法物理模型(技术)逻辑模型(业务)概念模
32、型参考模型行业数据模型选择:行业主题模型数据主题与主要数据概念客户化逻辑数据模型客户化物理数据模型业务访问数据模型Consistent Compliance Infrastructure AssuranceOperational Analysis&Reporting EnhancementEnterprise Performance Management EnablementFinancial Process OptimizationFinancial Reporting&Analysis ImprovementConsistent Compliance Infrastructure Assu
33、ranceOperational Analysis&Reporting EnhancementEnterprise Performance Management EnablementFinancial Process OptimizationFinancial Reporting&Analysis ImprovementAsset Liability ManagementActive Loan Portfolio Limit and Collateral ManagementOperational Risk&Operational VaRAnti Fraud&Money LaunderingM
34、arket Risk&Market VaRCredit Risk&Credit VaRPerformance Measurement&Capital Allocation(RAROC)Compliance&Disclosure(Basel II)Asset Liability ManagementActive Loan Portfolio Limit and Collateral ManagementOperational Risk&Operational VaRAnti Fraud&Money LaunderingMarket Risk&Market VaRCredit Risk&Credi
35、t VaRPerformance Measurement&Capital Allocation(RAROC)Compliance&Disclosure(Basel II)Channel MigrationProduct Development&PackagingDistribution Channel OptimizationPayment AnalysisPerformance ManagementSales&Performance ReportingChannel MigrationProduct Development&PackagingDistribution Channel Opti
36、mizationPayment AnalysisPerformance ManagementSales&Performance ReportingCustomer EquityCustomer AcquisitionCustomer RetentionTarget MarketingOrganic GrowthEvent&Campaign ManagementCustomer EquityCustomer AcquisitionCustomer RetentionTarget MarketingOrganic GrowthEvent&Campaign ManagementCustomer Ma
37、nagementOperationsManagementRiskManagementFinance&PerformanceManagementFront-line Users,Customers,PartnersOperational BI UsersBusiness Users Power UsersIT,Miners视图集市报表业务需求数据要素清单数据整合映射映射制造业企业行业模型数据湖数据库4、数据资源中心建设步骤二:数据区定位与数据模型设计流程数据资源中心各区定位模型设计步骤汇聚数据区 源系统分类 数据不整合 保留长期历史数据 保留明细数据 全量数据 增量数据基础数据区 主题分类 数据
38、整合 保留长期历史数据 保留明细数据主题/分析数据区 主题分类结合维度建模 数据整合 保留一定周期的历史数据 保留部分明细/汇总加工数据集市区 维度建模为主 数据整合 保留特定业务需求的历史数据 保留部分明细/汇总加工数据面向数据面向需求从业务的角度出发满足公共需求迭代开发全部原始数据核心数据、清洗融合后汇总与分析数据特定需求数据(1)前期准备项目管理:文档、沟通、问题跟踪、回顾、验证、测试、认可方法技术工具模板经验业务知识(2)信息调研(6)物理模型设计(3)构建主题模型(4)构建概念设计(5)逻辑模型详细设计逻辑模型设计(7)设计评审/验证物理模型实现:ETL开发4、数据资源中心建设步骤二
39、:基础区数据模型设计行业主题模型设计参考用户模型设计部分参考当事人偏好当事人偏好频率当事人偏好类型当事人偏好联系事件当事人偏好媒介类型当事人偏好当事人当事人偏好当事人角色当事人偏好地点当事人偏好地点角色当事人偏好地址地理区域地址当事人偏好语言当事人基于成熟行业模型蓝本,构建集团C端用户基础数据模型,融合集团和事业部内外部数据、规避变化、形成统一的当事人数据视图。线下活动数据订单编号商品名称订单金额买家ID收货人姓名收货地址联系电话发票抵扣券订单创建时间微信行为数据扫描二维码关注公众号微信ID昵称公众号留言打开微页面注册会员来源渠道关注公众号访问活动微页面提交活动表单姓名手机号邮箱数据采集、数据
40、清洗微信openidEmailMAC华东地区基本信息:男性30岁微信unionid手机号码CookieQQ用户ID:行为轨迹:会员信息:会员等级会员积分会员权益电商订单数据用户在不同平台以不同的 身份留下行为轨迹。通过建立ID 关联机制,在基础区进行数据建模和标准化,在不同渠道的身份对应到唯一的独立身份,不 断累积用户的行为“像素”。在基础区建模的基础上,根据用户特征形成清晰的用户360画像。4、数据资源中心建设步骤二:用户标签数据模型设计线上媒体数据Cookie访问行为记录手机号车型页面停留时间试驾时间姓名城市数据采集、数据清洗数据采集、数据清洗数据采集、数据清洗用户画像主题建模ID识别基础
41、区建模数据标准化【订单】女装无缝羽绒长大衣409125 金额:1299元收货地址:上海市X区XX大街手机号:138*8271购买时间:2018/01/11 09:21:21沟通时间:2018/01/0412:18:00 所在渠道:小程序商城手机号:138*8271咨询问题:倍舒暖与HEATTECH区别【订单】童装 Ultra Stretch 起居套装 414607 下单时间:2018/01/31 20:22:00下单门店:上海淮海中路旗舰店订单金额:129元付款方式:支付宝2017/10/21 19:40:22 关注公众号微信昵称:skyfly001微信OPENID:nsisuykksikqy
42、阅读“U系列2019春夏款Lookbook”点击菜单“会员福利-50元心意券”阅读“2018年代表作”文章点击菜单“年货买买买”点击商城-男装-HEATTECH,访问某倍舒暖商品详情页收藏男装HEATTECH螺纹圆领T恤413314 浏览新春新品活动页访问时长 00:21:34 跳出电商平台自有平台客服线下门店静态标签流程标签模型标签预测标签性别地域年龄职业婚否有孩相对稳定的信息、人口学属性、身份属性根据行为与轨迹、自定义规则,自动添加参与X活动浏览X页面报名领取权益线上消费线下消费教育水平依据属性行为、计算得出的客户标签重要价值客户品类偏好-童装30天活跃度-120分购买力-高利用算法训练模
43、型得到的预测标签预测流失风险-低需求推荐-限时特优-女装复购可能预测-高情感产品活动信息偏好偏好场景偏好销售价格终端体系情感视觉促销卖点系统活动关键衍生词品消费者维度人口认知信息信息产品维度基本功能信息卖点内容场景地点社交文化类型属性氛围4、数据资源中心建设步骤二:用户标签设计源数据标签构建标签体系ETL知识库ETL调度管理ETL任务管理日志管理负载管理ETL监控4、数据资源中心建设步骤三:数据开发体系框架追加清洗、转换和标准化汇总加载基础数据区临时区应用数据集市区实时数据区数据汇聚平台主题区ODS库汇总提炼加工任务文件加载任务应用数据加工任务实时数据处理文件检查任务数据汇聚加工任务数据清洗转
44、换任务数据质量检查任务数据抽取加载任务数据治理任务数据处理任务抽取加载任务数据质量管理业务检核任务文件监听抽取触发定时元数据管理库实时数据采集数据库主动采集数据文件采集消息、接口追加清洗、转换和标准化分析区提炼提炼提炼ETL开发管理ETL任务管理数据汇聚平台元数据加载任务4、数据资源中心建设步骤三:数据开发流程与支撑工具数据开发准备1建库建表2数据映射3ETL配置开发45 建库建表环境准备 开发系统准备 配置文件准备 信息调研结果 数据模型成果.创建数据库 创建数据库用户 创建数据表 数据库表赋权 单元测试模板准备 单元测试执行 单元测试报告 单元测试6ETL调度配置7系统集成测试 表映射 字
45、段映射 代码映射 关联过滤条件映射 数据开发参数配置 数据映射导入 数据开发配置 公共代码配置 脚本编写调试 调度任务整理 调度任务基础信息配置 调度任务依赖触发配置 调度任务测试验证 集成测试模板准备 集成测试执行 集成测试报告 数据开发流程数据开发工具支撑4、数据资源中心建设步骤四:数据统一调度管理邮件短信外部管理应用ETL AutomationRepositoryETL调度平台管理与控制模块知识库模块Master模块消息接口功能接口Agent模块实时监控系统管理统计分析控制台系统插件文件监控定时任务BTEAgent1Agent2Agent nPrimaryStandby一站式开发平台数据
46、治理平台其他工具调度程序生成器历史明细引擎元数据数据质量数据标准数据生命周期批量接口直连接口Cube构建引擎数据加载数据同步数据卸载质量检查清洗融合分析汇总数据挖掘机器学习触发5、数据治理建设:数据标准管理数据标准设计流程1.标准框架1.数据主题2.设计范围3.优先策略4.工作重点5.配合支持6.2.现状调研1.现有定义2.使用习惯3.问题梳理4.现状分析5.参考文档6.3.标准设计1.信息大类2.信息小类3.信息项4.数据类型5.重要规则6.4.标准映射1.系统范围2.应用领域3.数据表4.数据字段5.数据取值6.5.标准执行1.影响分析2.范围/顺序3.系统改造4.新建系统5.手工补录6.
47、6.维护反馈1.标准发布2.管理机制3.工作流程4.维护增强5.配套工具6.标准范围含哪些?目前的状况如何?标准应该什么样?这些内容都在哪儿?标准应该如何执行?如何维护理标准?数据标准工具支撑基础标准管理:为实体及属性设置标准统计标准管理:为统计指标设置标准机构清单管理:为层级化实体设置标准公共代码管理:引入国家、行业或企业自定义的代码标准业务术语管理:为元数据业务口径配置业务术语命名规范管理:为系统各类标识符设立统一标准标准内容管理标准审核浏览:查看目前已发布的各类标准详情标准审核审批:审核新创建的标准并发布标准评分评分体系库管理:设置元数据标准评分计算要素权重标准评分管理:管理各级元数据的
48、标准评分132标准审核管理5、数据治理建设:元数据管理元数据管理流程元数据管理工具支撑元数据采集可以对技术元数据进行细粒度到字段级别的全链分析,影响分析和血缘分析元数据使用包括技术元数据和业务元数据使用142血缘&影响分析支持上10种异构元数据采集,采集配置、采集任务的管理和采集任务配置元数据地图35知识中心按照数据资产的层级分类,以3D形式展示各个层级数据资产的汇总情况支持文档上传、下载、在线预览元数据采集1血缘影响分析2元数据利用3元数据运营维护4 数据源配置 元数据采集任务配置 数据库元数据采集 文件元数据采集 接口元数据采集 脚本元数据采集 ETL调度元数据采集 元数据检索 系统、表与
49、字段血缘关系分析 系统、表与字段影响分析关系分析 业务元数据分析 元数据采集监控预警 元数据采集问题处理 系统日常运维监控 数据资产展示 数据字典管理 数据对标 业务指标管理 数据质量检查 系统故障排查 变更影响评估 5、数据治理建设:数据质量管理数据质量管理流程数据质量管理工具支撑数据质量检查规则管理包括检查模板(质量检查SQL脚本)的新建、编辑及删除等工单管理包括工单流程的新建、浏览及审批132检查模板管理数据质量库2.配置质量检查规则3.部署检查脚本4.数据质量报告1.收集数据质量管理需求元数据资料库基于元数据配置数据质量规则增加数据质量规则集5.质量问题工单跟踪处理抽取数据源数据源基础
50、区主题区传输汇聚区转换加载汇总抽取ETL处理流程数据质量检查数据集市分析区数据质量管理7.质量考核评价6.处理结果查询提供检查规则的创建、编辑、删除、启用及停用等功能数据质量探查45质量评分管理一是自动探查,根据系统内置好的探查模板自动对数据进行预设好的分析检查;二是手动探查,自定义方式设置探查模板,再根据探查模板对数据进行分析检查包括评分体系库管理(为元数据质量评分设置评分标准)和质量评分管理(管理各级元数据系统的质量评分)6、数据分析试点应用(运用BI工具对集团C端用户综合分析)用户地域分布产品地域销量门店地域分布用户数量统计用户增长分析日活用户分析用户年龄分布用户评价分析地域用户消费分析
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100