数据挖掘在保险精准营销中的应用-开题报告.docx

资源描述

课题来源及研究的目的和意义 1.1 课题来源自选课题 1.2 选题价值及意义大型的保险公司已将数据挖掘应用到保险业务中，但由于应用在保险行业的分析模型不是很健全，目前在实际操作中一般都采用套用现成算法的方式，导致其结果不是特别的理想。数据挖掘不只是数据的组织和呈现，而是一个从理解业务需求，寻求解决方案到接受实践检验的完整过程，过程中的每个阶段都需要建立科学的方法。数据挖掘是精准营销创造商业价值的关键，也应该是精准营销重要组成部分。在保险企业中,应用数据挖掘有以下好处:从业务数据方面看,利用企业经营积累起来的海量数据,经过数据预处理等操作后,并最终挖掘出有用的信息、规则,用来帮助企业的管理者进行正确的决策。站在未来的角度上看,数据挖掘通过对业务数据进行研究与分析,可以预测出企业相关经营方面未来的发展趋势,基于对客户群体进行分类,推出满足客户需求的相关商业产品,并挖掘出潜在客户群体等。另外,从目前的发展和运用现状来看,数据挖掘技术未来发展市场十分广阔。而且数据挖掘技术与保险企业商业问题的结合也应当是一个必然的过程。随着保险企业自身经营管理的不断完善,从海量的业务数据中,获取有价值的信息和知识,分析并研究客户喜好及消费行为特征,并推出适合客户需求的产品,针对客户进行具体的营销,赢得市场地位,对于保险企业来说,是未来快速发展、赢得企业生存的关键。因此,学习与运用数据挖掘技术,也是保险企业未来人才培养的一个重要方面。 2.国内外在该方向的研究现状及分析 2.1 精准营销国内外现状精准营销在国外发达国家已经有几十年的历史,己经成为各类型企业的常规营销方式。杰罗姆·麦卡锡（E.Jerome McCarthy）于1960年在其《基础营销》（Basic Marketing）一书中第一次将企业的营销要素归结四个基本策略的组合，即著名的“4P’s”理论：产品（Product）、价格（Price）、渠道（Place）、促销（Promotion），由于这四个词的英文字头都是P，再加上策略（Strategy），所以简称为“4P’s”。在1976年，“现在营销学之父” 菲利普·科特勒在其代表作《营销管理》进一步确认了以4P为核心的营销组合方法论。 1990年，美国学者罗伯特·劳朋特（RobertLauterborn）教授提出了与传统营销的4P相对应的4C营销理论。4C（Customer、Cost、Convenience、Communication）营销理论以消费者需求为导向，重新设定了市场营销组合的四个基本要素：瞄准消费者的需求和期望（Customer）。首先要了解、研究、分析消费者的需要与欲求，而不是先考虑企业能生产什么产品；消费者所愿意支付的成本（Cost）。总的来说，4C理论认为,对现代企业来讲,重视产品,更要重视顾客;追求成本,更要追求价格;提供消费者的便利比营销渠道更重要;营销活动不单纯是在促销,而是与客户有效的沟通。4C理论以顾客的便利与满意为企业营销的根基,企业必须从消费者的角度出发,为消费者提供满意的产品和服务,才能在竞争中立于不败之地。目前，最为流行的营销模式是3P3C，Probability（概率）：营销、运营活动以概率为核心，追求精细化和精准率。Product（产品）：注重产品功能，强调产品卖点。Prospects（消费者，目标用户）。Creative （创意，包括文案、活动等）。Channel （渠道）。Cost/Price（成本/价格）。而在这其中，以数据分析挖掘所支撑的目标响应概率（Probability）是核心，在此基础上将会围绕产品功能优化，目标用户细分，活动创意，渠道优化，成本的调整等重要环节和要素，共同促进数据化运营持续完善，甚至成功。相对于发达国家,精准营销在中国的发展起步较晚,但是发展速度非常快。三十年改革开放,中国营销经历了一个从“无到有”从“有到强”的过程;三十年市场营销的实践磨练,中国企业积累了很多营销经验、也培养了很多营销人才、形成了较为系统的营销理论,从整个大的层面还是积极的、卓有成效的。但是真正意义上的精准营销在国内的发展起步比较晚,中国企业对于数据库营销的核心,包括“客户识别”“客户分析”“客户互动”“客户体验”的数据库营销专业领域,往往知之甚少,因此中国企业普遍较为缺少精准营销的意识,与这种现象在一定程度上也体现了精准营销在中国发展的不成熟。 2.2 数据挖掘国内外现状在保险业中,美国进行数据挖掘系统研究最为著名的公司是艾克国际科技有限公司(AkuP),其研发的数据挖掘系统能够提供前后端分析的完整功能,且可以做到对保险客户进行一对一行销(One to One Mar-keting)。总体上,其主要功能涵盖了策略层、战术层、执行层,详细包括保险客户的组成、成长潜力、稳定度,防患客户流失、进行客户风险管理,帮助业务人员掌握客户信息等。根据国外相关研究报告的数据显示,数据挖掘在国际市场上的营业份额已经远远超过了数百亿美元。在国外,保险、零售、银行等企业引入数据挖掘系统相关工具所占的比例最高,这些企业在成功引进数据挖掘工具以后,销售营业额、市场份额等相比以前都有大幅提升。因此,基于数据挖掘的应用系统与工具也相继延伸到国外各行各业的相关领域,发挥着其作用。 20世纪末,数据挖掘在进入中国后,起先在证券业、银行业得到广泛的应用与实践,而保险业是继前二者之后,才逐渐引入数据挖掘进行海量数据的分析与研究,随后,采用信息化技术来提高各保险公司的竞争力也成为共识。国内的多数企业,为了追上这股浪潮,紧跟信息化革命的步伐,也投入了相当大的人力、物力、财力等来引进数据挖掘技术。特别是在我国的许多大型国有企业中,比如保险、银行、证券、电信等,这些企业都拥有海量的数据资源,且企业经济实力强大,行业规模扩展快速等特点,其在数据挖掘系统应用方面已经迈出了坚实的一步. 2.3数据挖掘在保险精准营销中的应用保险领域的数据挖掘就是从保险行业所积累的大量数据信息中，通过知识发现技术，发掘感兴趣的模式或知识，来满足保险行业和监管部门的应用要求。数据挖掘技术在保险精准营销系统中所发挥的重要作用己经逐渐被认同。数据挖掘一开始就是面向应用而诞生的,所要涉及到的挖掘问题主要分为以下俩类： 1. 关联问题。关联规则研究主要有两个方向:一是在研究的问题中,假定用户购买的所有产品是同时一次性购买的,分析的重点就是所有用户购买的产品之间关联性;二是序列问题,即假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,这是关联问题的一种特殊情况。 2. 分类问题。分类问题属于预测性的问题,但又区别于普通的预测问题,其预测的结果是类别而不是具体的数值。例如：对客户进行分层，基于一个客户的相关信息，判断出他属于哪一层的客户，未来一段时间是否会购买某类保险？将来是否会成为保险公司的高价值客户？围绕保险领域的不同需求，可将其归纳为：保险产品的设计、营销方式创新。 1.保险产品设计。从保险产品设计与开发的角度出发,分析对于保险条款、保险费率具有重大影响的产品结构、技术结构及所有者结构等因素,满足市场的实际需要。在研制开发保险产品的过程中,需要充分注意适应这些因素的变化,积极开发各种保险产品;通过分析已购买某种保险的人是否同时购买另一种保险,从而可以推进保险产品的创新,行交叉销售和增量销售,提高客户满意度。未来的保险市场必将是保险产品不断得到创新的市场。 2. 营销方式创新。通过对客户信息的挖掘来支持目标市场的细分和目标客户群的定位,制定有针对性的营销措施,包括保险公司的专职人员、代理人员等传统渠道以及经纪人、电话、计算机网络和银行等辅助渠道,提高客户响应统率,降低营销成本。 3.主要研究内容 3.1 技术方案保险行业在海量数据信息的时代，传统的营销模式缺乏针对性。当客户数量提高、相应的信息量增多、所需保险种类复杂化，如果只依靠传统的营销模式来解决问题，那必定带来很大的人力和财力的损伤，同时会降低工作效率。如此下去，随着需求的不断增加或变更，传统的营销模式没有从根本上解决海量信息带来的挑战，甚至会流失一部分的客户。针对精准营销的主要研究内容如下： 3.1.1 ETL数据预处理我们要对保险公司提供的原始数据进行预处理后，在可以加载到我们的处理平台上，这个过程，我们需要做到以下几部：（1）数据清洗。数据清洗主要处理空缺值、噪声数据。针对于空缺值的处理，我们可以采用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。依靠现有的数据信息来推测空缺值，使空缺值有很大的机会保持与其他属性之间的联系。还可以用全部变量来替换空缺值、或是用平均值来填充。针对于噪声数据，我们可以采用分相或是回归的办法来处理。（2）数据集成。我们从保险公司拿回来的数据，不可能是统一的格式，针对于不同来源的数据，我们要把它合成同一的模式。首先要做到模式集成，即把不同信息源中的实体匹配来进行模式集成。在集成过程，会出现一个属性多次出现或一个属性命名不一致的问题，针对属性冗余的问题，可以用相关分析监测，然后删除冗余的属性。（3）数据转换。数据转换的目的就是把数据转换成有利于进行数据挖掘的形式。针对于数据属性，我们可以删除一些无关的属性、也可以把一些属性进行维归约，甚至针对于一些关键性的属性，我们可以细化它的属性。 3.1.2 并行数据库运算环境下，提出客户精确分类和客户与产品关联分析组合算法本文的目的是寻找一种适合保险营销的算法，来解决目前营销的困难，营销的最大的困难就是客户以及针对于客户的产品设计。针对于客户的管理，我们要做到对客户的分层，分类管理，把客户按照现居住地，性别，家庭状况，以及收入情况等属性进行细分。针对以购买保险的客户，关联出已购买的保险种类与细分的属性之间的关系，将关联出的关系应用到潜在客户，替潜在客户找到适合自己的产品；根据客户的生活状态、家庭状态，找出适合客户的隐藏产品，实现针对性、交叉性销售。 3.1.3对挖掘出的结果进行验证数据挖掘的模型，是要经过验证，一般的情况下，置信度在80%以上就可以投入应用中。挖掘结果验证的方法有两个，一是对现有数据进行抽样观察，用具体的结果支持我们的计算结果，这个是验证；另一个更重要和更有价值，需要保险公司的业务部门根据我们计算的结果，对客户进行深入的精准营销作业，然后搜集指导作业的结果，分析精准定向销售的成功率的提升情况，用实际业绩的数据来验证我们的研究成果。 3.2 关键技术方法关键问题一：产品分类、客户分层，客户分类。特别是客户分类是精准营销的前提。当前寿险行业（我们目前能拿到主要就是寿险企业数据）的客户的分类，一般是基于下面几个分类模式的：地理变量、人口统计变量、心理变量、行为变量。由于是本地保险企业某个范围内的数据，地理变量的影响很小，人口统计变量对寿险的影响特别大，是本课题的研究重点。中国人对保险产品的认知和偏好，明显与西方不同，而保险行业在中国的真正的发展时间还很短，很多与中国国情和文化有关联的问题都没有得到比较深入的研究。比如，提出两个有关客户分类的问题，一是“代沟”，二是“家庭关系”。代沟问题是大家常谈的社会问题，中国最近30年发生剧烈的社会变革，年龄跨度几年的人，其对社会的认知模式和消费习惯就可能有重大的区别，必然影响保险产品的销售趋向，那么如何在保险客户数据中，找到并比较准确的“代沟分类阈值”？另一个“家庭关系”，建立稳定家庭的客户显然是购买人寿类保险产品的主力，而购买保险产品的过程中，中国体现了很强的“家主决策权”，在客户分类的过程中，家庭关系作为一个特殊的、多指向的、数据元内部有交叉关系的变量组，必然会深刻影响客户的分类方法，以及在后面依附于分类计算结果之上的关联计算方法和计算结果。这是本课题研究的另一个重要问题。本课题对保险用户的分类方法虽然还属于当前流行的大类分析方法中的类型，但相比一般粗糙的分类方式，我们采用了更精细、更深入的分类方法，当然对分类算法就需要进行深入的定制、优化研究。关键问题二：根据前面对客户分类的设想，在分类中出现用关系表来描述的客户种类属性的情况下，客户属性要体现“家庭单位和成员关系的客户分类属性”，本身可能是一个多维表，那么当下普遍采用的关联关系的二维计算方法都是用来分析两个一维数据属性之间的关系，比如当前主流的Apriori算法。当前通用的算法如果不进行改进和局部的特殊设计，显然不能满足对本课题对应的保险客户数据属性表与产品表之间进行关联分析的运算要求。这就要求我们对关联算法的具体定制和完善，进行研究和创新。 3.3技术、实验条件如果采用传统的数据库进行海量数据的存储、并在其基础上进行查询分析操作时，会出现检索速度慢以及不易扩展的问题，提出基于GP的分布式存储模型（如图所示）。图1.1 GP的系统结构采用成熟的商用并行数据库平台Greenplum作为本项目的主要数据库和分析挖掘运算环境。该系统是基于postgreSQL发展的商业系统，特点是采用一组分布式多节点服务器组成并行运算结构，特别适合进行频繁的高密度表关联计算。系统平台的基本配置是一个核心管理服务器管理一组运算节点单元服务器，运算节点单元服务器可以根据数据量和运算要求的增长扩容。目前实验室提供的环境可以存储大约2亿条数据，由于运算过程中需要产生大量的中间结果，因此推测可以对大约100万条保险客户和业务数据进行分析。 3.4 预计目标 (1) 适用于本地寿险行业的精准营销分析方法，能够用一种以上方法对客户进行精确分类，并根据分类属性确定保险产品的关联选择度，以指导保险行业提升客户价值；基于保险数据的挖掘处理方法以及增量挖掘问题的处理方法 (2) 在核心期刊上发表1-2篇论文 4研究方案及进度安排，预期达到的目标 2014年 9月 1日——2014年10月30日：调研、准备开题 2014年11月1日——2014年11月30日：去保险企业搜集数据，分析其数据特点，实验方案再论证 2014年12月1日——2015年1月15日：建立模型与建立实验环境 2015年2月10日——2015年5月30日：编码、收集与分析实验数据，完成一篇论文 2015年 6月1日——2015年 9月10日：进一步的对精准营销系统进行优化 2015年 9月11日——2015年11月30日：硕士论文编写 2015年12月1日——2015年 12月31日：硕士论文答辩 . . . .

展开阅读全文