CART算法在新浪微博客户分类中的应用研究.docx

资源描述

摘要基于当今这个高度信息化的时代，数据挖掘技术及数据仓库的高速发展，通过网络平台交流的用户日趋增加，客户分类就成为了当今社会首要解决的问题。本论文在数据挖掘的理论、方法及技术上，以决策树为建模主要思想，采用决策树中的基于指数的分类和回归树（）算法，把新浪微博客户信息转化为属性结论式的形式，通过构建树、修剪树、评估模型三步骤，将客户进行分类，从而快速准确地区分目标客户及非目标客户。在数据挖掘技术模型的基础上，将新浪微博的目标客户模型做部分的调整，最终能够得到最优化模型。该模型有着响应时间较短且精度高的特点，若运用到实际生活中能够大大地提升客户分类的效率，那么无论是企业还是个人都将从中受益良多。关键词：决策树；目标客户；；新浪微博；数据挖掘 , . , . . , , . , . , , . , . , , . , , , . ：；；；；目录一、前言由于通讯技术迅猛发展，中国网络发生了根本性地改变，与国外相比，国内的交流平台面对着一个全新的，全球化的，竞争更加激烈的市场环境。在这样一个商业时代，资源占有率成为一个企业生死存亡的关键点，客户才是企业生存与发展的根本，而对于如何改善客户服务，增加客户满意度和忠诚度，提升客户价值来扩大自身的收入和利润，如何用信息化管理来替代原有的传统管理手段等方法，是新浪门户当前解决的重要问题之一。因此，企业必须从“产品”导向向“客户”导向转变，从而对客户进行有效管理，深层分析存储大量客户信息的数据仓库，提高企业市场竞争力，获得有利于商业运作，有效信息从而创造更多的价值。而当前的数据库技术虽可以对数据高效查询、分析及统计，但是仍无法发现潜在的规律和联系，因此便无法对未来发展的趋势进行更好地预测，导致了一种“数据膨胀但是知识贫乏”的现象[]，这样的需求便使数据挖掘这门技术孕育而生。数据挖掘技术是从先前不知的、大量的、模糊的、不完整的随机的数据中提取潜在的有用的知识及信息的一个过程。正是有了这种技术的支持，才使得客户分类的理念及目标得以完成，满足当前时代激烈竞争的需求。（一）研究背景根据权威发布的第次中国互联网统计报告，截止到年月底，我国微博用户持续增长，规模达到亿，比较年增长亿，网民中的微博用户较去年相比提升个百分比，达到了[]。网络信息交换的新风向标新浪微博平台的推广，打破了时空的限制，改变了交流的形势，加速了整个社会的信息快速流通。对于企业而言，有助于降低企业成本，提高企业竞争力，能够帮助企业“走出去”，快速交换、获得信息。数据挖掘是分析与探索大量数据，以求发现有意义的规则与模式的过程。同样对于一个企业来说，数据挖掘过程能够有助于发现企业业务发展的趋势，预测未知的结果，揭示已知的事实，且帮助企业分析出完成要求任务所需的关键因素，从而达到降低成本、增加收入，使企业处于更有利的竞争位置的目的。齐克芒德认为，“成功的管理者必须同时了解营销概念和信息系统结构，才能持续形成全面、可靠和完整的客户观念并加以成功应用”企业必须建立适合自己的客户管理系统，构建数据仓库，将客户关系管理系统与数据挖掘技术有效结合，深层分析存储大量客户信息的数据仓库，提高企业市场竞争力，获得有利于商业运作、有效信息，争取新的客户，让已有的客户创造更多的利润、保持住有价值的客户[]。从这些方面能够看出，当今社会数据挖掘技术对于客户分类具有相当重要的意义及作用。（二）选题目的作为如今人类生活沟通必需品且服务于社会各阶层的新浪微博，其在互联网、广播、电视等各种媒体上的覆盖面，各种实体上的推广，和在网络上的推广，在社会上产生巨大的影响力及知名度，最终带来了大量的目标客户群。同时，由于新浪微博的特殊性，也带来了大量的非目标客户。为降低成本，提高新浪微博生成效率，降低成本，如何在数量巨大的客户中准确地寻找到目标客户，成为一个急需解决的重要问题。从相关资料分析得出，新浪微博平台往往带来非目标客户如儿童、老人等，也带来大量捏造的、虚假的客户资料。而人工筛选目标客户只会大大降低整个市场的效益，浪费了企业大量的物力、人力以及财力。因此如何建立合理的客户筛选模型，定位目标客户显得尤为重要。本论文采用数据挖掘的方法，分析模型的方式，建立客户筛选模型，对这一问题进行深入分析、研究。二、数据挖掘与客户分类概述（一）关于数据挖掘在“数据膨胀但是只是贫乏”的时代，人们为了能够更好的利用现有数据，对其进行更深层次的分析。在经过不断完善后，如今，应用在不同的领域，本小节的主要内容便是介绍数据挖掘与分析的理论与技术。．数据挖掘的概念及其操作过程（）数据挖掘的概念随着网络信息化的到来、信息存储技术及计算机数据库技术的飞速发展，面临着不是信息的匮乏，而是对于庞大数据库感到不知所措，人们迫切想要从这些数据中提取有用的信息，为人类创造价值，因此有效的技术显得尤为重要。与传统的分析方法不同，数据挖掘技术（ , ）是在没有明确的假设下挖掘信息和发现知识，它是数据库只是发现（ , ）中的一个步骤,是从庞大的数据中获得潜在的、具有价值的知识及信息的过程而所得到的信息有有效性、事先未知及实用性的特点。数据挖掘基于统计学、数据库技术、面向对象方法、人工智能、高性能计算、机器学习、知识工程、信息检索及数据可视化等多种技术结合为一体的多学科的交叉研究领域，不但能够查询历史信息，还能从历史信息中寻找相关潜在联系，然后进行高层次的分析，从中提取有价值的、潜在的模型、知识、模式和规律等，在此过程中，能够根据已有的发现从而对未来进行预测，帮助决策者调整市场，最后做出科学的决策。数据挖掘的目标是帮助决策者找到数据间的特征（）、潜在的关联性（）、趋势（）等，发现容易被忽视的要素，对决策行为及预测未来十分有用[]。本论文在使用数据挖掘技术的基础上，从庞大的客户数据库中，找出目标客户，为企业赢得更多的人力，节省大量的物力、财力[] 且大大地提升企业的工作效率。（）数据挖掘过程数据挖掘是一个高效的、能从数据训练集中识别出潜在有用、新颖、有效及最终能够被理解模式的过程。数据挖掘过程分为五个阶段: 抽样、说明、预处理、建模以及挖掘结果的评估。数据挖掘是一个多步骤的过程，之间反复调整及相互影响，从而形成一个螺旋式的上升过程。该过程类似于蓄水池中水的迭代过程：从蓄水池中的水被抽取到表层，在经过处理后，就会沉到下一层，然后经过不停地循环，直到最后一层，接着再次循环被抽取到顶层。 ( ), 即为"跨行业数据挖掘过程标准"反映了一个完整的数据挖掘环境。过程如图所示[]：图过程数据挖掘的过程可以分为下列几个步骤：提出问题、数据选择、数据变换、数据挖掘、模型评估及结果分析。故简化的数据挖掘流程如下[]，见图。）提出问题：明确地定义问题，分析需求，判断问题所属的类别，确定所需的的数据挖掘方法，最终确定数据挖掘的目的。）数据选择：为进行分析而收集数据，这一步可能成为这一整个过程中最重要的步骤，这一步应当确定选取数据挖掘的训练集数据的变量和它们的值域。数据的选择在很大程度上决定了模型最终建立的结果，训练集应该具备一定得数据，数据应该从海量的数据中提取覆盖所有数据来源、数据类型、数据内容、数据格式等方面的数据。其次对数据进行预处理把选取后的数据做进一步的分析。即对训练集数据进行质量上的把控。）数据变换：把选取后的数据转换成数据挖掘所需的类型。例如：目标客户寻找，需把客户的各种静态状态用特定的符号表示，并把不同类型的数据分组、分类。）数据挖掘：准备好数据之后，就对这批数据和业务进行研究，对该业务问题进行需求分析，确定数据挖掘的任务和算法以及最终目的。目前基于研究各种特定的业务均有比价适合的算法和步骤。关键在于这些算法的组合和不同算法的组合运用，以及算法的完善，使得适合最终更加地贴近实际，贴近业务方。）模型评估及结果分析：一旦算法实现并得到结论之后，需要对模型进行测试和评估，确定该模型是否适用，是否可以完成最初的任务目的，如果不可以达到最初目的就要重新检测模型，甚至要更改模型的算法。结果分析是利用预测集数据去判断，查看是否符合实际。如果符合实际情况，模型达到了任务目的，则需要用可视化的方式把该模型的结论，以及对业务方的建议表现出来。数据挖掘过程如下图所示：数据准备模型评估和结果分析数据挖掘问题定义数据变换图数据挖掘流程．数据挖掘常用技术在数据处理的过程中，数据挖掘算法，亦数据挖掘方法，成为数据挖掘技术的核心。数据挖掘方法分为以下两类:各种逻辑算法和决策树——分类和回归树算法。为本论文主要是是关于分类和回归树算法。而逻辑算法主要分为四类：关联算法、人工神经网络、遗传算法及粗糙集算法[]。（）关联算法关联算法是与大多数人群所认为的数据挖掘最相似的一种数据挖掘的形式，主要针对的是事物型数据库。在关联规则中，规则是“如果是怎么样，那么便是怎么样”的一种行为，关联规则根据关联规则涉及的抽象层次，分成多层关联规则和单层关联规则。而根据关联算法处理值的类型，又可分成布尔关联规则和量化关联规则两类。而根据关联规则涉及的抽象层次，又分为单层关联规则及多层关联规则，这种算法对于收获数据来说，只需分析历史事物数据，便可对顾客的购买行为提供有价的信息[]。（）人工神经算法简单神经元构成了神经网络，通过非常丰富和完善的连接构成自适应非线性动态系统，具有着联想记忆、自学习、自组织、自适应分布存储等功能。人工神经网络在生物神经网络的基础上，模拟人类的思维形式，通过简化、归纳、提炼总结出一种并行处理网络。而人工神经网络的过程，主要分为学习与工作两个阶段，在学习的过程中，此算法一定要依靠学习算法，来此纠正学习过程中的偏误差或偏离[]。与其他方法一样，神经网络在发现规则对其概括之前，需要检测数据中存在的模式，最终获得结论。目前，主要用在优化、预测和控制、分类、模式识别等领域。（）遗传算法遗传算法是基于达尔文进化论学说中的基因突变、基因重组及自然选择等，利用交叉（重组）、变异（突变）及复制（选择）基本算子优化求解，此算法最大特点是不仅有强大的搜索最优解的能力，而且问题的最优解和初始条件无任何关联。目前，此算法的运用领域广泛，如计算机科学、工程技术等领域，遗传算法的研究工作有：分布并行遗传算法、遗传神经网络、分类系统、基础理论等。（）粗糙集算法粗糙集算法的特征是特征或属性的数量描述是不需要预先给定的，以统计学中概率分布、模糊集理论中隶属函数等为例，直接给定问题为出发点，通过不可分辨类所确定问题的近似域及不可分辨关系，从中找到此问题的内在规则。此算法的核心领域为在只是源于对对象的分类的思想上，通过分类找到属性之间的关联规则[]。（）决策树决策树（）用树型结构来表示决策集合或分类，根据不同特征，形成发展规律及规则。为了找寻数据库中最大信息量的字段采用信息论中的信息增益即互信息，在建立决策树的节点后，再根据每个字段的取值来构建树的分枝，又在每个分枝的子集中，建立节点与分枝的循环过程。而每个内部节点是每个属性上的测试，又由分枝表示测试的输入。这样便生成一个分类树，接着对分类树进行剪枝处理，最后把分类树转化成为规则。在学习过程中，分类树的算法不需要使用者了解大量的背景知识，只要能够用属性结论式表示训练集，便能够使用该算法。改动算法成本低，且效率高，适用于海量数据。例如寻找企业的目标客户，针对企业的巨大客户群，通过分类树的各种逻辑算法判断是否为目标客户，大大地提高企业的效率[][]。（二）关于客户分类 . 客户分类的概念客户分类这个概念是由美国学者温德尔·史密斯在世纪年代中期所提出, 是指在指定的市场及明确的战略模式中，企业根据客户的需求、行为、属性、价值及偏好等因素对客户进行分类，且提供服务、销售模式及有针对性的产品[]。 . 新浪微博客户分类的意义当前，越来越多的行业运用客户分类来实现企业利润的增长及服务水平的提高。从客户价值的方面，不同的客户为企业提供不同的价值，企业要想知道哪些是企业的忠诚客户，哪些是企业的潜在客户，哪些是企业最有价值的客户，哪些客户最容易流失，哪些客户的成长性最好，企业就必须对自己的客户进行分类。客户分类的结果表明，企业通过分析及检测不同类的客户行为，针对不同的客户群，采取相应的措施。随着新浪微博中不同客户群的加入，这个市场显示出异质化及细分化的特点，由于不同的职业、生活习惯、收入水平等等的差别不同的客户显示出不一样的特征。而客户分类不但能够为新浪微博指定系统及科学的差别化提供了证据，而且提高新浪微博中企业及个人的推广。随着，电信市场的蓬勃发展，不同的客户差别渐渐凸显出来，所以，客户分类变得尤为重要。 . 新浪微博客户操作流程新浪微博为个人及企业提供快速交流的平台，其拥有着大量客户。目前，微博客户操作的流程如图所示：开拓，挖掘，激活审核，管理，分发信息管理部市场调研部跟踪，监督，反馈数据挖掘和分析部图客户招商流程图（）市场调研部门市场调研部门即获取客户，新浪微博获得客户信息的渠道很多，主要分为免费及付费的方式。免费是网上资源互换，即通过自身发布的信息和对方进行交换获得客户的信息。所有的推广目的是吸引客户提交信息，然后保存到数据库。付费是企业等通过利用新浪微博平台扩大知名度分为实体广告、搜索引擎链接付费推广等而搜索引擎付费推广即通过新浪微博平台利用关键字的排名，从中获得客户的信息。实体广告即在新浪微博平台上通过信息发布、宣传图等方式提高知名度，在推广的过程中附带着客服电话，最终得到了客户的信息。这样获得客户信息的方式天罗地网，但是有一个缺点就是客户散乱，存在着很多非目标客户，而查找目标客户就是本论文要解决的问题。（）信息管理部获取客户或企业信息后，就要全面跟进客户。由于这两种方式都能够带来许多的目标客户，为考虑到企业的整体效率，所以在将客户或企业信息交给销售跟进之前要对信息进行统一管理及细分，把最有效的客户交给销售来跟进，这样能够最大限度提升效率。对信息的管理主要包括三方面即提取目标客户，将目标客户进行分类，和最后将信息分出优先级。（）数据挖掘与分析部数据挖掘与分析部门是对整个流程进行把控，通过分析反馈效果，从而提出科学的决策，最后对流程的每个步骤进行最优化调整，使得企业效率最大化。 . 新浪微博客户分类中的具体应用（）客户现状及问题描述基于社会经济和网络的飞速发展，通过各种渠道的推广给新浪微博带来了大量客户，由于一些非可控因素从而导致了得到的客户中存在着大量的非目标客户。目前，新浪门户采取的措施是通过关键字筛选，然后一条一条的人工判断。尽管，新浪门户投入了巨大的财力、物力、人力对目标客户进行筛选，但是仍无法降低新浪门户的工作效率。而数据挖掘技术可以快速地从客户数据库中寻找到目标客户，在提升查找目标客户的准确度上提高了新浪门户的工作效率。（）研究目标在各种推广渠道中，新浪微博平台能够收集到客户的信息多为静态信息，包括：用户昵称、性别、用户、粉丝数、关注数、微博数、互粉数、地址、语言版本、是否认证及注册时间。由于客户数据库一定会存在错误及缺失的情况，所以在建模的过程中，必须寻找一种允许数据存在错误及缺失信息的模型。由于新浪微博收集的客户信息量庞大，达到了上千万上亿条，因此在建模的过程中，必需找到一种能迅速分析庞大数据库的模型。在达到上述目标下，构建一种最优化模型，能采用最低的成本，从庞大客户数据库中寻找到目标客户。 . 新浪微博客户分类及特征微博，简称是微博客，是一个基于用户关系的基础上进行信息分享、获取和传播平台的客户端，用户能够通过、等从而组建个人社区，以字以下的文字进行更新信息，且能够实现时时分享的网络新平台。中国著名的门户网站新浪（）于年月份推出“新浪微博”，成为了中国电信市场第一个有微博功能的网站，因此微博正式进入上网主流人群的视野，而年月份，中国的微博用户总数达到亿，成为了世界第一大国。年月，新浪微博平台上进行了一次微博用户使用情况的调查。依据微博用户的心理特征、规模和行为分析，把微博分成两大类：个人用户、组织和机构。其中，机构和组织，能够分为公益机构、政府部门、慈善组织，政府公司以及相关机构。而个人用户又分成名人（业内知名人士、公司高层、娱乐体育界明星、知名学者及媒体人）和普通用户。（）普通网民即组织类、名人类及非机构类的一般普通的微博用户。该群体类用户的特点：用户年龄范围从—岁，跨度非常之大，其中，又以—岁的中青年为主体。用户职业呈现多层次化结构，并且涉及到如今的各行各业。普通网民的主题是发表博文即转发或原创，传播方式为裂变式（即：：）[]，特征是影响力大，传播的范围广。微博具体行为的使用分类四类：)浏览关注人微博更新动态写微博 )参与热点话题的讨论)随便浏览，了解资讯 )发表观点或发泄情绪。（）企业即企业是从事生产、流通、服务等经济活动，以此来满足社会的需求，实行独立核算、依法设立、自主经营，而且在新浪门户中注册微博，并对商户认证。该用户群体特点：所有行为都是以营利为目的。使用微博的目的为：利用微博平台，进行网络营销，包括进行网站推广、网络品牌、信息发布、在线调研、销售促进等。从根本上来说，企业使用微博的目的是提高企业的知名度，树立企业的品牌，扩大企业的经济效益。微博具体行为的使用分类五类：)网络公关（即指网络危机公关）)更新企业的动态信息)进行在线的调研)顾客网上服务 )发起活动（公益、娱乐及促销）。三、算法及其在新浪微博客户分类中的具体应用（一）算法简介分类与回归树（ , ）算法由等人于年提出，是分类数据挖掘算法的其中一种，可处理无序的或顺序的类属性数据，也能够处理多态的数据值或高度倾斜数据[]。选择最小系数值的属性为测试属性，值越小，样本纯净度就越高，划分的效果便越好。它是描述一个给定预测值后，变量条件分布的一种灵活算法。该模型采用二叉树，将预测空间递归划分成若干个子集，在子集上变量上的分布是均匀及连续的。划分是由和各个内部的节点有关的分类规则（）所定夺的，而树的叶子节点对应着不同的被划分的区域。通过树根到叶子节点的移动，预测训练集被给予唯一一个的叶子节点，而同时确定变量在此节点中的条件分布。算法使用如下结构的学习样本集。其中，是训练样本集，是属性向量（），其属性可以是离散的或者是有序的的；是标签向量（），其属性可以是离散的或者是有序的。是离散值，称为分类决策树；或是有序的数量值时，称为回归决策树树。根据所定的样本集，由以下三个步骤构建分类树[]：（）低规划分训练样本：使用构建树，使得中每一个叶节点要么很小（给定值大于节点内部所含样本数量）；得到惟一的属性向量作为分支选择，或者纯节点（节点内部样本仅仅包含一类）。（）使用修剪算法构建一个有限的递减（节点数目）有序子树序列。（）使用评估算法从第（）步产生的子树序列中选出一棵最优树作为最终的决策树。 1. 构建树构建树是将给定的训练样本集转换成为相对应的最大二叉树的过程。的构建主要分为两步骤：①数据预处理；②由根节点递归构建。此过程应用最大杂度削减算法，能够寻找到最佳的分支规则。 2. 数据预处理数据挖掘过程的关键步骤之一便是对初始数据集的准备及变换。首先，数据预处理是降低属性向量的基数，即把向量分成若干段。然后，针对属性向量构建标准问题集，其中符号属性向量即离散属性向量与连续属性向量，两者的标准问题集的构建方法不相同[]。降低属性向量的基数：对于属性向量值进行降低基数的工作，即按客户的需求，针对各个属性向量设定一组离散值，将该属性向量在训练样本集上的取值分配到这组范围值中。 3. 树的生成决策树的核心算法是确定决策树分枝准则，该准则涉及到两个方面问题：⑴如何在众多的输入变量中选择出一个最佳的分组变量；⑵如何在分组变量的众多取值中寻找到最佳的分割值。首先在生成原始树中引入差异系数（）的概念。此系数用于测度各个个结点内（>）个类样本的分布情况。在这里我们采用的是算法中最常用的杂质函数基尼系数（），公式如下：（）其中，（）为目标类别在节点中出现的比例。对于所有的，所以系数一定为正数，除非其中的一个为，而其他比为。节点在属性下分为和两个部分，那么指数就是：（）而对训练集进行划分时，划分的规则是利用二叉树的表示形式，算法的开始是从根节点进行划分，对各个结点进行重复递归的过程[]：（）对于每个结点，选择各个属性的最优划分点。根据样本中对于分割规则“否”或“是”的回答，将结点划分为左右两个子结点，从规则中寻找变量，如果最小值，那么这就是当前属性的最优划分点。（）在上步骤所得到的最优划分点中选择对此结点最优的分割点，成为此结点的分割规则。分割规则的确定依据是使（）式最小。（）重复对此结点分割出来的两个结点进行分割这一过程。直到样本全部属于同一类为止，或者持续到叶结点样本个数极少（如少于个），这时建成的树层次多，叶结点多，此时该树为。 . 树的剪枝判定树创建完成后，由于数据中的孤立点及噪声，很多分枝反映出训练集中的异常。剪枝方法解决这种过分适应的数据问题，起到优化的作用。这种方法一般使用统计度量，剪去最不可靠能够产生误差的分枝，加快分类的速度，提高了树独立于测试数据正确的分类的能力。剪枝（）分为先剪枝及后剪枝两种。算法采取后剪枝（）的方法，后剪枝是一个过程，它由“完全生长”的树剪去分枝，决策树剪枝可视为决策树对构造的逻辑延续。分为两类：子数提升即剪掉树叶节点，使得剪枝后降低了决策树的规模及提高决策树的准确率；子数置换即通过删除节点的分枝。在删减中，我们采用剪枝算法中代价复杂性剪枝也称为剪枝，系统的代价复杂度最小（）原则，测度方法如下所示： () 为复杂度参数，；为该树叶结点个数；将（）理解成该树加权错分率与对复杂度处罚值之和的复合成本。根据信息准则，＝（－），为分类数，在分类的问题中取值为；当一定时，由删减后生成的两个具有同样（）值的树,叶子结点越多，表示树的复杂度变得越高，（）越大，则可取性却变得越小。对删减的过程中一定会产生一系列子树。整个子树子树的生成是迭代而成的，这意味着是随机对其中一个结点剪枝后生成的树的集合中能够使（）式最小的树；是随机对其中一个节点修剪后生成的树的集合中能够使（）式成为最小的树，以此类推，直到两个叶节点与最后的根结点所组成的。接着再以（）式为选择标准，使用独立的测试集对各个子树的（）进行估计，进而选择（）最小的树是最优树。修剪过程主要完成两部分工作：（）生成有序树序列；（）确定叶节点的所属类。其修剪过程如下[]：（）构建：首先在中将满足（）＝（）＋（）的子树剪枝，获得的修剪后的子树即为；（）生成有序的子树序列：任给中的节点，记{}，则（）()。对于给定节点的修剪子树，则，只要，则表示取修剪后的子树比原节点更合适。解如上不等式得到：所以也即只要，与节点具有同样的代价复杂度，由于节点比的节点更少，因此节点比更可取，这就是由修剪成为有序的子树集的主要思想。对于前面所构建完成的， ∈ ,设是的修剪子树，且令将所对应的修剪掉，修建完成后所得到的树标记为。循环此过程，能够产生系列子树直到修剪后所得的以左右字数及根为叶子节点的树，并把它作为有序的子树集的最后一个子树。 . 树的最优选择决策树剪枝完成后，生成一系列子树，为了从中选择出最优树，首先要做的便是对树进行评估，最高准确性的树便是我们需要的最优树。决策树评估的主要有两种方法：折交叉和简单验证。折交叉验证:当所需分析的数据样本数量较少时，采用折交叉验证能够有效的利用所有可能的数据。交叉验证使用训练集中的一部分数据，训练集既用于训练且也用于测试，此方法的核心是创建多个测试决策树，将训练集分成个子集，创建棵测试决策树，在每次创建树后，选择一个子集作为测试集，其他个子集为训练集。这样，训练集中个子集都参与了测试。折交叉验证避免了对独立的和新的测试数据的要求，通过这种方法得到的最优树剔除了由于数据自身特性带来的过度适应，且充分反映了数据中的一般特性。（二）算法的优缺点及适用性分类回归树树除了具有一般决策树的高效性、易用性、易解释性等特点外，还具备一些自身特点。如：算法没有对目标变量及预测变量概率分布上要求，这使得不会因为预测变量不同及目标变量概率的分布造成的结果；算法能够对空缺职位进行处理，因此减少了由于空缺值所造成的信息偏差；算法能够处理孤立点即在数据集中与其他数据具有不同特征的数据，使孤立点成为一个单独的叶子节点，从而对进一步的分支不会产生任何影响；算法使用二元分支，这能够充分运用全部的数据，尽可能发现全部树的结构；与其他算法如神经网络算法相比，算法的效率更高。但是，与其它统计分析方法相比自身也存在缺点，如：本身是一种大样本的统计分析方法,样本量较小时模型不稳定；算法的模型的稳定性较差,用类似研究资料建立的树型模型往往存在差异。对于内部同质性较好的数据算法分析的结果与其它分析方法得到的结果基本一致。由于在实际应用中，企业收集到的客户信息缺失度较高，而这个算法同样允许缺失数据的存在。基于以上算法的独特优点，对于本次目标客户筛选，客户信息能够表达成属性结论式样式，本文采用该模型。为从海量客户中筛选目标客户，为大样本的统计分析方法，建立比较稳定的模型。这样筛选的过程能够加快，大幅度地提高企业效率。（三）算法在新浪微博客户分类中的具体应用对数量庞大的客户数据集进行数据管理，从而收集客户的静态信息，通过四个步骤：（）数据的清洗；（）样本数据的选择；（）数据的重组；（）对训练样本集数据建立数据模型，使用算法进行数据挖掘，在获得目标客户的筛选模型后，接着对模型进行评价及优化，最后获得目标客户筛选模型。 . 问题定义目标客户的寻找就是从电信市场新浪微博所收集的庞大客户数据集中寻找到目标客户，从而提高客户获得率。根据新浪微博在目标客户查找方面以往所积累的经验，以及新浪微博的特殊性，发现目标客户的查找就是对现有的客户进行数据挖掘然后分析，建立客户特征，区分非目标客户及目标客户的特性，再建立目标客户查找模型，将模型运用于实际中，海量地进行目标客户的寻找，提高潜在客户获得率。收集到的客户信息均为静态信息即用数字资料或文字描述来反映已经发生的各种经济活动，且主要包括：用户昵称、性别、用户、粉丝数、关注数、微博数、互粉数、地址、语言版本、是否认证及注册时间。 . 数据准备在进行数据挖掘之前，本文采用的是年月份新浪微博的用户数据。由于数据比较庞大，本文采用具有强大数据统计分析功能的存放数据，而在将数据导入之前，先人工初步对变量进行处理，删除不需要的变量。在统计中发现年数据比较集中，而且数据质量较高，因此本次数据主要采用新浪微博数据库的数据进行建模。截止到年月份为止，采取的样本的数据共有人。有关变量如表所示：表新浪微博变量查询时间日期型训练集收集日期用户昵称字符型用户账户的名称性别字符型男或女字符型用户账户编号地址字符型用户所住城市语言版本字符型所用语言认证字符型是否被新浪微博认证粉丝数整型拥有粉丝数量关注数整型被其他人关注数量互粉数整型相互关注数量微博数整型用户发表信息数收藏数整型用户收藏信息数注册时间日期型用户账户注册时间在数据导入软件之前，先人工的对变量进行初步处理，删除一些显然不重要的变量。虽然能对数据进行预处理，但是先排除一些输入变量，这有助于提高所建模型的结果精准度以及数据处理效率。是每个用户所登记的号，此标识对于每条记录来说都是单一的，一定不会出现重复的情况，从中可得知，变量只能代表其特征，而不是共同的特性，所以，也不能反映数据间的内在关联，可以将其删除。此外，变量查询时间，由于本论文在同一时间段抽取数据，所有的用户的查询时间段都是相同的为年月，即查询时间及注册时间不能反映出客户客户分类的重要特征，对于后续的无意义，所以也将其删去。同样，对于语言版本这个变量，由于新浪微博抽取数据为中华人民共和国大陆地区，所有的用户使用的都是简体中文，因此，删除此变量。综上所述，导入软件的变量分别为用户昵称、性别、地址、粉丝数、关注数、微博数及收藏数。如下表所示：表变量说明用户昵称字符型用户账户的名称性别字符型男或女地址字符型用户所住城市粉丝数整型拥有粉丝数量关注数整型被其他人关注数量微博数整型相互关注数量收藏数整型用户发表信息数由于分类树最大的特点为可以存在缺失数据，故在抽取样本时也考虑缺失的情况，缺失情况如下表所示：表缺失情况缺失项是否认证缺失数进行相关性计算，由于新浪微博的基本信息主要为：用户昵称、性别、用户、粉丝数、关注数、微博数、互粉数、地址、语言版本、是否认证及注册时间，这几项静态信息的都不存在着相关，因此不对各项进行相关性分析。 . 数据变换 () 数据的预处理数据预处理是建模型前最后的工作，这一步骤也是整个建模过程中最为关键的一步，不精准的数据将严重影响所建模型结果的精准性，造成我们做出错误的决策，然而好的数据能建立更加附和实际情况且更加精准的模型。由于原始数据一定存在着空缺、噪声、错误等数据，他们最终有一定程度地影响模型的过程和输出，因此首先对数据进行清洗。由于分类树的最大优点是能够允许空缺数据的寻在，因此对于空缺的数值统一赋“”，而对于本次数据清洗主要针对错误的数据。数据的错误主要表现在客户信息失真情况上，例如：粉丝数的位数不正确，用户昵称采用重复值，故对这批数据删除重复项，避免影响了模型的准确性。通过上述步骤的数据清洗，去除了影响模型输出的数据，由于原数据样本过于庞大故随机抽取前项作为研究对象。流图如下所示：图抽取训练集得到的前项数据量，如下图所示：图项具体训练集（）将数据分类汇总每个用户都有很多变量，要识别目标客户，首先要做的是对各个变量值进行分类汇总，例如：用户的粉丝数可能会在某种程度上预示着用户的行为，如果粉丝数量庞大，那么可能发表微博数量也大，在新浪微博平台互动性高，成为目标客户；如果粉丝数量较小，映射着在新浪微博平台互动性较低，那么可能成为非目标客户。这样才能使数据更有意义，有助于下一步的研究。为了查看粉丝数、关注数、微博数、互粉数、收藏数的每一项数值，利用图形版及统计量进行分析。具体如下所示：图数据分析由于数据训练集的范围较大，故将变量划分成若干个字段，这样数据较为直观，然后进行分类汇总，这样有利于后面建模的数据分析。具体如下表所示：表数据分类粉丝数目关注数目微博数目收藏数目互粉数目粉丝数≦ 关注数≤ 微博数≦ 收藏数≦ 互粉数≤ ＜粉丝数≦ ＜关注数≤ ＜微博数≦ ＜收藏数≦ ＜互粉数≤ ＜粉丝数≦ ＜关注数≤ ＜微博数≦ ＜收藏数≦ ＜互粉数≤ ＜粉丝数≦ ＜关注数≤ ＜微博数≦ 收藏数＞互粉数≧ ＜粉丝数≦ ＜关注数≤ 微博数＞粉丝数＞关注数＞利用过滤字段选项，将原始训练集中的粉丝数、关注数、微博数、收藏数及互粉数过滤。具体操作如下图所示：图过滤变量（）变量值确定方法本论文目的主要为挖掘新浪微博平台中的目标客户及非目标客户，目标客户指当前活跃在新浪微博平台的用户，而非目标客户指的是当前对新浪门户做的贡献不大，但在不久的将来可能给新浪门户带来更多价值及利润的用户。不同的企业对于衡量标准有不同的定位：有的企业可能认为只要用户有粉丝数，即使没有微博数、收藏数，仍然可能从非目标客户转为潜在客户。但有的可能认为微博数为第一考虑因素，只有发表过微博才能成为目标客户。对此，应为衡量方法制定一个标准。在之前的数据的分类汇总及预处理过程中，我们已经将对模型有关联的变量进行分析，这为我们在后面制定衡量目标客户的标准提供了准则。客户价值的预测方法有很多，此处采用交易量评价法，交易量评价法以粉丝数的大小来衡量用户的价值。因为通过直方图及统计量中的分布直观呈现所有变量取值，如下列图所示：图关注数直方图图互粉数直方图图收藏数直方图图微博数直方图通过分析预测目标变量的范围，目标变量大致分为四类：）互粉数＜＜互粉数≤；）＜收藏数≤＜粉丝数≤；）关注数≤＜关注数≤关注数≥粉丝数≤粉丝数＞收藏数＜＜收藏数≤＜微博数≤＜微博数≤；）关注数≤＜关注数≤关注数≥ 微博数＜收藏数≤收藏数≥＜粉丝数≤＜粉丝数≤＜微博数≤＜微博数≤。在表中增加一列字段，命名为目标客户。首先定义客户是否为目标客户，然后将目标变量加入到汇总后的数据表中，结果如下图所示：图处理后的训练集上述步骤便是数据预处理、分类汇总及确定变量，而此时的数据基本符合建模要求。接下来便是建模过程。 . 算法的具体应用过程在经过上述步骤后，可以建立模型，算法的树生长阶段的分支标准采用指数，选用折交验证法，将树的深度设置为层；由于允许缺失值存在，故不必对缺失值进行处理。（）建立模型在将数据导入后，抽取前项作为训练集数据，根据对数据的分析，通过建立模型对数据做最后的分类，将“目标客户”作为输出属性即为预测变量，其余变量作为输入属性，首先根据变量的分布定义是否为目标客户，将各种变量用直方图表示，最后得到数据流程图如下图所示：图模型建立图执行此数据流程图中算法节点，训练集的模型如下所示：图模式结果图上图所示，模型中目标客户结果及运算规则，[]中表示为模型的结果，如[是]代表着目标客户；而[否]代表着非目标客户。此模型结果的依据是根据叶子节点中目标客户与非目标客户两个目标变量的比例分布，即在一个叶子节点中，若目标客户的数量超过非目标客户，那么此节点的预测结果为“是”，若情况相反便是“否”。（）二叉树模型图对于上面的模型结果的二叉树图表示如下：目标客户节点类别否是总计＜关注数≤；＜关注数≤ 关注数≤；＜关注数≤；关注数≥ 节点类别否是总计节点

展开阅读全文