1、回归与神经网络回归和神经网络分析目标零售行业拥有大量消费者特征和行为数据,通过对数据进行探索挖掘得到的信息,可以帮助企业针对特定的客户进行营销,用最少的成本取得最佳的收益。分类决策树模型是一种对实例进行分类的树形结构。决策树学习算法包含特征选择、决策树的生成与剪枝过程。开始时,构建根节点,选择最优特征,该特征有几种值就分割为几个子集,每个子集分别递归调用此方法,返回节点,返回的节点就是上一层的子节点。直到数据集为空,或者数据集只有一维特征为止。logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。神经网络是一种模仿动物神经
2、网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。本文旨在通过建立决策树模型、逻辑回归模型、神经网络模型对企业的Organics数据进行分析,通过划分训练集和验证集判断模型拟合优劣,最终选择最优模型来得到购买Organics的消费者的特征,从而为企业提供精准营销的客户。数据情况1.添加数据源我们发现AGEGRP1与AGEGRP2与Age内容相似,只是用不同形式表示年龄,因此选择拒绝这两组变量;同时,Number of Organic Products Purchased代表购买的有机产品的数量,而我们
3、分析的目的是对消费者是否购买有机产品进行预测,因此该变量相关性较弱,可以拒绝;最后,我们将Organics Purchased?设为目标变量进行分析。2.数据集右键探索从图中可以看到,该数据集共有18个变量,22223个观测。从样本统计量中可以看到,大部分变量缺失值都比较严重, 后面应该进行相应的补缺处理。上图显示了数据集的前面15条数据。从所有变量的频数统计图中可以看到,除了已经拒绝的变量,其余大部分呈现正态分布,只有变量BILL和LITME变量呈现偏态分布,因此后期数据预处理时应该对这两个变量进行转化处理。3.统计探索从目标变量的频数分布图可以看到购买人数占比大概是25%,而不购买的人数占
4、比大概是75%,说明我们的样本还是有意义的。数据预处理1.数据分区设置训练集比例70%,验证集比例30%。经过上次决策树实验得出70%&30%比例较好,因此本次建模直接这样分区。分区结果如上2.转换变量根据以上数据探索分析,将BILL变量转换为对数,将LTIME变量转换为对数。转换结果如上,将BILL和LTIME变量转换为对数。3.替换变量分类变量TV_REG明显有多个重复情况,但是用不同名称表示,因此我们将部分变量值进行替换,将数据规约成较为简洁的结果。4.补缺模型建立所有模型的流程图如下:模型一:默认回归查看-结果从结果看,默认回归模型选择的变量太多,并且将P值较大的变量也选入了模型中,这
5、种模型并不能很好地反映出现实情况,因此我们将改进算法,设置回归属性参数,从而得出更好的回归模型。模型二:逐步回归查看-结果设IMP_GENDER_F为X1,IMP_GENDER_M为X2,IMP_REP_AFFL为X3,IMP_REP_AGE为X4则logistic方程如下:模型三:自动神经查看-权重(最终)神经网络图如下:模型四:自动神经(4)选择只用Tanh激活函数由图中可以看到,模型选择了第1步迭代的结果模型五:神经网络由图中可以看到,模型迭代了18步,已经在现有的条件下满足停止条件。由图中可以看到,模型选择了第6步迭代的结果模型六:神经网络(2)在网络中设置隐藏单元数为13,在优化中设
6、置最大迭代次数为200(尝试过几次,发现一共需要迭代189次才能满足停止条件),并且将模型选择准则改为“误分类率”。模型结果由图中可以看到,模型迭代了189步,已经在现有的条件下满足停止条件。查看-迭代图-误分类率由图中可以看到,模型选择了第27步迭代的结果查看-模型-权重(最终)模型七:默认回归-神经网络(3)由图中可以看到,模型迭代了17步,已经在现有的条件下满足停止条件。查看-迭代图-误分类率由图中可以看到,模型选择了第1步迭代的结果查看-权重(最终)模型八:默认回归-自动神经(2)由图中可以看到,模型选择了第5步迭代的结果模型九:逐步回归-神经网络(4)本模型的神经网络参数和前面神经网
7、络(2)的设置保持一致查看-迭代图-误分类率由图中可以看到,模型选择了第1步迭代的结果查看-权重神经网络图如下:模型十:逐步回归-自动神经(3)查看-迭代图-误分类率由图中可以看到,模型选择了第18步迭代的结果查看-权重分析结果1.训练集和验证集的ROC曲线如下:2.拟合统计量如下从拟合统计量中,我们可以看到模型比较中的选择准则是验证数据集的误分类率,从误分类率结果看,最后选中了神经网络(4),也就是在逐步回归后面再加上一个神经网络模型,并且在网络中设置隐藏单元数为13,在优化中设置最大迭代次数为200,模型选择准则改为“误分类率”。对比自动神经,可以知道在本数据集中,隐藏单元数越多误分类率月
8、低,选择的准则为“误分类率”也会相应地降低。同时,我们可以看到神经网络的效果普遍比回归效果好,回归效果普遍比决策树好。神经网络通过自学习不断修正误差,最终得到较好的效果。 结果讨论与建议通过对十二个模型(自动决策树、优化决策树、回归、逐步回归,自动神经、神经网络、回归+自动神经、回归加神经网络、逐步回归加自动神经、逐步回归加神经网络)的比较,我们最终选择了逐步回归加神经网络模型。先通过逐步回归选择变量,再通过神经网络优化参数。接下来对每种类型的模型选择一个结果较优的进行分析,最后对商家提供建议。决策树模型中,我们最终选择40%&60%进行数据分区,设置最大分支数为3、评估测度为ASE的模型。表
9、1 模型二购买人群特征AGEAFFLGENDER39.5(7.5,34.5)F44.5(18.5,34.5)ALL44.5(15.5,34.5)F我们从图中可以看到购买人群女性居多,其中小于39.5岁的女性,只要财富等级大于7.5就会购买有机产品,39.5岁到44.5岁之间的女性只要财富等级达到11.5就会购买有机产品,大于44.5岁的女性只要财富等级达到15.5就会购买有机产品。而小于39.5岁的男性财富等级达到11.5才会购买有机产品,大于44.5岁的男性财富等级达到18.5岁才会购买有机产品。一些性别情况缺失以顾客购买有机产品的条件与男性相同。性别为未知的则只有大于44.5岁的人群,并且
10、财富值达到18.5才会购买有机产品。回归模型中,与默认设置的模型相比较,我们最终选择逐步回归模型,并且选择准则为“验证误分类率”。设IMP_GENDER_F为X1,IMP_GENDER_M为X2,IMP_REP_AFFL为X3,IMP_REP_AGE为X4则logistic方程如下:可以看到性别为女对目标的影响最大,女性大部分都会选择购买有机产品;性别为男对目标的影响呈相反方向,但是影响程度较小,部分男性不会选择购买有机产品;财富对目标的影响呈正相关,说明财富越多的人群越会选择购买有机产品,但是相比性别对目标的影响力,财富因素小很多;年龄对目标的影响呈负相关关系,但是影响力极小,说明年龄较大的
11、人相对于年龄较小的人来说,比较不会选择购买有机产品。神经网络模型中,我们最终选择逐步回归加神经网络模型。从结果中可以看到,最终影响目标的变量有AGE、AFFL、GENDERM、GENDERF。后续预测顾客是否会购买有机产品,只要获取顾客的年龄、收入、性别三个属性,就可以通过已经建立好的神经网络进行预测该顾客是否会购买有机产品。通过以上结果分析,我们建议企业:第一,数据需求。企业要进行精准营销所需要获取的数据主要包括性别、财富和年龄,三者的重要性依次降低,所以如果只能获取前面变量的数据也可以通过补缺后面变量进行预测,效果不会太差,因为性别变量对是否购买有机产品这个目标的影响力太大。第二:综合推荐
12、。成本允许的条件下,可以大范围对一定年龄范围内的女性顾客进行推荐。大部分女性承担着家庭主妇的角色,针对女性进行推荐效果更显著。同时,随着国家整个经济环境的发展,越来越多人倾向于花更多的钱来买一个健康保证,因此财富等级对顾客是否购买的影响已经越来越小了。第三:精准推荐。首先,有机产品的精准营销可以瞄准小于39.5岁的年轻女性顾客,特别是财富值达到一定等级的;同时,也可以针对大于39.5岁的中老年女性顾客进行推荐,这部分顾客的财富等级应该高于年轻女性顾客;然后,在成本允许的情况下,可以针对一些财富值较高的男性顾客进行推荐。发现与收获通过本次作业,我学会了通过SAS软件进行数据挖掘的基本过程,并且从
13、中学到了某些重要的处理过程,接下来我会简单介绍下每个部分的体会:1.确定目标目标的确定对后续的分析很重要,明确的目标能够为数据收集以及后续建模提供正确的方向。本次作业中没有涉及到目标的确定,但是经过简单的数据探索,可以发现数据集中不仅有是否购买,还有购买量两个变量可以作为目标。假设企业有较多的资本来进行该项业务的执行,那么可以选择是否购买指标,以覆盖到更多的顾客群体,让有可能购买有机产品的顾客都得到推荐信息;相反,如果企业在该业务上的资金紧缺,则可以选择以购买量作为目标进行分析,最后进行精准营销的顾客只选择那些购买量较大的顾客,这样子能够让所有的推荐有更大的概率获得顾客,提升了顾客购买产品收益
14、占推荐成本的比例。2.数据收集 数据收集对挖掘起着至关重要的影响。能够收集到的变量种类以及收集的数据质量对后续分析起着很大的影响。我们看信息质量主要看信息的客观性、正确性、完整性和及时性。如果收集的数据能够满足这些特性,那么相应地也能够提高分析结果的准确性。本次作业没有涉及到数据收集,但是我们看到数据的缺失值严重,变量名称不统一,数据分布不均匀,种种缺点在后续分析就体现出来,虽然可以通过数据清理进行弥补,但是仍会导致结果准确性降低。3.数据探索 数据探索有几个任务:第一,探索真个数据集目标变量可行性的占比,如果比重太低也就缺乏分析的意义;第二,探索变量频数分布,看后续是否需要对变量进行转换处理
15、;第三,探索变量名称、含义、格式是否一致,不一致的需要通过变量替换进行处理,减少歧义;第四,探索变量的缺失情况,对不同类型的变量缺失应该通过不同方式进行补缺,尽最大可能还原真实情况;第五,探索变量之间是否具有相关性,如果有多个变量存在相关关系,应该采取拒绝,以免产生多重共线性。4.数据预处理数据预处理有三大步骤:数据清理、数据集成、数据规约。在本次作业中,主要体现在SAS模块操作中的转换变量、替换、补缺三个步骤上,通过前面数据探索看到的情况,对数据进行预处理,以期最小化数据质量不够优对结果带来的影响。数据预处理需要对数据的情况、变量的含义深入了解,才能够选择更好的方法进行弥补。5.模型建立本次
16、作业主要以回归和神经网络模型为主,包括上次决策树作业,三个预测模型做下来,我们看到了不同种类模型的构建方式不同、模型原理不同,导致结果的呈现方式不一致,但是结果的大致含义是类似的。而同一个模型由于参数设置不同,也会影响模型结果的质量。综合本次作业,我对三个预测模型进行简单的总结和对比如下:决策树逻辑回归神经网络思路用一系列的简单规则将数据分成组预测在不同的自变量情况下,发生某种情况的概率有多大按误差逆传播算法训练的多层前馈网络考虑使用哪个变量拆分如何进行拆分什么时候停止拆分如何修剪树线性假设误差项是正态分布的,并且均值是0误差项是相互独立的误差项方差恒定预测变量都是有用的输入单元的数量网络结构
17、隐藏层数以及单元数激活与组合函数选择算法熵,ID3、C4.5卡方或F,CHAID基尼系数,CART向前、向后、逐步激活函数:Direct; Exponential; Identity; Logistic; Normal; Reciprocal; Sine; Softmax; Square; Tanh优点决策树易于理解能够同时处理数据型和常规型属性对缺失值不敏感预测结果是界于0和1之间的概率可以适用于连续性和类别性自变量自学习和自适应能力有一定的容错能力缺点类别太多难以预测只能根据一个目标进行分类适用范围较窄对模型中自变量多重共线性较为敏感需要较长的训练时间解释性差黑匣子预测能力和训练能力的矛盾
18、问题样本依赖性问题6.模型优化模型优化主要是通过模型参数设置来起到优化效果,比如决策树中通过最大分支数、树的深度;比如回归模型中通过设置变量选择方法或者选择准则;比如神经网络中通过设置不同的激活函数以及隐藏单元数来优化模型,降低误分类率,还有很多参数设置需要我们去探索,通过不同参数设置能够得到不同的模型,最终对模型进行比较,能够得到较好结果的模型。7.结果与建议通过上述三种预测模型得出的结果,我们可以看到决策树模型结果直观简单,能够清晰的看出分类过后哪些类别的人群购买有机产品的概率有多高,但是简单的以这个标准判断较为粗矿,不能细化到每一个人,无法进行精准营销。而回归模型得到的结果能够对每个人进行判断买或者不买有机产品的概率,企业可以通过设定一定的概率阈值来寻找愿意购买有机产品的顾客,买的概率大于阈值的顾客则属于企业需要进行营销的顾客,因此这个阈值的设定也很关键,可以通过实践来得出最优阈值。神经网络模型则是个黑匣子,无法看出内在原理,只能是输入模型需要的顾客数据,直接得到顾客是否购买的结果。虽然该模型解释性较差,但是我们依然可以看到模型比较之下,神经网络模型的误分类率是最低的,相应的结果是最优的。