基于LSTM-StackingCXR模型的房价预测算法研究.pdf

资源描述

1、第卷第期沈阳化工大学学报.收稿日期:基金项目:辽宁省教育厅科学技术研究项目()辽宁省博士启动基金项目()辽宁省教育厅科学研究项目()作者简介:高巍()女辽宁沈阳人教授博士主要从事大数据分析及应用、智能信息处理的研究.文章编号:()基于模型的房价预测算法研究高巍刘博洋李大舟王淮中(沈阳化工大学计算机科学与技术学院辽宁沈阳)摘要:房屋价格一直是社会最为关心的话题.预测房价走势并为购房者提供参考房价一直是房地产业和相关学术领域的研究热点.针对房价预测过程中存在数据集变量多、维度高的问题本文通过计算多个房源特征与房源价格之间的皮尔森系数去除冗余房源特征有效地降低了房源

2、特征数据集的维度.为了将信息损失降至最小采用处理房源特征中的类别变量.针对预测模型的过拟合、泛化能力差的问题采用策略融合了、随机森林算法并且结合神经网络最终提出了一种模型.实验结果表明模型预测结果与现有多个模型预测结果相比其预测精度指标有较大程度的提升.关键词:房价预测策略随机森林:./.中图分类号:文献标识码:房价走势的预测对社会发展和经济振兴具有重要意义.房价预测方法已经在学术领域引起了众多学者的重视.年灰色()模型被应用于房价预测.年遗传算法优化后神经网络模型被提出.实验结果表明经过优化后的神经网络模型可以加快收敛速度、提高预测精度.年陈娜等利用灰色关联度对周口市年房

3、价走势进行了预测并分析了灰色模型预测方法中多个数据特征对预测精度的影响通过逻辑回归分析验证了分析结果的正确性.同年邬嘉怡等使用小波变换的方法实现了房价预测.邬嘉怡等发现多小波分析能更好地保持预测数据中原有的信息特征而且在准确率指标上多小波分析高于单小波分析.在面对数据量大、维度多的房价预测数据集时现有的房价预测模型依然存在精准度低、模型预测结果过拟合和泛化能力差的缺点.针对上述问题本文提出一种模型来预测房价.首先在模型中根据房源地理空间经纬度计算该房源距离地铁站和城市中心距离.这两个距离值被作为新的房源特征归并到输入数据集中.其次对非数值型房源特征模型运用类别处理方法通过计算输入数据集

4、中各房源特征之间的皮尔森系数获得对房价影响较大的房源特征.最后基于策略模型不仅集成了、随机森林算法而且结合神经网络预测了每个房源下一时刻的成交价格.模型模型设计设计模型应用于房价预测.该模型分为房价时序预测和第期高巍等:基于模型的房价预测算法研究房屋估价两部分.房价时序预测部分是将房价时序数据集输入神经网络获得房价时序特征房屋估价部分使用策略集成的、随机森林模型根据房价的基本信息参数进行训练和预测获得基于房屋基本信息的估价特征.将获得的时序特征和估价特征加权融合作为输入运用神经网络完成房价预测任务总体框架如图所示.图模型时序预测是一种特殊类型

5、循环神经网络.它是一类以序列数据为输入沿着序列的演进方向进行递归.在中所有节点按链式连接并且可以被分为个类别:输入门、输出门、遗忘门和细胞状态.输入门和输出门分别负责把外界保存到记忆单元和从记忆单元中输出计算结果.遗忘门在中以一定概率控制是否遗忘上一层的隐藏状态.计算概率的方法通常采用的是激活函数激活函数由公式()定义.().()采用的模型如图所示.输入序列为向量的隐藏状态分别为向量和向量 .输入门、遗忘门和输出门的输入都是在第天的成交房价和日期的隐藏状态向量 .输入门、遗忘门和输出门的个向量计算方法如公式()公式()所示.()()()()().()式中:为激活函数、

6、分别为输入门权重向量、遗忘门权重向量和输出门权重向量、为偏差参数变量.图模型模型通过公式()得到隐藏状态的另外一个输入向量 .公式()使用作为激活函数.激活函数的输出在区间.被用于第天房价预测的向量计算公式如公式()所示.向量和向量都是权重参数为偏差参数变量.().()被用于第天房价预测的向量是向量上一层网络的向量、变量和变量综合产生的如公式()所示.在公式()中为按元素乘法.()向量经过函数产生一个值域为的向量.该向量与输出门的输出向量相乘得到最终的隐藏状态向量.().()模型设计策略是一种集成学习方法.它集成了多个基学习器预测结果.策略通常分为两步:第一

7、步由多个基学习器组成第二步为一个元学习器.第一步中输入数据被送入基学习器中进行训练然后产生多个基学习器输出值这些输出值被组合后送入第二步元学习器沈阳化工大学学报年在元学习器中根据新的输入更新最终结果.在第二步中为了防止过拟合风险采用折交叉验证的方式.模型是一种算法由和组成.在梯度偏差以及预测偏移方面算法可以提高准确性和泛化能力.对经典的梯度提升算法进行了改进.为了选择最佳的树结构通过枚举不同的分割来计算叶子节点值再计算树的评分最后获得最佳的树结构分割.模型本质是由多个弱学习器组合而成的强学习器.弱学习器是通过决策树算法来实现.决策树算法根据每个树的决策点判断结

8、果是否进入分支是否最终到达叶子节点从而获得预测结果.在预测最终结果时综合考虑每个弱学习器的预测结果.的损失函数为 ()().()其中:为训练样本数是单个样本的损失为预测值为样本真实标签值()表示正则化函数.正则化的本质是通过加入规则约束要优化参数防止过拟合.()的计算方法为().()其中:变量和为系数变量是决策树的叶子点数是决策树所有叶子节点的预测值构成的向量.模型融合模型由、和随机森林个基学习器组成.首先数据集被进行类别处理.被处理后的数据集中被作为预测集被作为训练集.经过次折叠交叉验证处理后模型的输出结果被作为第二层的输入.模型融合见图.图模型融合模型包含一种经

9、过遗传算法优化后的神经网络.遗传算法被用于优化神经网络中的初始权值.这能够提高神经网络的收敛速度同时降低算法陷入局部最优的可能.在优化神经网络过程中遗传算法首先需要对实验的个体进行实数编码.编码长度计算公式为 .()其中:为隐含层节点数为输入层节点数为输出层节点数.因为遗传算法中的种群规模对于算法的计算复杂度有很大的影响所以参数规模要适当.第期高巍等:基于模型的房价预测算法研究在实验初始时种群规模设为.适应函数为.()其中是神经网络的预测输出与期望输出之间的误差平方和.遗传算法按照概率值进行个体选择.计算概率值如式()所示.其中:为个体的适应度值为种群个体数目.()

10、最优个体直接被复制进入下一代其他个体根据交叉概率行交叉操作最终获得的优化后的权值和阈值被用于神经网络的初始参数设置.在模型将算法、算法和随机森林算法的预测结果组成的新训练集和新测试集作为经过遗传算法优化后的三层神经网络模型的输入三层神经网络模型输出的房屋价格和房屋特征分类结果将被送入到神经网络中.和模型的融合在神经网络中房屋价格被作为并赋予权值为房屋特征被作为并赋予权值为参数变量表示截距项.神经网络的输入为 .()激活函数仍然采用函数激活函数的输出为 ().()通过比较输出值和真实值的误差不断调节的网络权值使误差达到极小的计算公式为().()实验数据处

11、理实验流程实验流程如图所示.首先通过爬虫获取所需数据集其次对数据集进行处理再其次对处理后的数据进行相关性分析最后将其输入神经网络进行房价时序预测.图模型房价预测流程预处理预处理的目的是将无法在房价预测中使用的非数值型特征变量转化为可以进行相互比较的数值特征型值.与传统的独热编码不同本文采用了方法通过统计目标变量进行分组估算出目标期望值.目标期望值可以直接被用来代替类别变量.目标期望值的计算方法为().()其中:变量是处理方式为目标变量是第个训练样本的类样本是目标期望值.现引入先验概率进行平滑处理.先验概率是目标变量在数据集中的平均值.平滑后的公式如公式()所示.其中

12、是先验概率的权重值大于零.()在数据集相关性分析过程中采用了皮尔森相关系数.的绝对值越大表明相关性越强.的计算公式为 ()()()().()值越接近于或相关度越强值越接近于相关度越弱.通常情况下通过以下取值范围判断变量的相关强度:值在沈阳化工大学学报年中表示极强相关值在中表示强相关值在中表示中等程度相关值在中表示弱相关值在中表示极弱相关或无相关.当值小于时表示有显著意义即变量之间相关性显著的结论错误的可能性为当值小于时表示犯错误的可能性为即水平显著.实验结果与分析数据采集通过爬虫技术爬取链家网二手房成交网站(:/)将其作为数据集数据.数

13、据集包括条沈阳市各区域年成交房源数据.数据集参数分别含有以下房源特征信息:区域生产总值、园区、户型、成交日期、房价、朝向、装修、房龄、楼层.通过语言调用百度获取数据集中房源信息的经纬度.根据获取到的经纬度在地图上显示数据集中的各成交房的地理空间分布如所示.图中的点代表数据集中交易房源所在位置两条红线代表沈阳市地铁一号线和二号线.根据房源经纬度计算各房源到地铁站的最短距离和到市中心的距离.这两个距离作为两个新的房源特征被合并到数据集中.图数据集中成交房分布相关性分析通过表发现装修和楼层与房价相关性不高皮尔森系数分别是和.表可以直观地看到距离市中心距离和距离地铁站最近距离与

14、房价呈现很高的负相关性.表房价与各变量之间的皮尔森相关系数特征变量房价与各变量之间的皮尔森相关系数地区生产总值面积朝向户型装修房龄楼层距地铁站距离距市中心距离成交日期评价标准采用和作为评价指标对最终预测结果进行评价.是预测值与真实值的差值平方后得到的标准差与观测次数比值的平方根.().()值对特大或特小的误差非常敏感.所以值能够很好地反映出测量的精密度.可以反映线性回归拟合的程度.公式()中的代表值.的取值范围区间为值越接近表示模型的拟合度越高一般认为值超过的模型的拟合优度比较高.()().()实验结果分析实验中将预处理后的数据集分为两组.这两组数

15、据分别是房价数据集和房屋特征数据集共计条数据作为测试集作为训练集.两组数据分别被送入和第期高巍等:基于模型的房价预测算法研究进行加权融合得到最终预测结果.将测试集中某处的成交房价预测值与真实值进行比较结果如图所示.表中列出了模型与、随机森林模型的实验比较结果.由表可知模型与预测结果最好的单一模型相比值降低提高了.这充分表明模型在拟合度方面有很好的提升.图预测值与真实值的对比曲线表不同模型之间的评价指标对比模型随机森林结论提出了一种基于提升优化和神经网络相融合的模型.通过该模型对沈阳市年成交房的数据进行了预测.实验结果表明模型不仅能

16、够对非数值型特征变量进行有效的处理而且在预测准确性上相较于传统模型也有很好的提升.实验结果验证了模型在房价预测中精准度高于其他模型.参考文献:李东月马智胜.灰色()模型在房价预测中的算法研究.企业经济():.高玉明张仁津.基于遗传算法和神经网络的房价预测分析.计算机工程():.陈娜唐晨旭刘伟等.周口市住宅商品房价格的分析与预测.数学的实践与认识():.邬嘉怡王思玉史宏炜等.基于多小波的北京市房屋市场价格的分析预测.北京化工大学学报(自然科学版)():.杨璐瑶周妍敏李忆雯.合肥地铁对沿线商品房房价的影响.九江学院学报(自然科学版)():.:.苗丰顺李岩高岑等.基于算法的糖尿病预测方法.计算机系统应用():.刘斌陈凯.基于和的贷款风险预测方法.计算机与现代化():.:.():.孙逸菲袁德成王建龙等.基于方法的葡萄酒品质预测.沈阳化工大学学报():.沈阳化工大学学报年 ():.:(上接第页)():.:

展开阅读全文