收藏 分销(赏)

基于LSTM-StackingCXR模型的房价预测算法研究.pdf

上传人:自信****多点 文档编号:636587 上传时间:2024-01-21 格式:PDF 页数:7 大小:1.36MB
下载 相关 举报
基于LSTM-StackingCXR模型的房价预测算法研究.pdf_第1页
第1页 / 共7页
基于LSTM-StackingCXR模型的房价预测算法研究.pdf_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第卷 第期沈 阳 化 工 大 学 学 报.收稿日期:基金项目:辽宁省教育厅科学技术研究项目()辽宁省博士启动基金项目()辽宁省教育厅科学研究项目()作者简介:高巍()女辽宁沈阳人教授博士主要从事大数据分析及应用、智能信息处理的研究.文章编号:()基于 模型的房价预测算法研究高 巍 刘博洋 李大舟 王淮中(沈阳化工大学 计算机科学与技术学院 辽宁 沈阳)摘 要:房屋价格一直是社会最为关心的话题.预测房价走势并为购房者提供参考房价一直是房地产业和相关学术领域的研究热点.针对房价预测过程中存在数据集变量多、维度高的问题本文通过计算多个房源特征与房源价格之间的皮尔森系数去除冗余房源特征有效地降低了房源

2、特征数据集的维度.为了将信息损失降至最小采用 处理房源特征中的类别变量.针对预测模型的过拟合、泛化能力差的问题采用 策略融合了、随机森林算法并且结合 神经网络最终提出了一种 模型.实验结果表明 模型预测结果与现有多个模型预测结果相比其预测精度指标有较大程度的提升.关键词:房价预测 策略 随机森林:./.中图分类号:文献标识码:房价走势的预测对社会发展和经济振兴具有重要意义.房价预测方法已经在学术领域引起了众多学者的重视.年灰色()模型被应用于房价预测.年遗传算法优化后 神经网络模型被提出.实验结果表明经过优化后的 神经网络模型可以加快收敛速度、提高预测精度.年陈娜等利用灰色关联度对周口市 年房

3、价走势进行了预测并分析了灰色模型预测方法中多个数据特征对预测精度的影响通过逻辑回归分析验证了分析结果的正确性.同年邬嘉怡等使用小波变换的方法实现了房价预测.邬嘉怡等发现多小波分析能更好地保持预测数据中原有的信息特征而且在准确率指标上多小波分析高于单小波分析.在面对数据量大、维度多的房价预测数据集时现有的房价预测模型依然存在精准度低、模型预测结果过拟合和泛化能力差的缺点.针对上述问题本文提出一种 模型来预测房价.首先在 模型中根据房源地理空间经纬度计算该房源距离地铁站和城市中心距离.这两个距离值被作为新的房源特征归并到输入数据集中.其次对非数值型房源特征 模型运用 类别处理方法通过计算输入数据集

4、中各房源特征之间的皮尔森系数获得对房价影响较大的房源特征.最后基于 策略 模型不仅集成了、随机森林算法而且结合 神经网络预测了每个房源下一时刻的成交价格.模型 模型设计设计 模型应用于房价预测.该模型分为 房价时序预测和 第 期高 巍等:基于 模型的房价预测算法研究 房屋估价两部分.房价时序预测部分是将房价时序数据集输入 神经网络获得房价时序特征 房屋估价部 分 使 用 策 略 集 成 的、随机森林模型根据房价的基本信息参数进行训练和预测获得基于房屋基本信息的估价特征.将获得的时序特征和估价特征加权融合作为输入运用 神经网络完成房价预测任务总体框架如图 所示.图 模型 时序预测 是一种特殊类型

5、循环神经网络.它是一类以序列数据为输入沿着序列的演进方向进行递归.在 中所有节点按链式连接并且可以被分为 个类别:输入门、输出门、遗忘门和细胞状态.输入门和输出门分别负责把外界保存到记忆单元和从记忆单元中输出计算结果.遗忘门在 中以一定概率控制是否遗忘上一层的隐藏状态.计算概率的方法通常采用的是 激活函数 激活函数由公式()定义.().()采用的 模型如图 所示.输入序列为向量 的隐藏状态分别为向量 和向量 .输入门、遗忘门和输出门的输入都是在第 天的成交房价 和 日期的隐藏状态向量 .输入门、遗忘门和输出门的 个向量计算方法如公式()公式()所示.()()()()().()式中:为激活函数、

6、分别为输入门权重向量、遗忘门权重向量和输出门权重向量、为偏差参数变量.图 模型 模型通过公式()得到隐藏状态的另外一个输入向量 .公式()使用 作为激活函数.激活函数的输出在 区间.被用于第 天房价预测的向量 计算公式如公式()所示.向量 和向量 都是权重参数为偏差参数变量.().()被用于第 天房价预测的向量 是向量 上一层网络的向量、变量 和变量 综合产生的如公式()所示.在公式()中为按元素乘法.()向量 经过 函数产生一个值域为 的向量.该向量与输出门的输出向量 相乘得到最终的隐藏状态向量.().()模型设计 策略是一种集成学习方法.它集成了多个基学习器预测结果.策略通常分为两步:第一

7、步由多个基学习器组成第二步为一个元学习器.第一步中输入数据被送入基学习器中进行训练然后产生多个基学习器输出值这些输出值被组合后送入第二步元学习器 沈 阳 化 工 大 学 学 报 年在元学习器中根据新的输入更新最终结果.在第二步中为了防止过拟合风险采用 折交叉验证的方式.模型 是一种 算法由 和 组成.在梯度偏差以及预测偏移方面 算法可以提高准确性和泛化能力.对经典的梯度提升算法进行了改进.为了选择最佳的树结构 通过枚举不同的分割来计算叶子节点值再计算树的评分最后获得最佳的树结构分割.模型 本质是由多个弱学习器组合而成的强学习器.弱学习器是通过决策树算法来实现.决策树算法根据每个树的决策点判断结

8、果是否进入分支是否最终到达叶子节点从而获得预测结果.在预测最终结果时 综合考虑每个弱学习器的预测结果.的损失函数为 ()().()其中:为训练样本数 是单个样本的损失为预测值 为样本真实标签值()表示正则化函数.正则化的本质是通过加入规则约束要优化参数防止过拟合.()的计算方法为().()其中:变量 和 为系数变量 是决策树的叶子点数 是决策树所有叶子节点的预测值构成的向量.模型融合 模型由、和随机森林 个基学习器组成.首先数据集被进行类别处理.被处理后的数据集中 被作为预测集被作为训练集.经过 次折叠交叉验证处理后 模型的输出结果被作为第二层的输入.模型融合见图.图 模型融合 模型包含一种经

9、过遗传算法优化后的 神经网络.遗传算法被用于优化 神经网络中的初始权值.这能够提高 神经网络的收敛速度同时降低 算法陷入局部最优的可能.在优化 神经网络过程中遗传算法首先需要对实验的个体进行实数编码.编码长度计算公式为 .()其中:为隐含层节点数 为输入层节点数为输出层节点数.因为遗传算法中的种群规模对于算法的计算复杂度有很大的影响所以参数规模要适当.第 期高 巍等:基于 模型的房价预测算法研究 在实验初始时种群规模设为.适应函数为.()其中 是 神经网络的预测输出与期望输出之间的误差平方和.遗传算法按照概率值进行个体选择.计算概率值如式()所示.其中:为个体 的适应度值 为种群个体数目.()

10、最优个体直接被复制进入下一代其他个体根据交叉概率 行交叉操作最终获得的优化后的权值和阈值被用于 神经网络的初始参数设置.在 模型 将 算法、算法和随机森林算法的预测结果组成的新训练集和新测试集作为经过遗传算法优化后的三层 神经网络模型的输入三层 神经网络模型输出的房屋价格和房屋特征分类结果将被送入到 神经网络中.和 模型的融合在 神经网络中房屋价格被作为 并赋予权值为 房屋特征被作为 并赋予权值为 参数变量 表示截距项.神经网络的输入为 .()激活函数仍然采用 函数激活函数的输出为 ().()通过比较输出值 和真实值 的误差不断调节 的网络权值使误差 达到极小 的计算公式为().()实验数据处

11、理 实验流程实验流程如图 所示.首先通过爬虫获取所需数据集其次对数据集进行处理再其次对处理后的数据进行相关性分析最后将其输入 神经网络进行房价时序预测.图 模型房价预测流程 预处理预处理的目的是将无法在房价预测中使用的非数值型特征变量转化为可以进行相互比较的数值特征型值.与传统的 独热编码不同本文采用了 方法通过统计目标变量进行分组估算出目标期望值.目标期望值可以直接被用来代替类别变量.目标期望值的计算方法为().()其中:变量 是处理方式 为目标变量是第 个训练样本的 类样本是目标期望值.现引入先验概率 进行平滑处理.先验概率 是目标变量 在数据集中的平均值.平滑后的公式如公式()所示.其中

12、 是先验概率 的权重值大于零.()在数据集相关性分析过程中采用了皮尔森相关系数.的绝对值越大表明相关性越强.的计算公式为 ()()()().()值越接近于 或 相关度越强 值越接近于 相关度越弱.通常情况下通过以下取值范围判断变量的相关强度:值在 沈 阳 化 工 大 学 学 报 年中表示极强相关 值在 中表示强相关 值在 中表示中等程度相关 值在 中表示弱相关 值在 中表示极弱相关或无相关.当 值小于 时表示有显著意义即变量之间相关性显著的结论错误的可能性为当 值小于 时表示犯错误的可能性为 即水平显著.实验结果与分析 数据采集通过爬虫技术爬取链家网二手房成交网站(:/)将其作为数据集数据.数

13、据集包括 条沈阳市各区域 年成交房源数据.数据集参数分别含有以下房源特征信息:区域生产总值、园区、户型、成交日期、房价、朝向、装修、房龄、楼层.通过 语言调用百度 获取数据集中房源信息的经纬度.根据获取到的经纬度在 地图上显示数据集中的各成交房的地理空间分布如 所示.图 中的点代表数据集中交易房源所在位置两条红线代表沈阳市地铁一号线和二号线.根据房源经纬度计算各房源到地铁站的最短距离和到市中心的距离.这两个距离作为两个新的房源特征被合并到数据集中.图 数据集中成交房分布 相关性分析通过表 发现装修和楼层与房价相关性不高皮尔森系数分别是 和.表 可以直观地看到距离市中心距离和距离地铁站最近距离与

14、房价呈现很高的负相关性.表 房价与各变量之间的皮尔森相关系数 特征变量房价与各变量之间的皮尔森相关系数地区生产总值 面积 朝向 户型 装修 房龄 楼层 距地铁站距离 距市中心距离 成交日期 评价标准采用 和 作为评价指标对最终预测结果进行评价.是预测值与真实值 的差值平方后得到的标准差与观测次数 比值的平方根.().()值对特大或特小的误差非常敏感.所以 值能够很好地反映出测量的精密度.可以反映线性回归拟合的程度.公式()中的 代表 值.的取值范围区间为 值越接近 表示模型的拟合度越高一般认为 值超过 的模型的拟合优度比较高.()().()实验结果分析实验中将预处理后的数据集分为两组.这两组数

15、据分别是房价数据集和房屋特征数据集共计 条数据作为测试集 作为训练集.两组数据分别被送入 和 第 期高 巍等:基于 模型的房价预测算法研究 进行加权融合得到最终预测结果.将测试集中某处的成交房价预测值与真实值进行比较结果如图 所示.表 中列出了 模型与、随机森林模型的实验比较结果.由表 可知 模型与预测结果最好的单一模型相比 值降低 提 高 了.这 充 分 表 明 模型在拟合度方面有很好的提升.图 预测值与真实值的对比曲线 表 不同模型之间的评价指标对比 模型 随机森林 结 论提出了一种基于提升优化和神经网络相融合的 模型.通过该模型对沈阳市 年成交房的数据进行了预测.实验结果表明 模型不仅能

16、够对非数值型特征变量进行有效的处理而且在预测准确性上相较于传统模型也有很好的提升.实验结果验证了 模型在房价预测中精准度高于其他模型.参考文献:李东月马智胜.灰色()模型在房价预测中的算法研究.企业经济():.高玉明张仁津.基于遗传算法和 神经网络的房价预测分析.计算机工程():.陈娜唐晨旭刘伟等.周口市住宅商品房价格的分析与预测.数学的实践与认识():.邬嘉怡王思玉史宏炜等.基于多小波的北京市房屋市场价格的分析预测.北京化工大学学报(自然科学版)():.杨璐瑶周妍敏李忆雯.合肥地铁对沿线商品房房价的影响.九江学院学报(自然科学版)():.:.苗丰顺李岩高岑等.基于 算法的糖尿病预测方法.计算机系统应用():.刘斌陈凯.基于 和 的贷款风险预测方法.计算机与现代化():.:.():.孙逸菲袁德成王建龙等.基于 方法的葡萄酒品质预测.沈阳化工大学学报():.沈 阳 化 工 大 学 学 报 年 ():.:(上接第 页)():.:

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服