基于随机森林的二手车定价策略研究.pdf

资源描述

1、科技、经济、市场2023 年第 6 期89经济研究基于随机森林的二手车定价策略研究金之熔（湖南幼儿师范高等专科学校，湖南常德 415000）摘要：文章旨在探索基于随机森林的二手车定价策略，并评估其在二手车市场中的应用潜力。首先，对数据集进行了详细的预处理和特征分析，包括数据清洗、缺失值处理和特征处理等步骤。随后，采用3种不同的机器学习算法，分别是XGBoost、LightGBM和随机森林算法，对二手车的定价进行建模研究。使用交叉验证和多种评价指标对模型的性能和准确度进行评估。实验结果显示：基于随机森林的二手车定价策略在精度和效果上表现出明显的优势。关键词：XGBoost算法；LightGB

2、M算法；随机森林算法；二手车；定价0 引言二手车市场的快速增长和日益复杂的交易环境使得二手车估价成为重要话题。准确估计二手车的市场价值对买家、卖家和保险公司等至关重要。然而，由于二手车价格受多种因素影响，如车龄、行驶里程、品牌、车况以及市场供需等，精确估计二手车的价值变得相当具有挑战性。近年来，随着机器学习和数据科学的快速发展，利用数据驱动的方法建立二手车估价模型逐渐成为研究热点。这些模型通过分析大规模的历史交易数据和车辆特征，能够从中提炼出复杂的价格关联模式，并为二手车的估价提供准确而可靠的预测。提出一种基于机器学习的二手车估价模型，综合考虑多种特征和数据源，精确估计二手车市场价值。利用二手

3、车交易数据，包括车辆属性、市场行情、经济指标等，以及使用先进的机器学习算法，构建一个高效、准确的二手车估价模型。1 数据来源及算法介绍1.1 数据来源数据来源于2021年MathorCup高校数学建模挑战赛大数据竞赛赛道A。该赛题提供了4个附件，相关附件如下：（1）附件1为估价训练数据，包含30 000条数据。主要数据字段包括车辆id、展销时间等，即匿名特征115和二手车交易价格等，共计36列。（2）附件2为估价验证数据，提供了5 000条数据，与附件1的数据字段相同，但缺少二手车交易价格数据。1.2 算法介绍随机森林算法（Random Forest）是一种集成学习方法，通过构建多个决策树并进

4、行集成进行预测和分类任务。它结合了决策树的高效性和集成学习的优势，能够在处理各种复杂的数据集和特征的情况下表现出色。其核心思想是通过构建多个决策树进行预测。每个决策树都是基于随机选择的样本和特征建立的。具体而言，对每个决策树的建立过程，随机森林从原始数据集中进行有放回抽样（Bootstrap）得到不同的训练子集，并在每个节点上随机选择一部分特征作为划分依据。通过对多个决策树的预测结果进行集成，随机森林可以减少过拟合风险，并具有较好的泛化能力。XGBoost是一种基于梯度提升算法的高效机器学习算法。其结合了梯度提升决策树和正则化技术，以提高模型的性能和泛化能力。其在处理结构化数据和特征工程方面具

5、有出色的效果，并能够处理大规模数据集。主要采用集成学习的思想，通过组合多个弱分类器构建一个强分类器。它通过迭代地训练树模型，每一轮都尝试纠正上一轮预测的错误。LightGBM是一种基于梯度提升算法的高效机器学习算法。它通过使用基于直方图的决策树学习算法和轻量级设计，提供了快速训练速度和高预测性能。LightGBM采用梯度提升算法的思想，通过迭代地训练决策树模型逐步提升模型性能。它以一种2023 年第 6 期90科技、经济、市场经济研究带有直方图的决策树为基础，通过将连续特征离散化为直方图，并使用直方图进行梯度计算和分裂选择，提高了训练的效率和准确性。2 模型假设为了建模方便，假设：（1）样本

6、缺失过多的变量为二手车价格提供的必要信息越少；（2）不考虑某些具有收藏价值车型的估价，即二手车价格比新车价格高的数据可以作为异常数据处理。3 数据预处理3.1 缺失值处理查看数据缺失情况，匿名特征15和匿名特征7的缺失情况均超过60%，根据假设，删除这两个特征。同时对其他缺失数据进行缺失值填充。3.2 异常值处理根据新车价格（newprice）与售价（price）的散点图分析，可以观察到售价中存在1个异常值。为了确保数据的准确性和可靠性，决定排除该异常值，并重新绘制新车价格与售价的散点图。在重新绘制的图表中，发现部分样本的售价明显高于相应的新车价格，与二手车价格的一般规律相矛盾。这些异常情况被

7、定义为离群值，并从数据集中删除，避免对后续分析和模型建立产生不良影响。3.3 数据转换与特征处理（1）特征构造。训练集和测试集给出的日期格式是xxxx-xx-xx，不利于进行数据处理，也不利于算法识别，故对tradeTime（展销时间），registerDate（注册日期）和licenseDate（上牌日期）进行处理。利用“展销时间”减去“上牌时间”得到新特征“使用时长”，从而删除“展销时间”和“注册日期”2个特征。针对“上牌时间”特征，本来将此特征转换为“时间戳”进行处理。（2）售价对数变换。画出价格的频率图和Q-Q图，从频率图可以观察到价格分布呈现长尾分布的特点，而Q-Q图则显示出指数形状

8、的趋势（见图3）。为了消除这种长尾分布的特征，考虑对价格进行对数变换。经过对数变换后，可以看到价格的分布图消除了长尾特点，同时Q-Q图也接近于一条直线的形态。（3）类别特征。针对类别特征，采用LabelEncoder的方式对其进行编码。LabelEncoder是一种常用的编码方法，用于将分类特征的不连续数值或文本表示转换为连续的数值编码。LabelEncoder的工作原理是为每个不同的类别赋予一个唯一的整数标签，从0开始递增。通过这种方式，可以将原始的文本或分类值转换为机器学习算法可以处理的数字形式。这种编码方式适用于不需要考虑类别之间顺序关系的情况。（4）数字特征。为了消除不同评价指标之间的

9、量纲影响，对数据进行归一化处理是数据挖掘的基础工作。数据集的特征数据呈现长尾分布的特征，因此，对这些数字特征进行对数变换，并随后进行归一化处理。针对长尾分布特征，对数据进行对数变换。对数变换能够调整数据的分布形态，使其更接近正态分布。对数变换公式如下所示：（1）式中，表示原始数据。数据归一化处理能够将具有不同量纲和量纲单位的评价指标映射到同一数量级，以消除量纲的影响，从而实现综合对比评价的有效性。其中，最常用的归一化方法之一是最小最大归一化（Min-Max Scaling），它将数据线性映射至指定范围（通常是 0，1）。归一化公式如下所示：（2）式中，表示取对数后的数据，和分别表示原始数据的最

10、小值和最大值。通过归一化处理，可以将数据转化为更具可比性的形式。4 二手车价格预测模型及实证分析4.1 评估指标评估指标的选取会影响机器学习模型的选择和对不同特征重要性的解读，可以帮助选出具有良好效果的机器学习模型。在回归模型中，常见的评估指标有：（1）平均绝对误差（Mean Absolute Error，MAE）。平均绝对误差是预测值与真实值之差的绝对值，计算公式如下：（3）式中，表示样本数量，表示模型预测值，表示观测值。（2）均方根误差（Root Mean Squared Error，RMSE）。均方根误差是回归模型中最常用的性能指标之一，它度量了实际观测值与模型预测值之间的平均误差大小。

11、均方根误差可以通过以下公式计算：科技、经济、市场2023 年第 6 期91经济研究（4）均方根误差的计算过程包括求解每个样本的预测误差，将误差平方求和，取平均值，最后对结果进行开方操作。均方根误差的值越小，表示模型的预测结果与实际观测值越接近，模型的性能越好。使用均方根误差作为评价标准之一衡量回归模型的预测性能。通过计算均方根误差，能够量化模型预测值与实际观测值之间的误差，并对不同模型进行比较和评估。较小的均方根误差值将说明模型在预测问题中具有更高的准确性和较好的性能。（3）综合误差评价指标（Comprehensive Error Evaluation Index，CEEI）。综合误差评价指标

12、旨在综合考虑相对误差的平均水平（通过MAPE部分）和相对误差在5%以内的样本比例（通过Ape在5%以内的样本数量部分）。通过综合相对误差评价指标的计算，可以对模型的预测性能进行综合评估，并考虑误差的平均水平和样本的相对误差分布情况。公式计算：（5）式中，Mape(平均相对误差)：，Ape(相对误差)：，（5%误差准确率）:其中，count（Ape=0.05）为相对误差Ape在5%以内的样本数量，count（total）为样本总数量。4.2 基于随机森林算法的二手车价格预测针对处理后的数据采用3种不同的预测模型，分别是XGBoost、LightGBM和RF（Random Forest）模型。针

13、对每个模型的结果，从多个评价指标进行对比，包括误差准确率、平均绝对误差（MAE）、均方根误差（RMSE）、平均相对误差（MAPE）和综合误差评价指标（CEEI）。结果发现随机森林算法在各项评价指标上都表现出优于XGBoost和LightGBM的结果。见表1、图1。表1 3种模型预测效果对比表XGboostLightGBMRFAccuracy540.54%38.56%45.22%MAE1.111.171.05RMSE8.3410.186.59Mape0.0890.0920.088CEEI0.5060.4900.5445 结束语精准估价二手车是一项十分困难的工作，但基于机器学习的估价方法具有广阔的

14、研究空间。本研究为二手车交易提供了一些简单的数据处理和建模思路，对二手车买卖方均有一定的指导意义。参考文献：1中国优选法、统筹法与经济数学研究会.2021年MathorCup高校数学建模挑战赛大数据竞赛赛道A：二手车估价问题 EB/OL（2021-12-21）2023-03-23.https:/ Random Forests.Leo Breiman.Machine Learning,2001,45(1):5-32.3 钱宇,何益丰,谢斌鑫等.基于特征工程的XGboost风速短期预测 J.武汉大学学报(工学版),2022,55(10):1057-1064.4 Hossin M,Sulaiman M N.A review on evaluation metrics for data classification evaluations J.International journal of data mining&knowledge management process,2015,5(2):1.（a）估价结果（b）前100个样本结果图5 预测真实值对比折线图

展开阅读全文