1、2023.7电脑编程技巧与维护1概述大数据驱动的机器学习方法,是从数据出发,以统计学、数据挖掘等理论为基础,使用常见的机器学习有关模型挖掘出数据中包含的隐含信息,实现对数据进行预测、监控等功能1。同时,现有的电池管理系统计算能力有限,无法实现本地进行计算,部分机器学习模型能够实现本地实时计算,节省数据传输过程中流量的同时,也解决了信号不稳定,而导致回传数据大量缺失的数据质量问题2。2数据预处理2.1电动汽车动力电池数据字段描述实验所选数据共有10个特征变量,包括累计里程、速度、挡位、最高温度值、最低温度值、电池单体电压最高值、电池单体电压最低值、总电流、总电压以及SOC,电动汽车动力电池基本参
2、数如表1所示。2.2异常值的分析与处理异常值又称离群点,是在数据集中与其他观测值显著不同的点。引起异常值的原因有很多种,例如,数据输入错误、测量误差、实验误差、故意异常值、数据处理错误、抽样错误、自然异常值等。异常值可能对数据分析、模型训练和预测产生负面影响,可能会使模型不稳定,产生过拟合,影响模型的性能和准确性。因此,在进行数据分析和建模前,通常需要检测和处理异常值。常用的方法包括基于统计学和基于机器学习的方法。根据异常值发生的原因被分为两大类:人为错误和自然错误。异常值的判别方法如下:(1)描述分析统计。通过对数据的描述性分析或根据经验、标准得出的取值范围,查看取值是否合理。如果样本中的值
3、不在该区间,则表示该样本属于异常值。(2)3准则。设被测量变量进行等精度测量,得到x1,x1,xn,算出其算术平均值x及剩余误差vi=xi-x,(i=1,2,3),并按贝塞尔公式算出标准误差,若某个测量值xb的剩余误差vb(1bn),满足|vb|=|xb-x|3,则认为xb是含有粗大误差值的坏值,应予删除。贝塞尔公式如公式(1)所示:(1)当数据服从正态分布时,根据正态分布的定义可知,距离平均值3之外的概率为P(|x-|3)0.003,这属于极小概率事件,在默认情况下可以认定,距离超过平均值3的样本是不存在的。因此,如果样本距离平均值大于3,则认定该样本为异常值。3正态分布如图1所示。动力电池
4、SOC的异常值箱线图如图2所示,对变量的特征异常统计表明异常特征的分布较为集中,且异常点不算明显,对结果几乎没有影响,因此无需处理异常值。基于机器学习的电动汽车动力电池 SOC 预测分析李万田(重庆交通大学机电与车辆工程学院,重庆400074)摘要:近年来,随着大数据的发展,机器学习的方法备受关注,大数据驱动的机器学习方法在电池健康状态的评估与预测中有着多方面的优势。基于此,采用 Xgboost、线性回归和支持向量机(SVM)3种模型对比,以均方误差(MSE)、平均绝对误差(MAE)、均方根误差(RMSE)为模型评价指标对新能源汽车电池剩余电量(SOC)进行回归预测分析,并取得了不错的效果。关
5、键词:电池健康;剩余电量;机器学习;大数据变量名称字段范围累计里程10152 39938 km速度0100.7 km/h档位015的二进制位表示最高温度值613 最低温度值511 电池单体电压最高值3.3824.147 V电池单体电压最低值3.3464.137 V总电流-113.1240.3 A总电压322.2397.5 VSOC7%100%表1电动汽车动力电池基本参数图13正态分布-3-2-101230.1%2.1%2.1%0.1%13.6%13.6%34.1%34.1%0.00.10.20.30.4111DOI:10.16184/prg.2023.07.0532023.7电脑编程技巧与维护
6、3电动汽车动力电池相关性分析相关性分析用于检验自变量与因变量之间是否存在相关性,只有当自变量与因变量之间存在相关性时,变量才能更好地表征出预测变量。相关性分析是一种描述性分析方法,可以检查变量与变量之间的共线度,当共线度过大时,可能会引起模型的不稳定,导致模型的鲁棒性差。皮尔逊相关系数(Pearson correlation coefficient)是一种线性的相关性系数,它的原理是变量之间的协方差除以标准差的乘积,分母是变量的标准差3。该系数的取值范围为-1+1,其中,-1为完全负相关;0为无关;+1为完全正相关。实验中,根据皮尔逊相关系数绘制了电动汽车动力电池相关性热力图,用以表征不用特征
7、变量对电动汽车动力电池SOC的影响程度,皮尔逊相关系数热力图如图3所示。图3以0为分界线,相关系数大于0表征正相关,相关系数小于0表征负相关,数值越大且颜色越深,代表相关程度越高。从结果来看,电池单体电压最高值、电池单体电压最低值和总电压这3个变量对电动汽车动力电池SOC的影响程度是最大的。4电动汽车动力电池 SOC 预测模型建立与求解按照73的比例将原始数据划分成训练集与测试集,使用训练集来生成模型,再用测试集来测试模型的误差,以验证模型的有效性。4.1模型选择实验中选择树模型中的Xgboost模型、SVM模型和线性回归模型,通过对比实验挑选最优模型并求解。4.2Xgboost 模型Xgbo
8、ost是在梯度提升树(GBDT)的基础上,对GBDT进行了改进。传统的GBDT在优化时只用到了一阶导数信息,Xgboost对代价函数进行了二阶泰勒展开,使用了更多的训练数据信息4。此外,Xgboost在代价函 数中加了正则项,Xgboost使用两种类型的正则化,L1正则化和L2正则化。L1正则化将模型中权重的绝对值作为正则化项,使模型的权重稀疏化,减少不重要的特征的影响;L2正则化将模型中权重的平方和作为正则化项,使模型的权重尽量小,防止出现过拟合的情况。在Xgboost中,正则化项的系数可以通过调整参数来控制,以达到最优的正则化效果。4.3SVM 模型SVM是一种常见的监督学习算法,用于分类
9、和回归问题。它基于结构风险最小化(SRM)理论,SVM作为一种高效的分类器,通过在特征空间中找到一个最优的超平面来实现分类或回归,但逐渐被用到回归分析问题上;回归的思想来自于分类模型的思想理论,创建模型的代价函数不考虑边界的训练点5,同时回归创建的代价函数忽略任何接近模型预测的训练集数据。SVM算法的优点在于可以处理高维数据,能够有效地处理小样本问题,并且对于非线性分类问题,可以通过核函数Kernel Function将数据映射到高维空间中进行处理。但是,SVM算法也存在一些缺点,例如,对于大规模训练集的处理效率较低、对于参数的选取较为敏感。4.4线性回归模型线性回归模型,从数据所在的N维空间
10、中找到一条线来描述这些数据的规律,这个过程称为拟合,这条线称为拟合线。拟合线上的一些点或多或少会偏离实际点,实际点的统计和拟合线上对应的点之间的差称为残差,通过残差可以很明显地反映出模型的预处误差6。由于残差有正有负,所以计算比较复杂,并且在实际中残差的正负并不影响误差大小。所使用的是残差的绝对值,用来描述误差程度大小。经过平方、取绝对值等数据变化后仍具有同样的效果,所以应该选择一条图2动力电池SOC异常值箱线图图3皮尔逊相关系数热力图SOC10080604020累计里程速度挡位最高温度值最低温度值电池单体电压最高值电池单体电压最低值总电流总电压soc1-0.39-0.520.440.47-0
11、.09-0.082-0.3-0.083-0.1-0.3910.68-0.054-0.053-0.17-0.180.62-0.18-0.036-0.520.681-0.3-0.330.020.00480.550.00930.130.44-0.054-0.310.94-0.54-0.54-0.093-0.54-0.570.47-0.053-0.330.941-0.52-0.52-0.097-0.52-0.55-0.09-0.170.02-0.54-0.5211-0.1510.96-0.082-0.18 0.0048-0.54-0.5211-0.1610.96-0.30.620.55-0.093-0
12、.097-0.15-0.161-0.16-0.0021-0.083-0.18 0.0093-0.54-0.5211-0.1610.96-0.1-0.0360.13-0.57-0.550.960.96-0.0021 0.9611.00.80.60.40.20-0.2-0.4累计里程速度挡位最高温度值最低温度值电池单体电压最高值电池单体电压最低值总电流总电压soc1122023.7电脑编程技巧与维护Xgboost模型特征重要性评分特征重要性评分电池单体电压最高值总电压最高温度值最低温度值速度挡位累计里程总电流特征变量电池单体电压最低值0.000.050.100.150.200.250.300.35
13、线,使实际值与线上的点尽可能多地重合或残差的平方总和最小,这样的一条线被称为最佳拟合线。因其结构简单、解释性好、实现简单,在工程领域得到广泛应用。其计算公式如公式(2)所示:y=m0+m1x1+m2x2+mnxn+(2)5模型的评价指标分别以MAE、MSE、RMSE作为模型的评价指标。用以估算最终模型输出结果的好坏。6模型结果与解释6.1模型结果对比通过网格搜索对比发现,Xgboost模型的效果要优于其他几个模型,分别以MSE、MAE、MSE为评估指标绘制表2。综合比较3种机器学习模型,得出结论Xgboost模型的效果是最好的。因此,最终选用Xgboost模型作为预测电动汽车动力电池SOC的机
14、器学习模型。6.2特征重要性评分基于树的集成学习算法有一个很大的优点,在模型训练时可以对每个变量进行重要性的评分,在完成训练之后可以将每个变量的重要性评分进行排序7。这样就可以得到变量的相对重要度,可以根据这个相对重要度进行变量选择,找出哪些变量对模型的预测有重要影响。特征重要性评分的优点是可以用于特征选择,即选择对目标变量有较大影响的特征,从而减少模型的复杂度和计算量,提高模型的泛化能力,还可以帮助识别数据中的异常值和噪声点,从而提高数据质量。特征重要性的计算方式如下。变量j的全局重要度通过变量j在单棵树中的重要度平均值来衡量,如公式(3)所示:(3)其中,M为树的数量;变量j在单棵树中的重
15、要度的计算方法如公式(4)所示:(4)其中,L为树的叶子节点数量;L-1为树的非叶子节点数量;vt为与节点t相关联的变量;为节点t分裂之后平方损失的减少值。Xgboost模型特征重要性评分如图4所示,可用来观察电动汽车动力电池SOC最重要的影响因子。从图4可以发现,在所有对于电动汽车动力电池SOC有影响的因子中最重要的就是电池单体电压最高值,因此消费者在选购电动汽车时可以考虑电池单体电压最高值比较高的车型。7结语车联网及大数据技术的应用为新能源汽车数据采集、运行分析、电池管理等领域带来了新的发展引擎和动能。同时,应用机器学习分析方法为新能源电动汽车的电池SOC预测提供了便捷。运用皮尔逊相关系数
16、的方法能够为电动汽车动力电池SOC影响特征的相关性估测提供参考,结合特征重要性评分便能够准确地判断出影响因子的重要程度。对比实验的运用与合理的模型评价指标,可以较好地为回归预测电动汽车动力电池SOC提供支持。参考文献1赵帅.基于电化学机理的锂离子电池健康状态估计研究D.大连:大连理工大学,2021.2王春辉.基于神经网络的锂离子电池SOH和SOC预测研究D.哈尔滨:哈尔滨工业大学,2021.3肖滋宇.锂离子电池剩余使用寿命预测研究D.武汉:湖北工业大学,2021.4穆邱倩.数据驱动的锂离子电池剩余寿命预测方法研究D.西安:长安大学,2021.5秦鹏亮.基于梯度提升决策树的动力锂离子电池SOH预测D.天津:天津工业大学,2021.6刘利华.基于电化学模型的锂离子电池荷电及健康状态预估研究D.天津:天津工业大学,2021.7许志宇.充电行为对电动汽车电池健康状态影响的研究D.上海:上海工程技术大学,2020.评价指标MSEMAERMSEXgboost11.03742.93173.3223线性回归33.07304.76185.7509SVM747.145022.628827.3339表23种模型的评价指标图4Xgboost模型特征重要性评分113