1、中国科技期刊数据库 工业 A 收稿日期:2023 年 12 月 21 日 作者简介:朱文倩(1990),女,汉族,浙江宁波人。-134-基于主成分分析的公立医院特征选取研究 朱文倩 上海申康卫生基建管理有限公司,上海 200000 摘要:摘要:公立医院建设项目投资预测的准确性是公立医院建设项目全过程造价管理的决定性因素。但由于影响公立医院投资预测的特征值过于繁杂,为了能够快速地得到投资估算的预测值,现阶段主要使用建筑面积、床位数等特征值作为投资预测模型的特征值。本文通过主成分分析法,基于医疗功能维度及医疗建筑维度,18 项指标进行分析,最终选取 5 项指标作为公立医院投资预测的特征值。由于本文
2、的案例数有限,所选取的特征值可能存在偏差,但验证了主成分分析法在公立医院特征选取方面的可行性,为构建公立医院投资预测模型库提供基础。关键词:关键词:主成分分析;公立医院;特征选取 中图分类号:中图分类号:TP181 0 引言 公立医院的诊疗模式在不断改变、建设内容、建设要求及建造技术在不断提升,建设区域范围不断扩大,建设政策不断更新。在这样的前提下,确定公立医院建设项目的特征体系是公立医院建设项目投资预测模型构建的基础性工作,是确保案例推理过程在公立医院投资预测工作中可以得到准确、合理运用的必要保障。通常情况下,公立医院建设项目的投资预测特征体系的各项指标需能够反映公立医院建设的特点,同时能够
3、体现出公立医院建设的主要构成要素。公立医院建设项目投资预测预测模型中,特征是构建案例库、实现案例检索、案例特征匹配的依据,很大程度上影响案例推理预测的准确性。因此需要建立一个可反映公立医院建设特点又能够最大程度地应用的公立医院建设项目特征体系。1 公立医院的特征体系构建 1.1 特征体系构建原则 公立医院的建筑空间是提供医疗功能的综合建筑物。公立医院包含两种特征属性:一是医疗功能。医疗功能包括门诊部、急诊部、住院部、医技部、保障系统、行政管理、院内生活及其他特殊功能用房。各医疗功能之间存在或紧密联系或独立运行的特点。并且医疗建筑物本身需考虑建设用地、规划要求、建设地点、建筑类型、建设地点相关政
4、策等内容。故特征体系设计时,应基于定性及定量相结合的原则,选择可全面且准确地描述医院建筑的基本功能情况且与建筑投资预测有紧密相关性的关键性特征。(1)目标性原则:特征体系是案例推理可实践性的重要基础。体系中的特征选择要以公立医院的医疗特点及工程特点为基础,明确各特征值所代表的内涵及外延,全方位地考虑影响公立医院投资预测的特征项。(2)有选择性原则:由于个人主观理解的差异性及外部因素的不可穷尽性,特征项的选择过程中要“抓大放小”,在尽可能罗列所有特征值后,需要分析特征值内在的逻辑关系,通过相关性分析,将存在特征值重复的指标进行合并,调整为单一性指标;并且通过敏感性分析或占比分析舍弃对投资预测目标
5、影响较小的部分特征值。(3)可实践性原则:特征值的设计过程主要以实验者的经验为主,在设计过程中,实验者需明确每项特征值的具体内涵便于案例样本特征值采集、梳理。并且特征体系不便过于复杂和繁琐,过于细碎的特征体系无法有效实现模型训练,最终的模型精度也会有所影响。1.2 医院建设项目的特征体系 公立医院建设项目具有建设项目本身的基本属性。它主要描述建设项目的基本情况。并且医院不同的发展阶段,医院的建设内容及建设规模都对公立医院建设项目的投资决策造成影响。因此应从医疗功能和医院建筑两个维度来进行特征体系的构建。1.2.1 医疗功能维度下的特征体系 通过对综合医院建设标准(建标 110-2021)的分析
6、,可对公立医院的空间功能及相关特征体系有系中国科技期刊数据库 工业 A-135-统认知。医院建筑是提供医疗功能及与其相关的功能空间。包括七大功能用房及需额外承担预防保健、医学科研和教学培训任务的功能空间。医疗功能空间可直接选用区域面积作为特征表示。对实现医疗功能空间的机电系统,可根据系统所产生或所消耗的能源类型作为特征表示。1.2.2 医疗建筑维度下的特征体系 建筑物是提供安全、可靠的医疗建筑功能空间的物质构件。建筑物按照组成部分可分为围护工程、地下结构工程、地上结构工程等。医疗建筑可选用物质构件的形式、选材作为特征表示。基于医疗功能维度及医疗建筑维度下的特征体系整理如下:基础信息:建设地点(
7、地级市、内环内、内环外中环内、中环外外环内、外环外)、建设规模(床位数)、建设时期(“十五”规划、“十一五”规划、“十二五”规划、“十三五”规划、“十四五”规划);空间类:七大功能用房(如:门诊部面积)、特定医疗设备用房(洁净功能用房面积、手术室功能用房面积、放射防护屏蔽用房面积)、其他功能用房(其他功能用房、人防功能用房面积)、交通功能用房(停车位数量)、电力供电系统(用电负荷)、备用电源系统(用电负荷)、空调通风系统(冷热源工艺设备)、医用气体系统(床位数);建筑物类:围护工程(支护形式)、基础结构(基础结构形式)、上部结构()结构形式)。2 基于主成分分析法的特征属性约简提取 2.1 主
8、成分分析法的基本概念 主成分分析法也称为主分量分析法,是由霍特林于 1933 年首先提出的。在尽可能降低原始数据所涵盖的内在信息的基础上,将原始的多项指标简化为几项综合性指标的多元统计方法。主成分分析法的目的在于通过发现事物的内在规律,减少由噪声带来的影响,从而实现降低信息维度并进行特征提取的目的。基本理论:某一事物涉及p个指标,分别用x1,x2,xp表示。这p个指标构成的p维随机向量x=(x1,x2,xp),。设随机向量x的均值为,协方差矩阵为。对 x 进行线性变换,可以形成新的综合变量,用 F表示,即满足下式:F1=11x1+21x2+P1xPF2=12x1+22x2+P2xPFp=1px
9、1+2px2+PpxP(4.2)简 写 为:Fi=w1ix1+w2ix2+wpixp,i=1,2,p(4.3)在此,xi是n维向量,得到Fi也是n维向量。上述模型的线性变换约束在下面的原则之下:(1)Fi与Fj(ij;i,j=1,2,.p)不相关;(2)F1的方差大于F2的方差大于F3的方差,以此类推(3)wk12+wk22+wkp2=1,k=1,2,p 2.2 主成分分析法的基本步骤 根据研究对象确定初始的分析变量;根据初始变量的特性判断由协方差阵求主成分;求的协方差的特征根与对应的标准特征向量;求得主成分的表达式并确定主成分个数,选取主成分,计算公式如下:n=minl|ili=1j,0 l
10、 1oj=1(4.4)其 中:为 贡 献 率 阀 值,一 般 设 =0.8;ili=1joj=1表示前 l 个主成分的累计贡献率。计算主成分因子载荷矩阵,计算公式如下:ij=ijj,i=1,2,o,j=1,2,n(4.5)结合主成分研究的得出新的成分。2.3 公立医院的特征选取 对公立医院建设项目根据收集到的30个案例数据,采取主成分分析法对 18 个指标进行分析。各类指标包括数值型属性和非数值型属性。对于非数值型属性需进行数值型转换。2.3.1 非数值型属性进行数值型转换 公立医院建设项目特征属性中的定性指标需要进行量化能进行定量分析,根据施工的难以程度、设备价格的差异及施工造价的差异等标准
11、对非数值型进行量化处理。公立医院建设项目中空调通风系统的形式包含空气源冷热源一体机、螺杆式电制冷水机组、离心式电制冷水机组、磁悬浮离心式冷水机组特征属性,分别选用 1,1.2,1.5,1.7。公立医院建设项目中围护工程包含钢板桩及内支撑;钻孔灌注桩及内支撑;地下连续墙及内支撑;深层搅拌桩及内支撑特征属性,分别选用 0.5,1,1.3,1.5。中国科技期刊数据库 工业 A-136-公立医院建设项目中上部结构的木结构、砌体结构、钢筋砼框架剪力墙结构、钢结构和预制构件结构特征属性,分别选用 0.1,0.3,0.5,0.8,0.7。2.3.2 主成分分析法的效度检验 效度检验是用于检验数据是否适合进行
12、因子分析的方法。KMO 检验(Kaiser-Meyer-Olkin)是用来衡量数据中公共因子与原始变量之间的相关程度,取值范围为 0 到 1 之间。一般来说,KMO 值越接近 1,说明因子分析的效果越好。当 KMO 值小于 0.5 时,就不适合进行因子分析。Bartlett 球形检验则是用于检验数据是否符合球形分布,即各变量之间是否相互独立。在因子分析中,如果变量之间存在多重共线性,那么球形假设就被破坏,Bartlett 球形检验的 P 值就会很小,从而拒绝原假设,即认为变量之间不独立,不适合进行因子分析。对本研究选取的案例进行效度检验,检验结Bartlett 球形检验的 P 值为 0.000
13、,且 KMP 检验值为0.797,高于 0.6,该数据比较适合进行分析;Bartlett检验对应 p 值为 0.000,小于 0.05 说明该数据适合进行主成分分析。因此,可用主成分分析法对特征属性进行分析。2.3.3 数据标准化 主成分分析对选取的指标进行降维,由于面积和无序枚举法选取的数字及以数量为单位的特征属性,存在量纲上的差异。若直接计算对主成分分析算法分类的准确性影响很大,无法达到满意的分析效果。为消除指标变量在量纲上的差异,提高预测进度,需对前文的统计数据进行离差标准化预处理,计算公式如下:yij=xijxjsj i=1,2,n;j=1,2,m(4.6)yij为xij的标准化数据,
14、xj=1nxijni=1为第 j 个指标变量的均值;sj2=1n1(xij xj)2ni=1为第 j 个指标变量的方差。2.3.4 求标准化矩阵 y 的相关系数矩阵 R=rij=YTYn1(4.7)从所求的的标准化矩阵可以看出,床位数、停车位与医疗功能面积有较强相关性;停车位与人防工程有较强相关性;变电站、重症监护室和手术室有较强相关性等;这 18 个变量之间诸多自变量之间存在一定程度的相关性,说明可从这些变量中提取出主成分公共因子,因此进行主成分分析法是可行的。2.3.5 求解系数矩阵的特征值和特征向量|R Ij|=0(4.8)得到特征根:1 2 m 0 求解得到特征值j,其中 j=1,2,
15、.,p,并特征值从大到小进行排序,按照取特征值大于 1 的原则选取特征值大于 1 提取前 m 个特征作为住陈芬。特征值从某种程度上可以被用于说明主成分影响力度大小的指标。如果1,说明该住陈芬的影响力度小于原变量的平均影响力度,因此,一般用1 作为选取原则来选取主成分。并且,一般用累计贡献率来边上信息利用率,计算公式如下:jmj=1jpj=1 85%(4.9)特征根基主成分累计贡献率如表 1 所示。表 1 主成分提取结果 方差解释率表格 编号 特征根 主成分提取 特征根 方差解释率%累积%特征根 方差解释率%累积%1 8.999 49.992 49.992 8.999 49.992 49.992
16、 2 1.893 10.514 60.506 1.893 10.514 60.506 3 1.385 7.696 68.202 1.385 7.696 68.202 4 1.076 5.978 74.18 1.076 5.978 74.18 5 1.044 5.802 79.982 1.044 5.802 79.982 6 0.9 5.003 84.984-7 0.609 3.382 88.366-8 0.501 2.782 91.148-9 0.487 2.704 93.852-10 0.318 1.767 95.619-11 0.24 1.331 96.95-12 0.163 0.908
17、97.857-13 0.138 0.769 98.626-14 0.099 0.548 99.174-15 0.071 0.395 99.569-16 0.041 0.229 99.798-17 0.029 0.159 99.957-18 0.008 0.043 100-表为主成分提取的结果。主成分的重要程度从大中国科技期刊数据库 工业 A-137-到小自上而下进行排序。更具之臣分的选取规则,选取前 5 个成分的特征值1=8.999,2=1.893,3=1.385,4=1.076,5=1.044均大于1,其累计贡献率约为80%,即前五个主成分因子可用于解释 80%的原始变量总方差,而被放弃的其
18、他因子对原始变量总方差的概况能力约为 20%,信息量的损失较少,主成分提取较为理想。2.3.6 确定主成分 主成分计算公式如下:Fij=yjTbi (j=1,2,m)(4.10)其中,yi=(y1j,y2j,ynj)T,Fi=(Fi1,Fi2,yip)T,i=1,2,m,j=1,2,p。F1 为第一主成分,F2 为第二主成分,以此类推,共选取 m 个主成分。根据主成分线性组合系数矩阵,得出主成分计算公式如下:1=0.290 1+0.174 2+0.298 3+0.320 4+0.256 5+0.181 6+0.305 7+0.231 8+0.173 9+0.245 10+0.199 11+0.
19、249 12+0.208 13+0.152 14+0.311 15+0.125 16+0.192 17+0.206 18 2=0.195 1+0.166 2 0.177 3 0.033 4+0.149 5+0.197 6 0.171 7+0.375 8+0.229 9+0.204 10 0.190 11+0.276 12+0.028 13+0.407 14 0.142 15 0.252 16 0.336 17 0.318 18 3=0.207 1+0.273 2 0.086 3 0.081 4+0.119 5+0.210 6 0.151 7+0.204 8 0.291 9 0.161 10+0
20、.029 11+0.028 12 0.482 13+0.283 14 0.108 15+0.379 16+0.290 17+0.288 18 4=0.118 1+0.30 2 0.102 3 0.098 4+0.211 5 0.535 6 0.103 7 0.283 8+0.148 9+0.310 10 0.225 11+0.379 12+0.060 13 0.156 14 0.079 15+0.299 16+0.116 17+0.038 18 5=0.001 1+0.067 2+0.004 3 0.071 4 0.443 5 0.058 6 0.103 7+0.121 8+0.581 9 0
21、.242 10 0.060 11 0.195 12+0.315 13+0.258 14 0.144 15+0.316 16+0.167 17+0.118 18 2.3.7 综合分析主成分 根据荷载系数及主成分贡献率可得知主成分 1 中床位数、物流传输系统、建筑高度、停车位、变电站、柴油发电机组、医疗功能面积、其他功能部面积、血液透析室面积、重症监护室面积、净化工程、手术室工程、放射屏蔽工程、重点实验室、人防工程面积都有较大份额,而大部分特征值最终可在建筑面积中集中体现,故将主成分 1 定义为建筑面积。主成分 2 中主要体现其他功能面积、围护工程及暖通设备属性,由于其他功能面积已在主成分 1 中
22、考虑,故将主成分 2定义为围护工程。主成分 3 中主要体现放射屏蔽工程及结构选型属性,由于放射屏蔽工程已在主成分 1 中考虑,故将主成分 3 定义为结构选型。主成分 4 中主要体现柴油发电机组属性,由于柴油发电机组是特别负荷用电设备、一级负荷用电设备的用电保障系统;而在医疗建筑中,手术室、检验实验室需要柴油发电机组作为备用用电保障系统,而此类区域的主要用电设备为暖通设备及部分电力设备,为考虑特征成分的全面性,故将主成分 4 选为暖通设备。主成分 5 中主要体现变电站及血液透析室属性,由于血液透析室已在主成分 1 中考虑,并且主成分 4 中的柴油发电机组未被选入特征值,柴油发电机组与变电站均为供
23、电系统,并且柴油发电机组的用电量为变电站的部分部分用电量,故将主成分 5 定义为变电站。3 结语 本文采用主成分分析法,对公立医院特征向量进行选取,得出建筑面积、围护形式、结构选型、暖通设备及变电站供电量为公立医院投资预测模型的特征向量。本文所选用的样本数量有限,故得出的特征向量有较强的代表性。但同时说明主成分分析法在公立医院特征向量选取的应用具有可行性。对未来构建公立医院投资预测模型库有积极的基础性作用。中国科技期刊数据库 工业 A-138-参考文献 1姜百宁.机器学习中的特征选择算法研究D.山东:中国海洋大学,2009.2 陈 小 波,张 媛 媛,崔 平.基 于 SVR 的 工 程 建 设 项 目 快 速 投 资 估 算 方 法 研 究 J.工 程 管 理 学报,2020,34(01):143-148.3王道静,朱晓虎,刘士李,刘丽.基于粒子群算法的变电站工程造价投资估算模型J.工程管理学报,2017,31(03):43-47.