1、第3 7卷第4期2 0 2 3年8月水土保持学报J o u r n a l o fS o i l a n dW a t e rC o n s e r v a t i o nV o l.3 7N o.4A u g.,2 0 2 3 收稿日期:2 0 2 2-1 1-1 7 资助项目:国家自然科学基金项目(4 1 9 0 7 0 4 8);中央高校基本科研费专项(3 0 0 1 0 2 2 6 0 2 0 6)第一作者:范天程(1 9 9 7),男,硕士研究生,主要从事地貌遥感研究。E-m a i l:2 0 2 0 2 2 6 0 0 8c h d.e d u.c n 通信作者:赵建林(1 9
2、8 8),男,副教授,硕士生导师,主要从事土壤侵蚀与区域生态评价研究。E-m a i l:j i a n l i n.z h a o c h d.e d u.c n基于机器学习的沟谷地貌识别模型对比 以黄土高原典型流域为例范天程,汪珍亮,李云飞,贾云飞,袁 可,赵建林(长安大学地质工程与测绘学院,西安7 1 0 0 5 4)摘要:探索沟谷地貌空间分布与环境控制特征之间的联系并构建沟谷地貌准确提取模型,对大尺度范围沟谷提取具有重要意义。基于人工提取黄土高原典型流域沟谷地貌样本,结合不同时期的L a n d s a t 8O L I影像数据和D EM数据,建立随机森林模型确定黄土高原沟谷地貌提取最
3、佳影像时期和最佳组合特征,基于最优模型参数,对比其与支持向量机和人工神经网络沟谷提取模型效果,验证模型泛化能力。结果表明:(1)黄土高原沟谷提取的最佳影像时期为1 2月,最佳组合特征集为R e d、B l u e、H、S W I R 1、P N T、C o a s t a l、G L CM 4和N I R;(2)3种方法提取测试区域的沟谷空间分布一致,从定性和定量角度进行比较,随机森林模型提取效果最好,验证样区平均总体精度为8 0.4 8%,相较于支持向量机模型和人工神经网络模型分别提高4.0 0和8.6 3个百分比;(3)测试区域中,沟谷地貌面积约占总面积的5 6.9 1%,且呈现西北至东南
4、方向逐渐集中的特点。研究表明随机森林模型在黄土高原地区高精度沟谷地貌识别研究中综合表现最佳,可大范围推广。关键词:沟谷分布;机器学习;遥感影像;地形特征;黄土高原中图分类号:P 2 0 8 文献标识码:A 文章编号:1 0 0 9-2 2 4 2(2 0 2 3)0 4-0 2 0 5-0 9D O I:1 0.1 3 8 7 0/j.c n k i.s t b c x b.2 0 2 3.0 4.0 2 6C o m p a r i n g t h eP e r f o r m a n c eo fM a c h i n eL e a r n i n gM o d e l s f o r I
5、 d e n t i f y i n gG u l l yL a n d f o r m s-AC a s eS t u d yo faT y p i c a lW a t e r s h e do nt h eC h i n e s eL o e s sP l a t e a uF ANT i a n c h e n g,WANGZ h e n l i a n g,L IY u n f e i,J I AY u n f e i,YUANK e,Z HAOJ i a n l i n(C o l l e g eo fG e o l o g i c a lE n g i n e e r i n g
6、a n dG e o m a n t i c s,C h a n ga nU n i v e r s i t y,X ia n7 1 0 0 5 4)A b s t r a c t:E x p l o r i n gt h er e l a t i o n s h i pb e t w e e ns p a t i a ld i s t r i b u t i o na n de n v i r o n m e n t a lc o n t r o lc h a r a c t e r so fg u l l y l a n d f o r m s a n db u i l d i n ga
7、c c u r a t e e x t r a c t i o nm o d e l a r eo f g r e a t s i g n i f i c a n c e f o r g u l l y l a n d f o r m s e x t r a c t i o ni nl a r g es c a l e.B a s e do nt h ea r t i f i c i a l e x t r a c t i o no f g u l l y l a n d f o r ms a m p l e s c o m b i n gw i t hL a n d s a t 8O L I
8、 i m a g ed a t aw i t hd i f f e r e n tp e r i o d so f a n dD EMd a t ao f a t y p i c a lw a t e r s h e do nt h eC h i n e s e l o e s sp l a t e a u,t h e r a n d o mf o r e s tm o d e lw a s e s t a b l i s h e d t od e t e r m i n e t h eb e s t p e r i o d f o rg u l l y l a n d f o r m s e
9、 x t r a c t i o na n d t h eb e s t c o m b i n a t i o no fg u l l y i n g f e a t u r e s.T h e n,c o m b i n e dw i t h t h e o p t i m a lm o d e l p a r a m e t e r s,r e s u l t s o f r a n d o mf o r e s tw e r e c o m p a r e dw i t hs u p p o r t v e c t o rm a c h i n ea n da r t i f i c
10、i a ln e u r a ln e t w o r km o d e l t ov a l i d a t et h em o d e lg e n e r a l i z a t i o na b i l i t y.O u rr e s u l t ss h o w e d t h a t:(1)T h eb e s t i m a g ep e r i o d f o rg u l l ye x t r a c t i o nw a s i nD e c e m b e r,a n d t h eb e s t c o m b i n a t i o n f e a t u r e
11、s e tw a sR e d,B l u e,e l e v a t i o n(H),S W I R 1,p o s i t i v ea n dn e g a t i v et e r r a i n(P NT),C o a s t a l,t e x t u r e(G L CM 4)a n dN I R;(2)T h ed i s t r i b u t i o no f g u l l y l a n d f o r m s i nt h e t e s t i n ga r e ae x t r a c t e db y t h r e em e t h o d sh a dc
12、o n s i s t e n t l ys p a t i a l p a t t e r n.B a s e do nq u a l i t a t i v e l ya n dq u a n t i t a t i v e l ym o d e l l i n gp e r f o r m a n c e,t h er a n d o mf o r e s tm o d e lp r e s e n t e dt h eb e s t e x t r a c t i n gp e r f o r m a n c e,w i t ht h ea v e r a g eo v e r a l
13、 l a c c u r a c yo f8 0.4 8%,w h i c hw a sh i g h e rb y4.0 0p e r c e n t a g ea n d8.6 3p e r c e n t a g ec o m p a r e dw i t ht h es u p p o r tv e c t o rm a c h i n em o d e la n dt h ea r t i f i c i a ln e u r a ln e t w o r km o d e l,r e s p e c t i v e l y;(3)T h eg u l l yl a n d f o
14、r m sa c c o u n t e df o r5 6.9 1%o ft h et o t a lt e s t i n ga r e aa n dt h ed i s t r i b u t i o no fg u l l i e s i nt e s t i n ga r e aw a sg r a d u a l l yc o n c e n t r a t e df r o mn o r t h w e s tt os o u t h e a s t.T h er e s u l t ss h o wt h a tt h er a n d o mf o r e s tm o d
15、e lh a st h eb e s tc o m p r e h e n s i v ep e r f o r m a n c ei nt h es t u d yo fh i g h-p r e c i s i o ng u l l y l a n d f o r m s i d e n t i f i c a t i o no nt h eC h i n e s eL o e s sP l a t e a u,a n dc a nb ew i d e l ye x t e n d e d.K e y w o r d s:g u l l yd i s t r i b u t i o n;m
16、 a c h i n el e a r n i n g;r e m o t es e n s i n gi m a g e;t o p o g r a p h i c a lc h a r a c t e r s;C h i n e s eL o e s sP l a t e a u 黄土高原是世界上侵蚀最为严重的区域之一,强烈侵蚀过程造就了黄土高原“千沟万壑”的地貌特征,在所有侵蚀过程中,发生于沟谷地貌的沟蚀过程是该区域泥沙的主要来源。已有研究1表明,黄土高原地区当沟谷密度大于3 0%,小流域泥沙贡献超过7 5%。在世界范围内,沟谷侵蚀作为一种常见的自然现象,特别是在干旱半干旱地区,是导致土
17、地严重退化的主要原因之一,造成土壤质量下降、农业生产力降低和水生生物量减少等不利影响2。准确高效地获取黄土高原地区沟谷地貌空间分布对当地水土保持、泥沙控制、环境保护以及流域管理等领域具有重要意义。针对黄土高原地貌识别,国内学者开展了系列研究。其中,宏观上可将黄土高原地貌分为坡面和沟谷区域,基于尺度大小沟谷区可细分为细沟、浅沟、切沟、冲沟、坳沟和河沟等地貌类型。关于黄土高原侵蚀沟提取,早期研究主要基于单一高分辨率的D EM数据(5m及以上),采用多向阴影法3、地形开度和差值图像阈值分割法4等方法进行地貌的提取和分割。后来基于高分影像数据的提取方法逐渐普及,但因其存在严重的“同物异谱,同谱异物”现
18、象5,多数学者在侵蚀沟提取研究中同时加入了地形因子,常用方法有流向检测法6、定向边缘检测法7等。虽然这些研究能够获得分辨率较高的侵蚀沟地貌,但对高分辨率地形数据依赖程度高,因此相关试验多数为小尺度区域(0为径向核参数。除此之外,惩罚系数(C)为对误差的宽容度,C值过大导致模型出现过拟合,过小则出现欠拟合,合适的C值对预测结果影响较大2 4。本文将参数g a mm a和惩罚系数(C)取值设置为2-1 021 0,以2倍为间隔依次取值,采用网格搜索结合5折交叉验证方法确定最优参数2 1。模型预测结果是对高维空间中每个样本到分类超平面的距离进行S i g m o i d压缩,得到每个像元被预测为沟谷
19、的概率。1.3.3 人工神经网络 人工神经网络(a r t i f i c i a ln e u-r a ln e t w o r k,ANN)是模仿大脑神经网络结构和功能而建立的一种数学模型,只要参数选取合适并且数据训练足够多,就能很好地拟合非线性问题。其网络结构包括网络层数以及输入、输出和隐藏层个数,可以表示为2 5:ym=f(wm lxl+bm)(2)式中:xl和ym分别为输入因子和输出因子;wm l、bm和f分别为权重因子、偏差项和激活函数。已有研究2 6证明,1个3层神经网络模型(隐藏层只含1个全连接层),可以逼近任意非线性函数。对于模型参数的选取,输入层神经元个数为最优特征的个数,
20、输出层施加L o g i s t i c函数得到像元被预测为沟谷像元的概率,隐藏层的最优神经元个数采用试错法确定,其取值范围依据经验公式(3)确定,取5 0次平均值作为最后的评价精度确定最优参数。m=l+n+a(3)式中:m为模型隐藏层神经元个数;l为模型输入层神经元个数;n为输出层神经元个数;a为11 0的常数。1.4 区域特征1.4.1 特征初选 本文基于D E M数据和L a n d s a t8O L I影像数据获取训练区域和测试区域特征,包括光谱702第4期 范天程等:基于机器学习的沟谷地貌识别模型对比以黄土高原典型流域为例特征、植被特征、地形特征和纹理特征共2 6个特征,光谱特征为
21、L a n d s a t 8O L I影像预处理输出的前7个波段,同时基于波段运算得到4个植被指数(表1)。地形特征是沟谷提取研究中的重要特征。高程、坡度等都特征对区域植被和降水量造成影响,进一步影响沟谷空间分布。因此,本文选取高程(H)、坡度(S)作为研究沟谷分布的特征。除此之外,还基于D E M数据获取正负地形(p o s i t i v eo rn e g a t i v e t e r r a i n s,P N T)、汇流累积量(f l o wa c c u m u l a t i o na r e a,F AA)和距离河流距离(dr)3个特征,其中正负地形(P NT)反映的是地貌
22、相对于周围地貌的相对高低情况,由于沟谷地貌下切明显,与周边坡面地貌具有较明显的高低落差,因此该指标适合于沟谷提取的研究。纹理信息可以在一定程度上提高分类精度,参照侯蒙京等2 7的方法,本文利用灰度共生矩阵(g r e yl e v e l c o-o c c u r r e n c em a t r i x,G L CM)计算每个波段的8种纹理特征(均值M e a n、方差V a r i a n c e、同质度H o m o g e n e i t y、对比度C o n t r a s t、非相似性D i s s i m i-l a r i t y、熵E n t r o p y、角二阶矩A S
23、 M和相关性C o r r e l a-t i o n)得 到5 6个 纹 理 特 征,利 用 主 成 分 分 析 降 维(P C A),选取前1 0个主成分(G L CM 1-G L CM 1 0)作为本文研究的纹理特征。各特征信息描述见表1。表1 分类特征特征类型特征名称名称缩写计算方法或描述光谱特征波段依次为C o a s t a l(海岸波段)、B l u e(蓝波段)、G r e e n(绿波段)、R e d(红波段)、N I R(近红外波段)、S W I R 1(短波红外1)和SW I R 2(短波红外2)植被特征归一化植被指数N D V IN I R-R e dN I R+R e
24、 d增强植被指数E V I2.5*(R e d-G r e e nR e d+6*G r e e n-7.5*C o a s t a l+1)差值植被指数D V IR e d-G r e e n比值植被指数R V IR e dG r e e n地形特征高程H与D EM数据一致坡度S基于D EM数据获取正负地形P N T由D EM中每个栅格像元值和其55栅格范围内像元均值的差值计算获得汇流累积量F AA基于D 8单流向算法确定距离河流距离dr由F AA3 0 0生成区域河网,计算得到每个像元至河网的欧氏距离纹理特征灰度共生矩阵G L CMG L CM 1-G L CM 1 01.4.2 特征筛选
25、 相关研究1表明,沟谷分布与植被特征存在密切关系。因此为探讨沟谷和遥感影像月份之间的关系,本研究以基于11 2月每个月份的L a n d s a t 8O L I影像数据和D EM数据获取的特征作为1 2组 特 征 集。本 文 所 选3种 方 法(R F、S VM、ANN)中仅R F算法具备特征筛选的能力2 0,因此采用R F算法确定沟谷提取的最优月份遥感影像和特征子集,具体过程为:(1)以单月份为例,将1.1节获取的样本数据集按照73比例随机划分为训练集和测试集,基于训练集和2 6个特征建立随机森林模型,依据平均准确率减少(m e a nd e c r e a s ea c c u r a
26、c y,MD A法),对特征的重要性进行排序,该过程重复5 0次,统计每个特征排名在最后一位的频率;(2)删除频率最高的特征,剩余特征进行下一轮筛选,再删除排名最后1位的特征,以此类推,直至剩下最后2位特征;同时,为降低模型运算时间,提高工作效率,综合考虑特征个数和分类精度,选取最优特征子集;(3)循环上述步骤,分别得到11 2月具有最优组合的特征子集。1.5 评价指标1.5.1 模型评价 为评价具 有最优参 数 的R F、S VM、ANN3种模型沟谷提取性能,本文选取AU C值、K a p p a系数、准确率、精确率、召回率和F 1分数6种指标,在测试集上进行精度评价。选取的R O C曲线下
27、面积(a r e au n d e r t h e c u r v e,AU C)是衡量二分类预测效果的综合性指标,常用该指标比较不同算法构建的分类模型性能2 3;其余5种指标基于二分类混淆矩阵获取,具体计算公式为:K a p p a=TN+T P-QTN+T P+F P+FN-Q(4)802水土保持学报 第3 7卷Q=(T P+FN)*(T P+F P)+(TN+FN)*(TN+F P)TN+T P+F P+FN(5)准确率=T P+TNTN+T P+F P+FN(6)精确率=T PT P+F P(7)召回率=T PT P+FN(8)F 1分数=2*精确率*召回率精确率+召回率(9)式中:T
28、 P为实际为沟谷且预测为沟谷的像元数量;F P为实际为坡面且预测为沟谷的像元数量;FN为实际为沟谷且预测为坡面的像元数量;TN为实际为坡面且预测为坡面的像元数量。最后,本文选取6种评价指标在5 0次预测的平均值来评价模型性能。通常情况下,评价指标数值越高,表示模型性能越好。1.5.2 精度评价 沟谷提取定量分析是评价模型预测结果的关键。本文在测试区域内均匀选取6个1k m21k m2验证样区,基于G o o g l eE a r t hP r o影像数据人工识别沟谷地貌,结合R F、S VM和ANN 3种方法沟谷提取结果,从沟谷和坡面地貌的生产者精度、用户精度和总体精度3个方面对不同模型的沟谷
29、提取结果进行定量评价,具体计算公式分别为:生产者精度=G GG G+NG(1 0)用户精度=G GG G+GN(1 1)总体精度=G G+NNG G+NN+GN+NG(1 2)式中:G G为实际面积为沟谷地貌,预测面积为沟谷地貌;G N为实际面积为坡面地貌,预测面积为沟谷地貌;N G为实际面积为沟谷地貌,预测面积为坡面地貌;NN为实际面积为坡面地貌,预测面积为坡面地貌。其中,公式(1 0)和公式(1 1)中的G G换为NN,NG换为GN,GN换为NG,即为坡面地貌的生产者精度和用户精度。2 结果与分析2.1 最优特征子集基于D EM数据和11 2月遥感影像的特征集建立R F模型(图2),随着特
30、征的依次剔除,模型预测准确率呈现出先平缓后降低的变化趋势。以1 2月为例,特征集个数从2 6变为8的过程中,其准确率在8 8.6 3%上下浮动,分类特征数从7开始,精度呈现较快的下降趋势。因此,最优分类结果的特征数被选定为8,最优特征子集为R e d、B l u e、H、SW I R 1、P NT、C o a s t a l、G L CM 4和N I R,按此方法依次获取11 2月最优特征子集做下一步研究。图2 特征数与分类精度关系2.2 不同月份R F模型精度对比基于不同时期的最优特征子集建立5 0次R F模型,由表2可知,所有分类结果中,11 2月测试集的准确率平均值和K a p p a系
31、数都呈现出先降低后增加的趋势,其中平均准确率最高的3个月份分别为1 2,1,2月,最低的3个月份分别为6,7,8月。基于D E M数据和1 2月遥感数据的最优特征子集平均准确率和K a p p a系数最高,依次为8 8.3 3%和0.7 6 7,相比于准确率平均值和K a p p a系数最低的6月,分别提高5.5 2%和0.1 1 1,具体特征子集见2.1节。可以发现,相比于夏季时期,冬季时期的影像表现出更好的分类效果。表2 不同月份最优特征子集精度指标1月2月3月4月5月6月7月8月9月1 0月1 1月1 2月准确率/%8 8.0 5 08 7.1 6 08 6.9 1 08 6.7 2 0
32、8 5.9 5 08 2.8 1 08 3.5 7 08 4.4 9 08 6.3 8 08 6.8 8 08 6.4 3 08 8.3 3 0K a p p a系数0.7 6 00.7 4 30.7 3 80.7 3 40.7 1 90.6 5 60.6 7 20.6 9 00.7 2 60.7 3 70.7 2 70.7 6 72.3 模型参数寻优由图3 a可知,S VM模型中,随着参数g a mm a和惩罚因子C交叉组合的不同,S VM模型的预测准确率相差最大值可达到2 5.8 4%,对比不同的参数组合,最终得出S VM模型最优参数组合C为0.5,g a mm a为0.5,最高精度为8
33、6.5 6%。由图3 b可知,ANN模型中,随着隐藏层个数的变化,模型准确率平均值在8 8%左右浮动,当隐藏层个数为9时,模型准确率平均值达到相对最大值8 8.4 5%,确定其为ANN模型最优参数。2.4 模型精度与预测结果2.4.1 模型验证精度 表3为3种模型测试集沟谷地貌的提取精度,结果表明R F和ANN模型的AU C值均达到0.9 5 0以上,K a p p a系数达到0.7 6 0以上,其余指标都在0.8 6以上,两者精度指标值均高于S VM模型(精确率除外)。902第4期 范天程等:基于机器学习的沟谷地貌识别模型对比以黄土高原典型流域为例图3 模型参数寻优表3 3种模型的提取精度对
34、比方法AUC值K a p p a系数 准确率/%精确率召回率F 1分数R F0.9 5 20.7 6 78 8.3 30.8 9 40.8 6 40.8 8 2S VM0.9 1 20.7 2 48 6.5 60.8 8 50.8 3 20.8 5 4ANN0.9 5 30.7 6 98 8.4 50.8 7 70.8 8 20.8 8 42.4.2 沟谷预测结果及分类 由图4可知,R F模型估算的沟谷概率值为0 9 9.9 9%,均值为5 2.9 1%;S VM模型估算的沟谷概率为0.0 8%9 7.2 7%,均值为5 3.8 1%;A N N模型估算的沟谷概率为01 0 0.0 0%,均值
35、为4 2.2 5%。从沟谷地貌预测结果来看,R F模型预测的沟谷面积占比为5 6.9 1%,S VM模型预测结果为5 0.8 4%,而ANN模型预测结果仅为4 2.6 5%,然而三者提取的沟谷空间分布具有一定的一致。图4 3种模型估算沟谷概率2.4.3 模型预测精度(1)定量评价。3种模型在6个验证样区的预测精度指标见图5,从沟谷和坡面提取的平均生产者精度、平均用户精度和总体精度3个角度来看,R F模型预测结果均高于S VM模型和ANN模型(第4个样本的平均生产者精度除外)。其中R F模型6个样本的 总 体 精 度 依 次 为8 1.3 1%,7 9.6 2%,8 3.1 2%,8 2.0 7
36、%,7 9.3 9%,7 7.3 7%,平均值为8 0.4 8%,高于S VM模型的7 6.4 8%和ANN模型的7 1.8 5%。总体来说,相比于S VM模型和ANN模型,R F模型对沟012水土保持学报 第3 7卷谷地貌提取的精度更高。图5 不同模型沟谷和坡面提取精度定量对比(2)定性评价。图6为样本1基于1 2月重要性排名前3位的特征,可以看出,人工提取沟沿线在N I R、C L CM 4和C o a s t a l特征能够很好地区分沟谷和坡面地貌,沟谷地貌影像值普遍低于坡面地貌。图7为基于G o o g l eE a r t h影像在验证样区对沟谷提取结果及其空间分布的定性评价。与6块
37、验证样区的人工解译的矢量格式沟谷区域进行对比。通过进一步分析,基于R F模型的沟谷识别效果较好,沟谷轮廓与人工提取一致性较高,像元错分率较低。在S VM模型预测结果中,可以明显看到有部分沟谷被错分为坡面,从而导致测试区域的沟谷提取结果相比R F模型较差;在ANN模型预测结果中,这种现象更加明显,存在大量沟谷区域无法被正确分类,相比前2种模型提取结果最差。因此,综合考虑对R F、S VM和ANN3种模型沟谷提取的定量和定性评价结果,R F模型在各方面表现出更好的提取效果,表明该模型在沟谷提取问题上有更强的适用性。3 讨 论从影像优选结果来看,基于冬季遥感影像建立的沟谷提取模型效果最好,这与相关研
38、究2 8结果一致,原因是冬季植被凋落导致植被覆盖率低,对沟谷提取影响较小。通过对1 2月特征集多个特征筛选发现,光谱特征对沟谷提取模型有显著影响,数量占比最大,地形特征则为正负地形(P NT)和高程(H)。光谱特征作为遥感影像信息的直接反映,具有高分辨化的特点2 9,在模型中效果表现最佳;同时黄土高原沟谷地内侵蚀量大,高程上相对凹陷,而坡面以水流侵蚀为主,侵蚀量相对来说较小,这种侵蚀差异造成地形正负表达上的不同3 0。图6 1 2月重要性排名前3位 从验证样区沟谷提取结果来看,相比于S VM和ANN模型,R F模型的建模方式更适合黄土高原流域沟谷提取,这主要是由于R F模型是一种以分类决策树为
39、基分类器,将B a g g i n g和随机特征选择结合起来的集成学习算法,其预测效果要优于单一分类算法的S VM和ANN模型。相关研究2 2表明,对于数据结构复杂和数据质量参差不齐的样本数据,集成学习算法通常优于单一分类方法。这更加验证本文基于不同模型进行沟谷提取结果的准确性。3种模型在测试区域提取的 沟谷空间分 布 基 本 一 致,均 呈现西北方向至东南方向逐渐集中的特征,与以往对延河流域沟谷地貌分布研究1 8结果一致。验证样区的定量分析结果表明,模型迁移过程中精度保持在8 0.4 8%左右,与以往黄土高原沟谷区(1 5.4万k m2)112第4期 范天程等:基于机器学习的沟谷地貌识别模型
40、对比以黄土高原典型流域为例沟谷提取相关研究1 5对比,提高1.6 8%,说明R F算法适合黄土高原沟谷地貌高精度提取研究,可大范围推广。因此可以基于R F模型对黄土高原其他流域的沟谷空间分布进行预测,模型反演结果能综合反映流域沟谷整体空间分布格局,可以满足大范围和高精度的沟谷提取。图7 基于G o o g l eE a r t h影像对分类结果空间分布的验证 本文以像元为单位进行沟谷提取,对黄土高原典型流域像元单位沟谷概率进行预测和建模,取得较好的效果。但从空间分布结果来看,对于沟谷边界和一些分布零散的沟谷来说,基于3 0m 3 0m分辨率遥感影像进行研究的分类总体效果还有待提高,这是导致其错
41、分率增加的主要原因之一。同时,从样本角度来看,G o o g l eE a r t hP r o平台在研究区域提供的0.3m分辨率的影像数据,能够满足沟谷像元识别的要求,但对大量样本解译时,需要花费大量时间,文中建立的 模型仅使 用10 0 0个数据样本进行训练,容易使模型出现过拟合或欠拟合现象,比如,本文ANN模型中,测试集精度指标要高于R F模型和S VM模型,但从实际空间分布来看,ANN模型效果差于R F模型和S VM模型,这主要是对样本数据的过度拟合限制其泛化性能。因此,在后续研究中,可以从2个方面进一步优化沟谷地貌提取和空间分布制图精度:(1)采用高分辨率影像数据(1 0m分辨率或1
42、 5m分辨率)获取沟谷特征信息,实现沟谷地貌的精细提取;(2)优化样本识别过程,基于G o o g l eE a r t hP r o平台寻找一种能快速获取大量样本信息的方法,解决模型过拟合问题,实现大尺度流域沟谷的高精度、自动化提取。4 结 论(1)基于不同时期遥感影像和D EM数据构建的沟谷识别R F模型,在测试集上准确率最高的3个月依次为1 2,1,2月,最低的3个月依次为6,7,8月,本研究表明,基于冬季影像获取的特征子集在黄土高原沟谷提取的问题上具有更强的优越性。(2)使用R F模型对1 2月遥感影像和D EM数据的特征筛选结果表明,波段特征中C o a s t a l(海岸波段)、
43、B l u e(蓝波段)、R e d(红波段)、N I R(近红外波段)、S W I R 1(短波红外1)重要性排名靠前;纹理特征中,主成分分析第4特征即G L C M 4重要性排名靠前;地形特征中,高程(H)和正负地形(P NT)重要性排名靠前,这8种特征对模型贡献率最高,可为今后黄土高原沟谷提取研究中的特征选择提供一定的参考。(3)结合最优特征子集和机器学习模型预测测试区域沟谷空间分布,3种方法均表明测试区域沟谷分布呈现西北至东南方向逐渐集中的特征,说明利用机器学习模型预测沟谷及其空间分布的方法具备广泛的应用价值。通过对测试区域验证样区进行定量和定性分析,R F212水土保持学报 第3 7
44、卷模型总体精度最高,在沟谷提取中有更好的适用性和应用潜力,最适用于整个黄土高原沟谷地貌的提取。参考文献:1 Z h a oJL,V a n m a e r c k eM,C h e nLQ,e t a l.V e g e t a t i o nc o v e ra n dt o p o g r a p h yr a t h e rt h a nh u m a nd i s t u r b a n c ec o n t r o lg u l l yd e n s i t ya n ds e d i m e n tp r o d u c t i o no nt h eC h i n e s eL
45、o e s sP l a t e a uJ.G e o m o r p h o l o g y,2 0 1 6,2 7 4(1):9 2-1 0 5.2 Z a b i h iM,M i r c h o o l i F,M o t e v a l l iA,e t a l.S p a t i a lm o d-e l l i n go fg u l l ye r o s i o n i nM a z a n d a r a nP r o v i n c e,n o r t h e r nI r a nJ.C a t e n a,2 0 1 8,1 6 1:1-1 3.3 Y a n gX,L
46、iM,N aJM,e ta l.G u l l yb o u n d a r ye x t r a c-t i o nb a s e do n m u l t i d i r e c t i o n a lh i l l-s h a d i n gf r o m h i g h-r e s o l u t i o nD EM sJ.T r a n s a c t i o n si nG I S,2 0 1 7,2 1(6):1 2 0 4-1 2 1 6.4 王轲,王琤,张青峰,等.地形开度和差值图像阈值分割原理相结合的黄土高原沟沿线提取法J.测绘学报,2 0 1 5,4 4(1):6 7-7
47、 5.5 柳潇,吕新彪,吴春明,等.面向高空间分辨率遥感影像的山区地形校正方法J.地球科学,2 0 2 0,4 5(2):6 4 5-6 6 2.6 D a iW,H uG H,Y a n gX,e ta l.I d e n t i f y i n ge p h e m e r a lg u l l i e sf r o m h i g h-r e s o l u t i o ni m a g e sa n d D EM su s i n gf l o w-d i r e c t i o n a ld e t e c t i o nJ.J o u r n a lo fM o u n t a i
48、 nS c i-e n c e,2 0 2 0,1 7(1 2):3 0 2 4-3 0 3 8.7 Y a n gX,D a iW,T a n gG A,e ta l.D e r i v i n ge p h e m e r a lg u l l i e s f r o m VHRi m a g ei nL o e s sH i l l yA r e a st h r o u g hd i r e c t i o n a l e d g ed e t e c t i o nJ.I S P R SI n t e r n a t i o n a lJ o u r-n a l o fG e o-I
49、 n f o r m a t i o n,2 0 1 7,6(1 1):e 3 7 1.8 陈靖涛,史明昌,罗志东,等.基于双向地形阴影法的黄土侵蚀沟自动提取技术J.农业工程学报,2 0 2 2,3 8(7):1 2 7-1 3 5.9 李乐,马巍,勾蒙蒙,等.三峡库区典型流域硝态氮输出特征及归因分析J.水土保持学报,2 0 2 2,3 6(4):7 4-8 4.1 0 王少丽,臧敏,王亚娟,等.年径流系数变化特征及预测模型研究J.水土保持学报,2 0 2 0,3 4(5):5 6-6 0,6 7.1 1 李柳阳,朱青,刘亚,等.基于气象因子的长三角地区农田站点 土 壤水 分时 间 序 列 预
50、 测 J.水 土 保 持 学 报,2 0 2 1,3 5(2):1 3 1-1 3 7.1 2 V a n m a e r c k e M,C h e n Y X,H a r e g e w e y n N,e ta l.P r e d i c t i n gg u l l yd e n s i t i e sa ts u b-c o n t i n e n t a ls c a l e s:Ac a s es t u d yf o rt h e H o r no fA f r i c aJ.E a r t hS u r f a c eP r o c e s s e sa n dL a n d