Machine-Learning-tools-inside-Matlab.doc

资源描述

Machine Learning with Matlab 1 概述 Matlab中集成了一套用于统计和机器学习的工具包，即Statistics and Machine learning Toolbox，极大方便了机器学习开发者的算法研究和原理验证。该工具包可解决回归、分类和聚类等机器学习问题，并支持多种监督和非监督算法，包括SVM、决策树、KNN、k-means、k-medoids、高斯混合模型、隐藏马尔科夫模型等。此外，还支持多种选择关键特征的算法，包括PCA、顺序特征选择、逐步回归、正则化等。下面将结合用户手册，对该工具包的使用进行介绍。 SonicWALL, Inc. Confidential Page 29 of 29 2025/8/22 周五 2 支持数据类型该工具包支持多种数据类型作为输入，括号里的是数据类型。为了方便理解这些数据类型的使用方法，将结合示例程序对其进行说明。其中，红色部分为代码，绿色部分为输出。支持的数据类型包括： Ø 具有单精度（single）或双精度（double）的数值标量、向量和矩阵 Ø 字符串矩阵（cellstr）；字符(char)、逻辑（logical）或类型（categorical）矩阵；类型变量的数值矩阵（single/double）。典型示例就是类标签。不推荐使用nominal和ordinal类型，它们可能会在以后的版本删除。 Ø 表格（table）是上述数据类型的矩阵形式，用于表示异构数据。典型示例是混合了类型变量和数值变量的回归分析。不推荐使用dataset类型，可能会在以后的版本中删除。如果函数不支持table类型，就采用single或double的矩阵。 Ø gpuArray类型可作为函数的输入参数，在GPU中执行。由于该类型与IDS无关，这里就不做进一步介绍。有兴趣的话，请查询Matlab Help。此外，不支持的数据类型包括： Ø 复数 Ø 自定义的数值类型 Ø 用于非分组数据的带符号整数 Ø 稀疏矩阵 2.1 数值single/double 2.1.1 基本操作 > a = 4; b = single(4); class (a) ans = double class(b) ans = single 说明：默认情况下，声明一个数值变量属于double类型，通过single函数可以强制转成single类型，降低所需的存储空间。single函数的输入可以是任何数值对象，甚至可以是数组。 2.2 逻辑logical 2.2.1 基本操作 > A = [1 -3 2;5 4 7;-8 1 3]; M = mod(A,2) M = 1 1 0 1 0 1 0 1 1 L = logical(mod(A,2)) L = 1 1 0 1 0 1 0 1 1 class(M) ans = double class(L) ans = logical A(M) error A(L) ans = 1 5 -3 1 7 3 说明：虽然M和L的数值是相同的，但类型不同，M为double类型，L为logical类型。这也导致了A(L)是有效的，而A(M)是无效的。 2.3 字符串矩阵cellstr 2.3.1 基本操作 > S = ['abc';'def';'ghi']; C = cellstr(S); whos S Name Size Bytes Class Attributes S 3x3 18 char whos C Name Size Bytes Class Attributes C 3x1 354 cell 说明： cellstr函数可以将矩阵S转换成字符向量的cell矩阵。其中，S可以是字符串矩阵、类型（categorical）矩阵、日期时间矩阵等。 2.4 无大小的类型nominal（不推荐） 2.4.1 基本操作：创建、比较、设置 > load fisheriris unique(species) ans = 'setosa' 'versicolor' 'virginica' speciesNom = nominal(species); class(speciesNom) ans = nominal getlevels(speciesNom) ans = setosa versicolor virginica getlabels(speciesNom) ans = 'setosa' 'versicolor' 'virginica' > speciesNom2 = nominal(species,{'seto','vers','virg'}); getlevels(speciesNom2) ans = seto vers virg getlabels(speciesNom2) ans = 'seto' 'vers' 'virg' isequal(speciesNom=='setosa',speciesNom2=='seto') ans = 1 > speciesNom3 = setlabels(speciesNom, {'seto','vers','virg'}); getlevels(speciesNom2) ans = seto vers virg getlabels(speciesNom2) ans = 'seto' 'vers' 'virg' 说明：第一部分是先加载数据集fisheriris，其中变量species是150*1的字符串矩阵，每个条目是一个物种名，共有3个物种。然后，在无附加参数的情况下调用nominal函数，创建一个新的nominal矩阵，其内容与species一致。调用getlevels和getlabels函数的返回值都是按照字母表顺序的类标签，但它们的数据类型不同，前者为nominal类型，后者为cell类型（字符串）。第三部分是有附加参数的情况下调用nominal函数，参数为自定义的标签。它们与species中的条目是按照出现的先后顺序来对应的，也就是说species第一个出现的类型与第一个标签对应，第二个出现的类型与第二个标签对应，以此类推。此时，speciesNom2中的所有条目都是species中条目的对应标签，这也可从getlevels和getlabels的返回值得知。调用isequal函数，可知两个变量是相同的。第四部分与第三部分类似，但是通过调用setlabels函数来实现的。该函数会返回一个norminal矩阵，包含与speciesNom相同的内容，但采用了新标签。 2.4.2 基本操作：列表、合并、删除、检索 > load carsmall; Origin = nominal(Origin); getlevels(Origin) ans = France Germany Italy Japan Sweden USA tabulate(Origin) Value Count Percent France 4 4.00% Germany 9 9.00% Italy 1 1.00% Japan 15 15.00% Sweden 2 2.00% USA 69 69.00% > Origin = mergelevels(Origin, {'France', 'Germany', 'Italy', 'Sweden'}, 'Europe'); getlevels(Origin) ans = Europe Japan USA tabulate(Origin) Value Count Percent Europe 16 16.00% Japan 15 15.00% USA 69 69.00% > Origin2 = Origin(Origin~='Italy'); getlevels(Origin2) ans = France Germany Italy Japan Sweden USA Origin2 = droplevels(Origin2,'Italy'); tabulate(Origin2) Value Count Percent France 4 4.04% Germany 9 9.09% Japan 15 15.15% Sweden 2 2.02% USA 69 69.70% > any(Origin2=='Italy') ans = 0 any(ismember(Origin2, 'Italy')) ans = 0 ix = find(Origin2=='France') ix = 11 27 39 61 Origin3 = droplevels(Origin, 'Italy'); Origin(ix) ans = <undefined> <undefined> <undefined> <undefined> find(isundefined(Origin3)) ix = 11 27 39 61 说明：该示例程序演示了对类标签的管理，包括合并和删除，它们会涉及到两个函数，即mergelevels和droplevels。其中，前者只限用于nominal类型，后者可同时用于nominal和oridinal类型。第一部分为先加载数据集carsmall，并将字符矩阵Origin转化为nominal矩阵的形式。通过tabulate函数，可以获得不同类标签的数量和占比。第二部分是利用mergelevels函数，参数2为待合并的类标签，参数3为合并后的类标签。结果显示，合并后的Origin只有3个类标签。第三部分是先创建变量Origin2，包括除Italy条目以外的所有Origin条目，但Italy类标签还在。然后，调用droplevels函数，将Italy的类标签也删除。如果只调用droplevels函数，系统会警告你在删除一个存在样本的类标签，且原先France对应的标签全变成undefined。显然，应该先删除样本，再删除类标签。第四部分是对moninal矩阵的检索和搜索。利用any函数，可遍历整个矩阵，确认是否满足该条件。第一条语句就是搜索Origin2矩阵是否包含Italy的类标签。第二条语句起到相同的作用，但是通过调用ismember函数来实现的。然后，正如第三部分的说明，演示了对droplevels的错误调用，原属于France的类标签都变成了undefined。通过isundefined函数，可查询类标签为undefined的样本。 2.5 有大小的类型ordinal（不推荐） ordinal类型与nominal类型的根本区别在于：前者的类标签是按照字母表顺序（默认）或者自定义顺序进行排序（调用getlabels或getlevels的返回值顺序），可以比较大小；而后者的类标签是相同的顺序，但不能比较大小。 2.5.1 基本操作：创建、比较、排序 > AllSizes = {'medium', 'large', 'small', 'small', 'medium', 'large', 'medium', 'small'}; sizeOrd = ordinal(AllSizes); getlevels(sizeOrd) ans = large medium small getlabels(sizeOrd) ans = 'large' 'medium' 'small' sizeOrd(1) < sizeOrd(2) ans = 0 > sizeOrd2 = ordinal(AllSizes, {}, {'xsmall','small','medium', 'large', 'xlarge'}); getlevels(sizeOrd2) ans = xsmall small medium large xlarge getlabels(sizeOrd2) ans = 'xsmall' 'small' 'medium' 'large' 'xlarge' sizeOrd2(1) < sizeOrd2(2) ans = 1 > sizeOrd3 = setlabels(sizeOrd, {'L', 'M', 'S'}); getlevels(sizeOrd3) ans = L M S getlabels(sizeOrd3) ans = 'L' 'M' 'S' sizeOrd3(1)<sizeOrd3(2) ans = 0 > sizeOrd4 = reorderlevels(sizeOrd3,{'S','M','L'}); getlevels(sizeOrd3) ans = S M L getlabels(sizeOrd3) ans = 'S' 'M' 'L' sizeOrd4(1)<sizeOrd4(2) ans = 1 > sizeOrd5 = ordinal(AllSizes,{},{'small','medium','large'}); getlevels(sizeOrd5) ans = small medium large sizeOrd5 = sort(sizeOrd5); sizeSort(:) ans = small small small medium medium medium large large 说明：第一部分是先定义了变量AllSizes，然后在无附加参数情况下调用ordinal函数。从getlevels和getlabels函数可以看到，类标签的排序是按照默认的字母表顺序，即large<medium<small，与前面的说明是一致的。因此，这也导致sizeOrd(1)小于sizeOrd(2)，即medium<small，显然这是不对的。第二部分是有附加参数情况下调用ordinal函数，参数2为类标签（{}），参数3为类级别（自定义的类标签）。当参数2为{}时，ordinal函数将使用参数3作为类标签，从而简化了函数的调用过程。而参数3有以下特征： Ø 必须包含Allsizes中所有的类标签，且完全一致，不能简化或修改。 Ø 可以出现另外的类标签（xsmall/xlarge），即使它们并没有出现。 Ø 指定了类标签的顺序，即xsmall<small<medium<large<xlarge。第三部分与第二部分类似，但是通过调用setlabels函数来实现的。该函数会返回一个ordinal矩阵，包含与speciesNom相同的内容，但采用了新标签。需要注意，新标签的顺序应与原标签保持一致，即Large->L，Medium->M，Small->S。虽然setlabels可以修改类标签，但它们顺序不变，即L<M<S，还是不对。第四部分是通过调用reorderlevels函数，可以强制修改所有类标签的大小，即参数2。需要注意，参数2必须与参数1中的类标签完全一致，不能增加或修改。否则，会导致函数调用出错。另外，nominal类型也可以调用该函数，但只会反映在getlevels和getlabels函数的返回值中，并不能用于大小比较。这是因为nominal的类标签只有顺序的概念，并没有大小的概念。第五部分是通过调用sort函数，根据指定的类标签大小，对sizeOrd5中的所有程序进行排序。 2.5.2 离散化、统计 > load hospital; quantile(hospital.Age, [0,.5,1]) ans = 25 39 50 hospital.AgeCat = ordinal(hospital.Age, {'Under 30', '30-39', 'Over 40'}, [], [25, 30, 40, 50]); getlevels(hospital.AgeCat) ans = Under 30 30-39 Over 40 > p = 0:.25:1; breaks = quantile(hospital.Weight, p); ans = 111.0 130.5 142.5 180.5 202.0 hospital.WeightQ = ordinal(hospital.Weight, {'Q1', 'Q2', 'Q3', 'Q4'}, [], breaks); getlevels(hospital.WeightQ) ans = Q1 Q2 Q3 Q4 > grpstats(hospital,{'AgeCat','WeightQ'},'mean','DataVars','BloodPressure') ans = AgeCat WeightQ GroupCount mean_BloodPressure Under 30_Q1 Under 30 Q1 6 123.17 79.667 Under 30_Q2 Under 30 Q2 3 120.33 79.667 Under 30_Q3 Under 30 Q3 2 127.5 86.5 Under 30_Q4 Under 30 Q4 4 122 78 30-39_Q1 30-39 Q1 12 121.75 81.75 30-39_Q2 30-39 Q2 9 119.56 82.556 30-39_Q3 30-39 Q3 9 121 83.222 30-39_Q4 30-39 Q4 11 125.55 87.273 Over 40_Q1 Over 40 Q1 7 122.14 84.714 Over 40_Q2 Over 40 Q2 13 123.38 79.385 Over 40_Q3 Over 40 Q3 14 123.07 84.643 Over 40_Q4 Over 40 Q4 10 124.6 85.1 说明：上述代码是利用ordinal函数，将连续的数值矩阵转换成离散的类型矩阵。实际情况中，会有需要连续的数值矩阵，故该功能是非常实用的。第一部分是加载数据集hospital。它包含了dataset类型的变量hospital，7个成员分别为LastName (Cell)、Sex (Nominal)、Age (double)、Weight (double)、Smoker (logical)、BloodPressure (double)、Trails (cell)。然后，调用ordinal函数，将数值型的Age转换为类型的AgeCat。其中，参数2为自定义的标签，参数3为空，参数4为对数值分类的边界值。这样，25-30岁的类标签是“Under 30”，30-40岁的类标签是“30-39”，40-50岁的类标签是“Over 40”。第二部分与第一部分类似，不过是对体重进行分类。第三部分是调用grpstats函数，输出hospital中的一些统计量。其中，参数1为数据源；参数2为待分组的变量名，即AgeCat和WeightQ，它们的所有组合将出现在返回值的第一列，而它们各自的值以及组合对应的数量将出现在后续的列中；参数3为统计类型，可以是mean（平均值）、sem（平均值的标准误差）、numel（非NaN的数量）、gname（组名）、std（标准偏差）、var（方差）、min（最小值）、max（最大值）、range（范围）、meanci（平均值的95%置信区间）和predci（新样本的95%预测区间）；参数4是另外选项的名称，可以是Alpha（参数3为meanci或predci时，表示置信区间或预测区间）、DataVars（待计算统计量的变量名）、VarNames（指定第一行的名称）；参数5为参数4中指定选项的值。注意，参数4和参数5作为组合，可以出现多次。 2.6 类型categorical（推荐） nominal和ordinal类型，可以合称为categorical类型。也就说，categorical矩阵可能是有大小，或无大小的。通过nominal或ordinal函数，将categorical矩阵转为nominal或ordinal类型，反之亦然。它们还是有一些区别，比如categorical矩阵无法使用getlabels和getlevels函数。另外，nominal和ordinal类型可能在未来的版本中会被删除，因此还是推荐使用categorical类型。 2.6.1 示例代码 > A = {'r' 'b' 'g'; 'g' 'r' 'b'; 'b' 'r' 'g'}; B = categorical(A) B = r b g g r b b r g class(A) ans = cell class(B) ans = categorical categories(B) ans = 'b' 'g' 'r' 说明：通过categorical函数，可将字符串矩阵A转换为categorical矩阵B，两者内容保持一致。调用categories函数，就能以字母顺序显示B中的唯一类型值。 2.7 数据集dataset（不推荐） 2.7.1 数值数据集 > load fisheriris ds = mat2dataset(meas); class(ds) ans = dataset ds.Properties ans = Description: '' VarDescription: {} Units: {} DimNames: {'Observations' 'Variables'} UserData: [] ObsNames: {} VarNames: {'meas1' 'meas2' 'meas3' 'meas4'} ds(1,:) ans = meas1 meas2 meas3 meas4 5.1 3.5 1.4 0.2 ds.Properties.Description = 'Fisher iris data'; ds.Properties.VarNames = {'SLength','SWidth','PLength','PWidth'}; ds(1,:) ans = SLength SWidth PLength PWidth 5.1 3.5 1.4 0.2 > ds2 = mat2dataset(meas, 'VarNames', {'myVar1', 'myVar2', 'myVar3', 'myVar4'}); ds2(1,:) ans = myVar1 myVar2 myVar3 myVar4 5.1 3.5 1.4 0.2 > ds.Species = nominal(species); ds(1,:) ans = SLength SWidth PLength PWidth Species 5.1 3.5 1.4 0.2 setosa 说明：第一部分是通过调用mat2dataset函数，将数值矩阵转换为dataset类型。该类型具有Properties属性，包括Description（dataset的描述）、VarDescription（变量的描述）、Units（变量的单位）、DimNames（维度的描述）、UserData（用户的自定义数据）、ObsNames（观察值的名称，必须为唯一的字符串）和VarNames（变量的名称）。默认情况下，VarNames就是数据源的名称（meas）加上列号（1-4），可以通过赋值的方法直接对其进行修改。第二部分与第一部分雷同，只是在调用mat2dataset函数时增加了另外的参数。参数2和参数3是一对附加选项的名称和值，前者可以是VarName、ObsName和NumCols。这样，就可实现对Properties.VarNames的初始化。第三部分是向ds增加新的一列species。实现起来也很简单，只需增加一个新的属性即可。需要注意，新列必须与数据集的维度（行数）一致。 2.7.2 异构数据集 > load carsmall ds = dataset(Origin, Acceleration, Cylinders, MPG); ds(1, :) ans = Origin Acceleration Cylinders MPG USA 12 8 18 > varclass = datasetfun(@class, ds, 'UniformOutput', false); varclass(:) ans = 'char' 'double' 'double' 'double' > ds.Cylinders = nominal(ds.Cylinders,{'four','six','eight'}); ds(1,{'Origin','Cylinders'}) ans = Origin Cylinders USA eight 说明：第一部分是创建一个异构的数据集，包括字符串和数值型。第二部分是调用datasetfun函数，输出每一种变量的类型。其中，参数1为函数指针，参数2为数据集，相当于对数据集中每种变量执行一次class函数。第三部分是修改其中一个变量。 2.7.3 文件导入 > cd(matlabroot) cd('help/toolbox/stats/examples') ds = dataset('File','hospitalSmall.txt') > cd(matlabroot) cd('help/toolbox/stats/examples') ds2 = dataset('File','hospitalSmall.csv','Delimiter',',') > cd(matlabroot) cd('help/toolbox/stats/examples') ds3 = dataset('XLSFile','hospitalSmall.xlsx'); ds4 = dataset('XLSFile','hospitalSmall.xlsx','Sheet',2) 说明：需要注意的是，从文件中导入时，第一行将作为变量名，其他行将作为样本。如果全为样本的话，将采用第一条样本作为变量名。其中，当某个变量为数值时，会在前面加上x。显然，这是不合理的，需要避免这种情况的发生。第一部分是从tab作为分隔符的txt文件中导入。第二部分是从逗号作为分隔符的txt文件中导入，可指定分隔符。第三部分是从excel文件中导入，可指定sheet页。 2.7.4 文件导出 > export(hospital) > export(hospital,'File','NoLabels.txt','WriteVarNames',false) > export(hospital,'File','hospital.csv','Delimiter',',') > export(hospital,'XLSFile','hospital.xlsx') 说明：第一部分是通过调用export函数，导出数据集hospital。默认情况下，会导出为hospital.txt，即与数据集名相同的txt文件，且文件中的内容采用tab作为分隔符。另外，第一行为变量名，随后就是样本数据。第二部分通过file选项指定了文件名，并指定WriteVarNames选项为false，即不写入变量名。第三部分与第二部分类似，但指定了逗号作为分隔符。第四部分则导出为excel格式。 2.7.5 变量操作：增加、删除 > cd(matlabroot) cd('help/toolbox/stats/examples') ds = dataset('XLSFile', 'hospitalSmall.xlsx'); ds2 = dataset('XLSFile', 'hospitalSmall.xlsx', 'Sheet', 'Heights'); ds.Properties.VarNames(:) ans = 'id' 'name' 'sex' 'age' 'wgt' 'smoke' ds2.Properties.VarNames(:) ans = 'id' 'hgt' ds3 = [ds ds2]; ds3.Properties.ObsNames = ds3.id; ds3.Properties.VarNames(:) ans = 'id' 'name' 'sex' 'age' 'wgt' 'smoke' 'hgt' > ds2(end, :) = []; ds4 = join(ds, ds2); error ds4 = join(ds2, ds); ds5 = join(ds2, ds, 'type', 'rightouter', 'mergekeys', true); > ds3.bmi = ds.wgt*703./ds.hgt.^2; ds3.Properties.VarNames(:) ans = 'id' 'name' 'sex' 'age' 'wgt' 'smoke' 'hgt' 'bmi' > ds3 (:, 4) = []; ds3.Properties.VarNames(:) ans = 'id' 'name' 'sex' 'wgt' 'smoke' 'hgt' 'bmi' > ds3.wgt = []; ds3.Properties.VarNames(:) ans = 'id' 'name' 'sex' 'smoke' 'hgt' 'bmi' 说明：第一部分是将两个数据集合并。两个数据集具有相同的id变量，合并后的数据集增加了hgt变量。如果id变量的内容不同，即使是顺序不同，也会导致合并失败。另外，如果数据集ds2只有一个变量hgt，也可以实现相同的效果。第二部分是通过调用join函数，合并两个数据集。与前面一种方式不同，id变量的内容和顺序可以不同。如果只有2个参数，数据集2必须包含数据1中所有的关键值（id），故join(ds, ds2)出错，join(ds2, ds)运行正常。对于后者，合并后的数据集包括两个数据集都存在的条目。如果希望合并后的数据集包含ds中的所有条目，就需要再加入一些参数。第三部分是采用另外一种方式，增加数据集的变量。第四部分是删除数据集中的一个变量。第五部分是采用另外一种方式，删除数据集中的一个变量。 2.7.6 样本操作：合并、增加、去重、删除 > dsNew = [ds3;ds4]; size(dsNew) ans = 22 6 cellObs = {'id','name','sex','age','wgt','smoke'; 'YQR-965','BAKER','M',36,160,0; 'LFG-497','WALL' ,'F',28,125,1; 'KSD-003','REED' ,'M',32,187,0}; dsNew = [dsNew;cell2dataset(cellObs)]; size(dsNew) ans = 25 6 > structObs(1,1).id = 'GHK-842'; structObs(1,1).name = 'GEORGE'; structObs(1,1).sex = 'M'; structObs(1,1).age = 45; structObs(1,1).wgt = 182; structObs(1,1).smoke = 1; structObs(2,1).id = 'QRH-308'; structObs(2,1).name = 'BAILEY'; structObs(2,1).sex = 'F'; structObs(2,1).age = 29; structObs(2,1).wgt = 120; structObs(2,1).smoke = 0; dsNew = [dsNew;struct2dataset(structObs)]; size(dsNew) ans = 27 6 > dsNew = unique(dsNew); size(dsNew) ans = 26 6 > dsNew([18,20,21],:) = []; size(dsNew) ans = 23 6 > dsNew.Properties.ObsNames = dsNew.id; dsNew.id = []; dsNew('KOQ-996',:) = []; size(dsNew) ans = 22 5 > toDelete = strcmp(dsNew.name,'WILLIAMS'); dsNew(toDelete,:) = []; size(dsNew) ans = 21 5 说明：第一部分是先将两个数据集合并，再通过数组的形式加入新样本。第二部分与第一部分类似，只是通过数据结构的形式来实现的。第三部分是通过调用unique函数，去除重复条目。第四部分是通过矩阵索引的形式，去除指定条目。第五部分是通过ObsNames的形式，去除指定条目。第六部分是通过字符串匹配的形式，去除指定条目。 2.7.7 样本操作：观察值名、检索 > load hospital hospital('XLK-030', {'LastName', 'Sex', 'Age'}) ans = LastName Sex Age XLK-030 'BROWN' Female 49 hospital('HVR-372',:) = []; > dsMale = hospital(hospital.Sex=='Male', :); dsMale(1:2,{'LastName', 'Sex', 'Age'}) ans = LastName Sex Age YPL-320 'SMITH' Male 38 GLI-532 'JOHNSON' Male 43 dsFemale = hospital(hospital.Se

展开阅读全文