基于多模态特征融合的抑郁症识别.pdf

资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第10期总第338期文章编号：1006-2475（2023）10-0017-06收稿日期：2022-11-18；修回日期：2022-12-20基金项目：广东省重大科技专项（2016B030305003）作者简介：谷明轩（1997），男，广东广州人，硕士研究生，研究方向：多模态数据融合，E-mail:；通信作者：范冰冰（1962），男，江苏启东人，教授，博士，研究方向：云应用和云工程，移动互联网，大数据管理和应用，E-mail:。0引言抑郁症是一种常见的精神疾病，根据世界卫生组织（WHO）的不完全统计，全球约有3.4亿人患有不同

2、程度的抑郁症。据中国的统计数据显示，超过3000万中国公民患有抑郁症1。近年来，抑郁症患病年龄呈年轻化趋势，越来越多的青少年患有抑郁症。这是由于青少年处于生理与心理快速发展阶段，面对成长环境的压力和心理教育的缺乏，更容易产生各种心理问题2。研究表明，抑郁症会对个体的学习、认知和记忆能力造成很大影响，其主要特征包括持续地情绪低落、快感缺失以及认知障碍，患者难以控制自己的情绪且严重者可能出现自杀倾向并付诸行动3。由于不清楚潜在的神经机制和病理学原理，抑郁症的临床诊断比较困难。精神疾病患者在外观表现上与正常人没有区别，因此临床医生只能根据患者的自我描述和相关信息进行主观诊断，诊断的结果往往取决于医生

3、的经验4-5，因此这种诊断方法具有较强的主观性和不准确性。另外，在临床上，医生的诊断更多依赖于抑郁量表，如抑郁筛查量表（PHQ-9）6、汉密尔顿抑郁评定量表（HDRS）或贝克抑郁量表（BDI）等。由于抑郁症筛查所使用的问卷涉及患者的主观描述，通过问卷筛查经常出现假阳性或假阴性的情况。综上所述，仅通过医生诊断和问卷筛查的抑郁症诊断方法是不严谨的。面对抑郁症识别遇到的问题和挑战，计算机研究界开始使用行为线索来学习识别抑郁症、创伤后应激障碍等相关精神障碍7。面部表情、语音韵律等行为特征已经被证明是预测抑郁症的重要特征8-9。而且，人的自然语言和社交活动中也包含了重要的信基于多模态特征融合的抑郁症识别

4、谷明轩，范冰冰（华南师范大学计算机学院，广东广州 510631）摘要：抑郁症是一种常见的精神疾病，现有的抑郁症诊断主要依赖于抑郁量表和精神科医生的访谈，具有较强的主观性。近年来，越来越多的研究者致力于通过脑电特征或音频特征识别抑郁症患者，但并未有研究将脑电信息与音频信息有效地结合起来，忽略了音频和脑电数据之间的相关性。因此本文提出一种基于全连接神经网络的多模态特征融合模型，通过对音频模态和脑电模态信息的特征融合提升抑郁症识别的准确率，为抑郁症的识别提供新的角度和方法。实验表明，多模态特征融合在MODMA数据集上的抑郁症识别准确率达到了81.58%且高于单模态抑郁症识别方法的准确率。这表明，相

5、比于单模态识别，多模态特征融合模型能够提高抑郁症识别的准确率。关键词：多模态数据融合；抑郁症识别；特征融合；全连接神经网络中图分类号：TP399文献标志码：ADOI:10.3969/j.issn.1006-2475.2023.10.003Feature-level Multimodal Fusion for Depression RecognitionGU Ming-xuan，FAN Bing-bing（School of Computer Science，South China Normal University，Guangzhou 510631，China）Abstract:Depress

6、ion is a common psychiatric disorder.However，the existing diagnostic methods for depression mainly rely onscales and interviews with psychiatrists，which are highly subjective.In recent years，researchers have devoted themselves toidentifying depressed patients by EEG features or audio features，but no

7、 study has effectively combined EEG information with audio information，ignoring the correlation between audio and EEG data.Therefore，this study proposes a feature-level multimodalfusion model to improve the accuracy of depression recognition.We combine the audio and EEG modality information based on

8、 afully connected neural network.Our experiments show that the accuracy of depression recognition using feature-level multimodalfusion model on the MODMA dataset reaches 81.58%，which is higher than that of using single-modality.The results indicatethat the feature-level multimodal fusion model can i

9、mprove the accuracy of depression recognition compared to single-modality.Our research provides a new perspective and method for depression recognition.Key words:multimodal data fusion；depression detection；feature-level fusion；fully-connected neural networks计算机与现代化2023年第10期息。例如人的面部表情和身体姿势9被用作抑郁症识别。另

10、外，社交网络中文本数据、图片数据也可以被用于抑郁症识别10，帮助心理学家和精神科医生评估患者的抑郁水平。另外，研究者发现抑郁症与脑功能异常有着密切的关系11。许多成像技术被用于探索和辅助治疗抑郁症等精神疾病，如功能磁共振成像（fMRI）、正电子发射断层扫描（PET）和单光子发射计算机断层扫描（SPECT）等。其中PET和SPECT需要往受试者体内注射放射性物质，通过局部脑血流灌注断层显像技术进行分析12。脑电图（Electroencephalogram）是一种常见的无痛、无创的脑功能评估方法，常用于抑郁症、癫痫、阿尔兹海默症、精神分裂症等疾病的辅助诊断，其优点在于成本低、灵敏度高且便于记录大脑

11、活动。研究表明，抑郁症患者的认知能力受到情绪变化的影响而变化13，这些变化可以在一定程度上影响脑电图。因此，本文选择脑电模态数据作为多模态特征融合的其中一种模态进行研究。传统的脑电研究都是使用脑电图中的线性特征和非线性特征来进行识别，如Erguzel等人14提取脑电图频谱的线性特征，结合反向传播神经网络（BPNN）和遗传算法（GA）进行抑郁症患者的分类，准确率达到了89.12%。Hosseinifard等人15提取了4种非线性特征，包括去趋势波动分析、Higuchi分形、相关维数和Lyapunov指数对抑郁症患者和正常人进行分类，使用逻辑回归（LR）分类器，准确率达到了90.12%。除了线性与

12、非线性特征外，功能连通性也被作为判断抑郁症患者与正常人之间的差异的特征，并基于功能连通性进行区分。Orgo等人16通过提取功能连通性特征以及相干性、聚类系数等图论特征，采用支持向量机（SVM）和遗传算法对 64 名受试者进行分类，准确率达到了88.10%。Peng等人17提取用相位滞后指数值（PLI值），使用支持向量机和肯德尔秩相关系数进行分类，且分类效果理想。因此，本文借鉴Peng的方法进行特征提取，使用PLI值来描述EEG通道间的功能连通性并用于训练。除了通过上述所说的文本、图片、脑电等方式识别抑郁症，语音识别也是一种广泛用于抑郁症识别的方式。语音能够反映人的情绪，因此可以通过分析语音的情

13、感来识别抑郁症。如Balano等人18分析了正常人与抑郁症患者之间的语音差异，发现抑郁症患者的声音更为沙哑、结巴、低沉。Flint等人19发现抑郁症患者存在一定程度的语言障碍，他们的思维逻辑更为缓慢，停顿时间更长，停顿的次数更多。于是本文选择使用音频模态作为特征融合的另一种模态，提高抑郁症识别的准确率。本文通过结合音频模态和脑电模态的信息进行抑郁症识别，从预处理后的脑电图数据中提取PLI值作为脑电特征，从预处理后的音频数据中提取常用的语音识别系数如MFCC等作为音频特征，以特征融合的方式识别抑郁症，并与单模态抑郁症识别的准确率进行对比，另外在对比实验中加入决策融合和机器学习的方法。1相关研究本

14、章将介绍多模态数据融合的常见方法。多模态的融合方法大致可以分为2大类，分别是模型无关的融合方法和基于模型的分类方法20。模型无关的分类方法是根据融合的时期进行分类，共分为特征融合（又称为早期融合）、决策融合（又称为晚期融合）和混合融合。本文所使用的就是其中的特征融合。特征融合是指对各个模态的数据特征提取后对特征进行融合的一种方式，其优势在于可以在模型训练前充分利用各个模态特征之间的相关性，适用于模态高度相关的情况，如 Cai 等人21对 3 种模态下的EEG数据（中性音频刺激、负性音频刺激和正性音频刺激）进行特征融合，将不同模态下提取的特征进行线性组合，并使用t检验从组合后的特征矩阵中选出新的

15、特征作为分类器的输入，通过使用多个分类器进行对比实验，最高分类准确率可达86.98%。决策融合是指在每个模态都做出决策（分类或回归）后再进行融合，在深度学习模型中，决策融合的做法是先使用不同模态单独进行训练，训练后将训练的结果进行融合22。决策融合不需要模型之间有很强的相关性即可融合，其主要通过采用不同规则或采用深度学习模型来确定最终融合的方式，如最大值融合、平均值融合等融合方法23。Yang等人24使用由深度卷积神经网络（DCNN）和深度神经网络（DNN）模型组成的多模态融合框架，通过融合音频、视频和文本的特征对患者的抑郁程度进行测量。首先对各个模态都通过DCNN学习高级全局特征，然后将特征

16、输入DNN获得预测的PHQ-8的分数，最后将3个模态预测的PHQ-8分数使用DNN进行决策融合得到最终的PHQ-8分数。张迎辉等人25提出基于深度森林的多模态决策级融合方法，其通过选择出能够用于融合的特征进行基于深度森林的多粒度扫描和级联，实现了深度森林各级的决策融合，提高了抑郁症检测正确率。混合融合既包含了特征融合，又包含了决策融合，在综合两者优点的同时也复杂化了模型的结构，增加了训练的难度，但由于其结构灵活和多样，在手势识别和多媒体26等领域应用广泛。Lan等人27利用混合融合进行多媒体事件检测，结合了特征融合和决策融合的方法，捕捉模态间的特征关系，解决了模型过拟合的问题，这种混合融合的方

17、式使模型达到88.10%的准确率。上述3种方法各有优缺点，考虑到音频模态和脑电模态之间的联系，本文基于深度学习使用全连接神经网络进行多模态的特征融合：先通过全连接神经网络分别对2种模态数据进行单独训练，降低特征维度并得到2种模态抽象的特征。其次，将2种模态抽象的特征融合并使用前馈神经网络作为分类模型，将融182023年第10期合后的特征映射到分类空间进行分类，最终完成抑郁症的识别。2方法本文提出一种基于全连接神经网络的多模态特征融合方法，使用2种模态进行研究：脑电模态和音频模态。脑电模态记录了受试者静息状态下的脑电信息，而音频模态则记录了受试者在访谈、阅读和图片描述过程中的语音信息。由于模态包

18、含的信息和特性具有一定的相关性，因此使用全连接神经网络分别对不同模态的特征进行训练并融合，对融合后的特征使用前馈神经网络进行抑郁症识别。模型的整体框架如图1所示，整个模型主要由3个部分组成：脑电模态特征提取与选择，音频模态的特征提取与选择以及对双模态融合的特征进行训练与分类。图1多模态特征融合框架2.1脑电模态2.1.1脑电预处理本文使用兰州大学建立的MODMA数据集28，数据通过 128 通道 HydroCel 传感器和 Net Station 软件进行采集，采样率为250 Hz，参考电极为顶点电极（CZ电极）。针对原始数据，本文使用 MATLAB 中的EEGLAB29工具包对数据进行预处理

19、，主要流程如下：1）进行电极重定位和重参考（全脑平均参考）。2）使用Sinc FIR滤波器30进行滤波，带通为140 Hz，去除线噪声和电干扰。3）对EEG数据进行分段（每段长为2 s）并去除伪迹。4）使用独立成分分析（ICA）去除眼电（EOG）和肌电（EMG）伪影。2.1.2脑电特征提取与特征选择对预处理后的数据进行特征提取，计算相位滞后指数PLI。PLI值31用于估计EEG双通道之间相位差分布的不对称性，可以在一定程度上描述通道之间的功能连通性。对于给定的2个EEG信号x和y，PLI值的计算方法如公式（1）所示：PLIxy(h)=|（1）其中，x（h）表示该通道信号的瞬时相位，x（h）-y

20、（h）表示信号x和y在频率h下的相位差，sign（）代表符号函数。PLI值的取值区间在0到1之间，0表示不耦合，1表示完全相位同步。通过上述计算方程，利用PLIxy值评估每对通道之间的功能连通性。因此，对于每个受试者，可以获得一个128128的功能连通矩阵F：F=f11f12f1nf21f22f2nfn1fn2fnn128 128（2）对于功能连通矩阵F，将矩阵的对角元素fii设为1，非对角元素fij（ij）设为PLIxy值。矩阵的每一列和每一行对应一个不同的通道，矩阵第i行第j列表示通道i和通道j之间连通性的强度。由于矩阵关于对角线对称，因此剔除无意义的对角元素和重复的下三角元素，提取矩阵的

21、上三角元素作为分类特征。因此脑电特征提取后得到的特征维数为 128（128-1）/2=8128。为了去除不相关和冗余的特征，提高模型的泛化能力，本文采用特征选择算法来对提取的特征进行降维。ReliefF32是一种特征权重算法，其不仅具有效果好、效率高的特点，还可以在一定程度上保留特征原有的物理意义。ReliefF算法的主要步骤如下：1）从所有样本中随机取一个样本x。2）从与样本x相同分类的样本集中取出k个最近邻样本。3）从其他与样本x不同分类的样本集中也取出k个最近邻样本。4）最后，计算特征的权重并从大到小进行排序，权重值越大，排名越靠前则代表该特征越重要，对样本的分类效果越好。通过Relie

22、fF特征选择方法，本文提取权重排名前500维的特征用于多模态特征融合。2.2音频模态2.2.1音频数据预处理本文使用的是兰州大学MODMA数据集的音频部分，语音采集软件为 Adobe Audition CS6，采样频率为44.1 Hz，采样深度为24 bit，单声道。音频内容为受试者对主试提出的问题作出的回答。针对原始数据，对数据进行的预处理流程如下：1）对音频数据进行预加重33，其作用就是在传输线的始端增强信号的高频成分，补偿其在传输过程中的衰减，提高输出信噪比。语音信号的预加重可以通过一阶FIR高通数字滤波器来实现，设时刻n的语音信号采样值为X（n），则预加重的输出信号Y（n）的计算公式如

23、下：Y(n)=X(n)-X(n-1)（3）其中，预加重系数的值应介于0.9和1.0之间，本文中的值取为0.97。2）对音频信号进行分帧，将原始语音信号分成大小固定的 N段语音信号，将每一段语音信号称为一帧，帧长通常取1030 ms之间，本文帧长取25 ms。在分帧过程中，相邻的2帧之间有所重叠，重叠部分被称为帧移，本文帧移取10 ms。3）为了消除各帧两端可能存在的信号不连续问题，采用窗函数加权法对音频信号进行加窗，窗函数选用长度为L的汉明窗，设时刻n的窗函数输出为w（n），则窗函数公式如下：音频数据脑电数据数据预处理数据预处理特征提取及特征选择特征提取及特征选择DNNDNN特征融合DNN分类

24、谷明轩，等：基于多模态特征融合的抑郁症识别19计算机与现代化2023年第10期w(n)=0.54-0.46cos 2n/(L-1)，0 n L-10，otherwise（4）将时刻n的窗函数w（n）与信号f（n）相乘，得到加窗后的语音信号fw（n）：fw(n)=f(n)w(n)（5）2.2.2音频特征提取与特征选择对预处理后的数据进行特征提取，本文将音频分为沉默段和语音段，共提取1600维特征。其中沉默段指的是音频信号中语音的沉默部分，即上一句话的结束到下一句话的开始之间的语音段。通过语音端点检测技术34提取 8个维度特征，包括最大沉默时间、总暂停时间等。通过 Open Smile35提取语音

25、段特征，共 1582 维特征，其中包括梅尔频率倒谱系数（MFCC）等重要特征，使用配置文件为emobase2010。对于音频特征，本文同样使用ReliefF特征选择方法进行特征选择，提取权重排名前500维的特征用于多模态特征融合。2.3多模态决策融合模型决策融合是子模型做出决策后再融合的方法，其特点在于可以选择合适的模型对不同的模态进行训练，然后根据子模型的训练结果选择合适的方式进行融合。本文设计一种多模态决策融合方法来作为对比实验。对于不同的模态，本文使用2种不同的子模型分别进行训练，然后使用线性加权的方式进行决策融合，决策融合的网络结构如图2所示。图2多模态决策融合网络结构对于音频模态数据

26、，本文在特征提取后使用全连接神经网络进行训练，其中包括1层输入层、5层全连接层和1层Softmax输出层。其中全连接层神经元数目分别为1200、1200、850、600和500。由于实验数据较少，而神经网络参数较多，因此在神经网络中加入了 Dropout，如图 2中虚线部分所示。在每次训练过程中，每个神经元都会以一定概率被停止，这样就使得一个神经元的训练不依赖于另一个神经元，因此可以减少过拟合现象并提升模型的泛化能力。对于脑电模态，由于其是关于时间序列记录的数据，且经过实验发现对于脑电数据引入长短期记忆神经网络（LSTM）比全连接神经网络表现更好，因此在决策模型中，本文对脑电模态引入LSTM网

27、络进行训练，其中包括1层输入层，2层LSTM层、1层线性层和1层Softmax输出层。音频模态数据和脑电模态数据经过各子模型训练和Softmax层分类后，得到单一模态下，受试者是否患有抑郁症的概率。分类概率如公式（6）所示：Pi=exp(zi)jexp(zj)，i=1，2（6）其中：Pi表示输出为第i类的概率，zi表示最后一层神经元中第i个值，分母为对所有神经元的值指数求和。得到各子模型的分类概率Pi之后，在Softmax层使用线性加权的方式融合，最终得到抑郁症识别的概率。实验共设置 2个权重参数 w1和 w2，Softmax层线性加权如公式（7）所示：yi=Softmax(jwjPj)，i=

28、1，2（7）2.4多模态特征融合模型多模态特征融合是指对各个模态数据特征先进行融合，再用于分类任务的一种融合方式。其优势在于可以充分结合模态间的相关性信息，更好地提升模型的分类效果。多模态特征融合的做法主要是将不同模态的特征向量经过特定的映射后形成一个新的特征向量36。由于音频数据记录了受试者访谈、阅读等任务下的语音信息，而脑电数据记录了同一名受试者进行音频任务前静息状态下的脑电信息，2种数据之间存在一定的互补性，因此可以对这2种模态进行特征融合。神经网络的本质是通过一层层隐藏层的线性和非线性变换对输入的数据特征进行计算和变形，直至可以很容易地区分不同的类别。神经网络的逐层计算，就是对原始数据

29、的逐层抽象，后一层神经元的输入是前一层神经元输出的加权和，前一层的特征在后一层就被抽象出来。因此，神经网络学习的过程就是调节和优化权重和阈值，并不断抽象的过程。综上，本文提出一种基于全连接神经网络的多模态特征融合模型，模型的具体结构如图3所示。图3多模态特征融合网络结构首先，分别将2种模态的特征使用全连接神经网络进行抽象。由于神经网络的层数越多，输入特征抽象的层次就越深，对其理解的准确度也就越深。因此，本文先对2种模态数据进行抽象，使用3层隐藏层进行训练，均得到200维的抽象特征，并将其用于特征融合。在特征融合部分，本文使用特征拼接的方法，即将200维脑电特征 x1，x2，x200 与200维

30、音频特征y1，y2，y200 直接拼接成 400维的特征 x1，x2，x200，y1，y2，y200。由于神经网络可以自动训练特征之间的权重值，因此本文将融合后的特征直接输入前馈神经网络中，让网络自动学习权重之间的关系。在前馈神经网络中，使用ReLU激活函数为模型加入非线性因素，使用反向传播算法收敛损失值并更新网络参数。网络中共添加3层隐藏层，神经元个数分别LSTMLSTMLSTMLSTMLSTMLSTM音频特征脑电特征分类Softmax线性加权SoftmaxSoftmaxSoftmax融合特征前馈神经网络特征拼接特征抽象特征抽象脑电特征音频特征f维K维K1维J1维J1+K1维202023年第

31、10期为300、200和100，epoch设置为350。网络多次训练和迭代后，经过Softmax层的输出得到最终的模型分类结果。3实验3.1实验数据本文采用兰州大学MODMA数据集，该数据集包括53例受试者静息状态下的128电极脑电图信号以及52名受试者在访谈、阅读和图片描述过程中记录的音频，其中每个受试者包含29个音频文件。由于数据集中采集静息态数据的受试者与采集音频数据的受试者并不完全相同，而对非同一对象的多模态数据的训练没有意义，因此剔除其中只有单个模态数据的受试者，保留38名受试者的数据用于训练和分类。3.2实验参数与设置本文使用基于全连接神经网络的模型来进行多模态特征融合，使用Ad

32、am作为优化器，NLLLoss作为损失函数，学习率设置为0.00001。由于数据集样本的数量较少，可能会对模型的分类准确率产生一定影响，因此本文所有的实验均采用留一交叉验证法（LOOCV）37来评估模型的泛化能力，即对于每一次实验均使用37个样本作为训练集，1个作为测试集。本文通过设置机器学习和深度学习的多个对比实验来验证多模态特征融合的效果。采用支持向量机SVM和K近邻算法（KNN）来设置机器学习的对比实验，采用多模态决策融合来设置深度学习的对比实验。其中SVM类型为C-SVC，核函数为线性核函数，KNN中K的取值为3。在进行上述分类之前，将所有的特征进行归一化。3.3实验结果与分析为了验证

33、模型的效果，本文对数据集设计了对比实验。首先对单个模态，分别计算在KNN、SVM以及全连接神经网络下抑郁症识别的准确率，其次计算多模态决策融合下抑郁症识别的准确率，最后计算多模态特征融合模型的抑郁症识别准确率，所有实验的对比结果如表1与表2所示。表1单模态机器学习方法与深度学习方法准确率对比模态音频脑电准确率/%SVM68.4255.26KNN57.8973.68DNN71.0573.68表2多模态特征融合与其他方法准确率对比模型音频脑电多模态决策融合多模态特征融合准确率/%71.0573.6876.3181.58由表1与表2可知，对于单模态抑郁症识别，使用深度学习方法的准确率相较于机器学习的

34、方法来说有所提升，其中在音频模态上表现更为明显，而在脑电模态上KNN也表现较好，与全连接神经网络有相同的准确率。而对于多模态抑郁症识别，特征融合具有最高的准确率，且明显高于其他融合方法，而决策融合的方法与之相比表现较差。通过上述实验对比，基于全连接神经网络的特征融合模型相较于其他方法在准确率方面有不同程度的提升，表明了该方法的有效性，说明了特征融合的思想可以应用于脑电和音频模态的抑郁症识别。同时表明了简单加权求和方式下的决策融合表现较差，当模态之间相关性较强时，特征融合的效果更好。4结束语本文针对抑郁症临床诊断困难的问题，在深度学习的基础上提出了基于全连接神经网络的多模态特征融合模型，融合音频

35、和脑电模态的抽象特征并用于训练，保留了模态间的相关性。并且通过在MODMA数据集上的对比验证，特征融合模型相对于单模态抑郁症识别和决策融合模型具有更高的准确率。由于本文只使用MODMA多模态抑郁症数据集，且数据集数据较少，因此本文所提出的方法只局限于音频和脑电这2种模态。在接下来的研究中，可以对数据集的数据量进行扩充或者对其他的模态领域进行探索，增加多模态特征融合的适用性。参考文献：1 廖成菊，冯正直.抑郁症情绪加工与认知控制的脑机制J.心理科学进展，2010，18（2）:282-287.2 祁荣，陈军，余邵民.关于抑郁症的研究综述 J.心理月刊，2020，15（17）:238-240.3 C

36、ASSANO P，FAVA M.Depression and public health:Anoverview J.Journal of Psychosomatic Research，2002，53（4）:849-857.4 祁娜，冯媛，王刚.抑郁症客观评估方法的研究进展 J.神经疾病与精神卫生，2020，20（5）:341-346.5 汪作为，彭代辉，刘晓华，等.忧郁/快感缺失型抑郁症临床评估与诊治指导建议 J.临床精神医学杂志，2021，31（1）:1-5.6KROENKE K，SPITZER R L，WILLIAMS J B W.ThePHQ-9:Validity of a brief

37、depression severity measure J.JournalofGeneralInternalMedicine，2001，16（9）:606-613.7VALSTAR M，GRATCH J，SCHULLER B，et al.AVEC2016:Depression，mood，and emotion recognition workshop and challengeC/Proceedings of the 6th International Workshop on Audio/Visual Emotion Challenge.2016:3-10.8 OLBRICH S，ARNS M

38、.EEG biomarkers in major depressive disorder:Discriminative power and prediction of treatment responseJ.International Review of Psychiatry，2013，25（5）:604-618.9 ZHOU Z H，FENG J.Deep forest:Towards an alternativeto deep neural networks C/Proceedings of the 26th International Joint Conference on Artifi

39、cial Intelligence.2017:3553-3559.10 ISLAM M R，KABIR M A，AHMED A，et al.Depressiondetection from social network data using machine learning谷明轩，等：基于多模态特征融合的抑郁症识别21计算机与现代化2023年第10期techniquesJ.Health Information Science and Systems，2018，6（1）.DOI:10.1007/s13755-018-0046-0.11 FINGELKURTS A A，FINGELKURTS A

40、A，BAGNATOS，et al.EEG oscillatory states as neuro-phenomenology ofconsciousness as revealed from patients in vegetative andminimally conscious statesJ.Consciousness and Cognition，2012，21（1）:149-169.12 蒲涛，许莉，蒲涛青，等.不同严重程度抑郁症患者SPECT/CT脑血流灌注显像特点分析 J.中国CT和MRI杂志，2022，20（8）:24-27.13 LAVE J R，FRANK R G，SCHUL

41、BERG H C，et al.Cost-effectiveness of treatments for major depression in primarycare practice J.Archives of General Psychiatry，1998，55（7）:645-651.14 ERGUZEL T T，OZEKES S，TAN O，et al.Feature selection and classification of electroencephalographic signals:An artificial neural network and genetic algori

42、thm based approach J.Clinical EEG and Neuroscience，2015，46（4）:321-326.15 HOSSEINIFARD B，MORADI M H，ROSTAMI R.Classifying depression patients and normal subjects using machine learning techniques and nonlinear features from EEGsignalJ.Computer Methods and Programs in Biomedicine，2013，109（3）:339-345.1

43、6 ORGO L，BACHMANN M，KALEV K，et al.RestingEEG functional connectivity and graph theoretical measures for discrimination of depression C/Proceedings ofthe 2017 IEEE EMBS International Conference on Biomedical&Health Informatics（BHI）.2017:389-392.17 PENG H，XIA C，WANG Z H，et al.Multivariate patternanaly

44、sis of EEG-based functional connectivity:A study onthe identification of depression J.IEEE Access，2019，7:92630-92641.18 BALANO J B，HUERTO V L，SANCHEZ S，et al.Determining the level of depression using BDI-II through voicerecognition C/Proceedings of the 2019 IEEE 6th International Conference on Indus

45、trial Engineering and Applications（ICIEA）.2019:387-391.19 FLINT A J，BLACK S E，CAMPBELL-TAYLOR I，et al.Abnormal speech articulation，psychomotor retardation，and subcortical dysfunction in major depressionJ.Journal of Psychiatric Research，1993，27（3）:309-319.20 任泽裕，王振超，柯尊旺，等.多模态数据融合综述 J.计算机工程与应用，2021，57

46、（18）:49-64.21 CAI H S，QU Z D，LI Z，et al.Feature-level fusion approaches based on multimodal EEG data for depression recognition J.Information Fusion，2020，59:127-138.22 何俊，张彩庆，李小珍，等.面向深度学习的多模态融合技术研究综述 J.计算机工程，2020，46（5）:1-11.23 KAHOU S E，PAL C，BOUTHILLIER X，et al.Combining modality specific deep neur

47、al networks for emotion recognition in video C/Proceedings of the 15th ACM on International Conference on Multimodal Interaction.2013:543-550.24 YANG L，JIANG D M，XIA X H，et al.Multimodal measurement of depression using deep learning modelsC/Proceedings of the 7th Annual Workshop on Audio/VisualEmoti

48、on Challenge.2017:53-59.25 张迎辉，聂燕敏，孙波，等.基于深度森林多模态数据决策级融合抑郁症评价方法 J.北京师范大学学报（自然科学版），2018，54（5）:606-611.26 WU D，PIGOU L，KINDERMANS P J，et al.Deep dynamic neural networks for multimodal gesture segmentationand recognition J.IEEE Transactions on Pattern Analysisand Machine Intelligence，2016，38（8）:1583-15

49、97.27 LAN Z Z，BAO L，YU S I，et al.Multimedia classificationand event detection using double fusionJ.MultimediaTools and Applications，2014，71（1）:333-347.28 CAI H S，YUAN Z Q，GAO Y W，et al.A multi-modalopen dataset for mental-disorder analysisJ.ScientificData，2022，9（1）.DOI:10.1038/s41597-022-01211-x.29D

50、ELORME A，MAKEIG S.EEGLAB:An open source toolbox for analysis of single-trial EEG dynamics including independent component analysis J.Journal of NeuroscienceMethods，2004，134（1）:9-21.30 WIDMANN A，SCHROGER E，MAESS B.Digital filterdesign for electrophysiological data:A practical approachJ.Journal of Neu

展开阅读全文