1、第 22卷 第 10期2023年 10月Vol.22 No.10Oct.2023软 件 导 刊Software Guide基于抑郁症患者微博平台数据的文本语义挖掘与情感分析范文蓉,刘峰(南京邮电大学 教育科学与技术学院,江苏 南京 210023)摘要:基于抑郁症患者倾向于在社交平台表达情感的特性,提出在当前社交媒体上搜寻、分析和讨论抑郁症患者的主要特征。首先对抑郁症患者的微博数据进行高频词分析,使用LDA主题模型构建映射关系;然后基于时间序列分析该类人群正负向情感表达的变化情况,细致分析5类消极情绪的强度占比;最后在现有理论成果的基础上对抑郁症患者的平台形象、认知特征、行为特征及情感特征进行总
2、结。在微博平台中利用文本特征与情感关键影响因素识别潜在的抑郁症患者具有非常重要的实际意义。关键词:抑郁症;社交媒体;文本语义挖掘;情感分析DOI:10.11907/rjdk.222099开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391.1 文献标识码:A文章编号:1672-7800(2023)010-0171-07Text Semantic Mining and Emotion Analysis Based on Weibo Platform Data for Depression PatientsFAN Wenrong,LIU Feng(School of Ed
3、ucation Science and Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)Abstract:Based on the tendency of depression patients to express emotions on social media,it is proposed to search,analyze,and discuss the main characteristics of depression patients on current soc
4、ial media.Firstly,high-frequency word analysis was conducted on Weibo data of depression patients,and mapping relationships were constructed using LDA topic models;Then,based on time series analysis,the changes in positive and negative emotional expression of this group of people are analyzed,and th
5、e intensity proportion of five types of negative emotions is analyzed in detail;Finally,based on existing theoretical achievements,summarize the platform image,cognitive characteristics,behavioral characteristics,and emotional characteristics of depression patients.Identifying potential depression p
6、atients using text features and key emotional influencing factors in Weibo platform have significant practical significance.Key Words:depression;social media;text semantic mining;emotional analysis0 引言据世界卫生组织统计,中国抑郁症患者数量已高达9 000万,并且有逐年上升的趋势,然而最新抑郁症调查报告显示,我国抑郁症的治疗率仍然不到 10%1。究其原因,我国对于心理问题的社会支持薄弱使得抑郁症患
7、者的病耻感强烈,导致其更倾向于隐瞒病情而非主动寻求治疗。微博作为中国活跃人数较多的社交媒体平台,其保护用户隐私的平台特性为现实世界中的沉默群体提供了隐秘的倾诉途径,其中抑郁症患者也更倾向于在网络世界中表达自己的情感2。因此,挖掘并分析蕴含在微博文本中的有效信息能够为人类心理和行为研究开辟更广阔的空间。收稿日期:2022-09-20基金项目:国家自然科学基金项目(62177029)作者简介:范文蓉(1999-),女,CCF会员,南京邮电大学教育科学与技术学院硕士研究生,研究方向为教育人工智能;刘峰(1964-),男,博士,南京邮电大学教育科学与技术学院教授、博士生导师,研究方向为教育人工智能、图
8、像处理与多媒体通信。本文通讯作者:范文蓉。2023 年软 件 导 刊1 相关研究在现代社会,网络是人们获取和发布信息最快捷的途径,而人们在网络上的活动必然会留下许多数据,尤其是许多人经常在社交媒体上发布文字、图像以及视频记录生活,这些数据可以在一定程度上反映用户的行为习惯和情绪状态,对其进行挖掘分析可以对用户的身心健康状态进行监测。近年来,基于社交媒体的心理学研究逐年增多,信息科学与心理学的交叉融合越来越深入3。由社交媒体中提取的数据可被用于识别和预测抑郁症患者,进而为其提供专业的诊疗指导,而如何通过社交媒体数据准确提取出抑郁症患者的特征,将其用于训练识别模型并提高检测准确率是亟需突破的难题。
9、近年来,国内提取数据特征的方法不断完善。例如,曹奔等4将主题模型应用于心理学文本分析,用于探索心理咨询和社交媒体上人们的语言内容,进而对发布者的人格进行准确预测;林靖怡等5通过爬取抑郁用户和非抑郁用户的基本信息及微博内容,从中选择相关信息构建特征向量,通过 XGBoost算法构建分类模型,得到预测抑郁症的准确率为 91%,召回率为 59%;龚竞秋等6从微博树洞账号“走饭”的154万人次评论数据中提取出292 581个用户的微博号,对其空间分布特征进行可视化表达,发现经济发达地区人群的抑郁情况比经济欠发达地区严重;查国清等7基于Word2vec词嵌入模型形成抑郁关键词表,进而判断被测微博是否表达
10、出抑郁倾向,该法大大减少了专家标注工作量,提高了标注效率。国外使用的语言和社交媒体与国内不同,因此构建出的文本特征与情感词典有显著差异,但检测技术大致相同。例如,Jung等8提炼出青少年抑郁症本体和术语,提供了相关语义基础,但缺少反映抑郁症的情感词语;Martnez-Castao等9提出一个用于实时处理社交媒体数据的可扩展平台,实现了抑郁症患者的早期监测;Chiong等10提出一种基于社交媒体文本的通用抑郁症检测模型,该模型采用两个标记的公开Twitter抑郁症数据集进行训练,即使测试数据集不包含抑郁症和诊断等特定关键词,该方法也能通过社交媒体文本有效检测抑郁症。国内外针对社交媒体中抑郁症患者
11、检测的研究尚处于初始阶段,构建文本特征与情感词典的方法正在探索当中。目前使用的很多检测技术为机器学习算法,存在较多缺陷,导致抑郁症患者的很多潜在语言和行为特征尚未被充分挖掘。此外,随着时代的发展变化,模型需要被持续调整训练以适应社交平台中不断更新的语句表述方式。从社交媒体文本中提取有效信息需要文本数据挖掘和文本情感分析两个步骤。其中,文本数据挖掘将生活中非结构化但有价值的信息整理成结构化数据,以便从中提取细枝末节的语义和规律,大大降低了人工操作成本11,具体分为选取数据来源选取、数据清洗及预处理、文本语义挖掘、可视化分析4个步骤。近年来,主题模型作为一种非监督的聚类方法在文本数据挖掘领域得到广
12、泛应用12,其能够发现文档词语之间所蕴含的潜在语义关系(即主题),将文档看作一组主题的混合分布,而主题又是词语的概率分布,从而有效提高了文本信息处理效率,因此本文选择隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型作为主要的语义挖掘工具。文本情感分析即对文本蕴含的情感信息进行抽取、分类、检索与归纳13,情感词典的构建在情感分析任务中发挥着越来越重要的作用,其可以基于词语的语义倾向判断其所在文本的语义倾向,是包含情感词词性、极性和强度的词表14。抑郁症患者在微博平台中的倾诉欲比现实世界中更旺盛,其微博文本提供了大量蕴含情感的词汇。然而,由于中文的多变性以
13、及语义的多重性,中文分词难度较大,国内的情感分析研究暂落后于国外。近年来,中文情感词典也在不断训练建设当中,如知网发布的情感分析用词语集、台湾大学发布的中文情感极性词典、清华大学李军教授发布的中文褒贬义词典等为中文情感分析提供了可靠的数据来源,但以上情感词典存在领域适应性差以及情感词类别单一的问题。相比之下,大连理工大学林鸿飞教授指导完成的中文情感词汇本体库的情感划分十分细致,更适用于社交媒体情感分析15。由于微博文本的情绪较为丰富,不只局限于正、负两个极端方向,应对其蕴含的情绪强弱进行判别,本文选择中文情感词汇本体库作为情感词典。本文通过采集微博平台中的大量相关数据,运用文本语义挖掘与情感分
14、析技术提取抑郁症患者的特征,对其平台形象、认知特征、行为特征及情感特征进行辨析与界定,以期感知抑郁症患者的真实处境,为在社交媒体中识别潜在的抑郁症患者提供新的途径。2 研究方法2.1数据来源微博平台中的#抑郁症#超级话题将许多抑郁症患者聚集在一起,从中筛选符合要求的发帖用户较为高效,具体步骤如下:选取微博发布数量在 100条以上的用户;进入用户首页观察其发帖习惯及正文内容,确定该用户是否为抑郁症患者;优先选取在抑郁症超话发帖量较多的用户,审查网页信息获取用户id。经过筛选,最终选取样本总人数52人,男女比例为9 43,其中公开显示年龄的有22人,16人在18-25岁区间,4人在25-30岁区间
15、,2人在30-35岁区间。用户个人信息在一定程度上反映出女性、高中生、大学生3个群体患抑郁症的比例更高。2.2数据获取与预处理2.2.1数据获取目前,获取数据的主要途径为网络爬虫,通过执行被 172第 10 期范文蓉,刘峰:基于抑郁症患者微博平台数据的文本语义挖掘与情感分析设定好的要求自动获取网页数据程序或脚本,该技术在互联网搜索及数据分析领域被广泛使用16。图 1为数据抓取流程。对于爬取微博数据这一任务而言,微博手机端比网页结构更易于获取URL地址,然后使用拥有多种解析库的BeautifulSoup库对网页进行解析。为简化获取的网页数据,方便后续文本数据分析,通过正则表达式检索并替换掉无用文
16、本,然后将数据存储为CSV文件格式。使用爬虫技术选取每个用户从2018年发布至今的原创微博数据,共获得微博7 750条。原创微博中仍然存在一些与本文主题无关的微博信息,如新年让红包飞活动、过年抽福卡活动、明星打榜活动、投票内容以及其他平台的分享链接等,并不能反映抑郁症患者特征,因此对相关微博正文内容进行删除。数据清洗后最终获取有效微博4 979条,表1为某样本用户的部分微博内容展示。2.2.2数据预处理由于每个用户的微博文本表述存在个人风格差异,在进行数据分析前首先要对最终获取到的微博正文内容进行清洗与预处理,具体操作如下:首先去除英文、数字及关键词“抑郁症”;采用Python语言中的jieb
17、a分词算法将长语句分为单个词语;删除标点符号;删除停用词,如语气助词(啊、呀、了、么等),副词(极其、十分、非常等),介词(的、地等),连接词(虽然、因为、即使等)之类自身无明确意义的词汇;对固有名词进行统一定义,从而构建研究所用的自定义词群表。例如将“爸”“妈”“母亲”“父亲”等替换为“父母”;将“曲唑酮”等抗抑郁药替换为“药物”;将“医院”“门诊”等替换为“医院”;将“林俊杰”等明星名字替换为“偶像”。2.3文本语义挖掘2.3.1高词频分析某个词语出现的频率越高,表示用户越受其影响。因此,本文基于已经清洗和预处理过的 CSV文件,在 Python中调用分词和词频分析功能,将出现频率排名前
18、50位的特征词从高到低按照字体大小显示,结果见图2。可以看出,出现频次最高的词汇依次为“感情”“药物”“父母”“吃”“感觉”“世界”“希望”“偶像”“睡”“死”等,其中“感情”一词的出现频率多达653次,体现了抑郁症患者情绪易波动的特点;“父母”一词的高频出现反映其是抑郁症患者十分关注的对象;“药物”“吃”“睡”“死”的高频出现体现了抑郁症患者吃药、暴食、嗜睡、有自杀倾向的日常行为特征;“感觉”“世界”的高频出现体现抑郁症患者对人生哲学的思考;“希望”的高频出现反映出抑郁症患者对恢复健康、回归正常生活的向往。2.3.2主题模型分析为提高文本特征词的准确性,本文采用LDA主题模型以无监督学习的方
19、式对抑郁症患者微博文本的隐含语义结构进行聚类统计。LDA主题模型认为文档由主题构成,而主题由词项构成,其目标为得到文档中主题的分布概率以及主题中词项的分布概率。使用经验设定法确定主题数K=5,=10,=0.01,模型构建完成后采用LDAvis可视化包进行如图3所示的可视化展示17。发送请求获取响应解析网页获取URL地址内容符合要求获取新的URL存储数据 Fig.1Data capturing process图1数据抓取流程Table 1Partial Weibo content display of a sample user表1某样本用户的部分微博内容展示ID123微博正文我想我应该不属于这
20、个世界的,我只想去我还想去的地方,见我还想见的人,我就没有别的想做的事了,也没有任何计划。没有想过再工作,挣钱,谈恋爱,结婚生子。我连想要遇到爱的人的机会都不想要,仅仅是毫无生机。想洗个澡,洗个头,穿一件自己喜欢的衣服,再看看妈妈,再听一次他的声音。想吃下所有的曲唑酮,在半夜划开手臂,然后死去。我连怎么离开都想不好。连想离开了,还在想,我要是被救回来了,治疗的钱可没有办法报销,不想死不成还给家里添负担。一场葬礼的钱,不比医药费便宜吗?所以决定离开的时候一定要让自己离开。发布时间2021/3/30 23:512021/3/11 19:482021/3/8 13:42Fig.2Word frequ
21、ency statistics图2词频统计 1732023 年软 件 导 刊图3中左侧聚类形成的各个主题范围圆圈较分散,没有重合的地方,表明此次聚类的结果较显著,可信度较高;右侧则显示了构成某一主题的高频词合集,具体映射如表2所示。根据主题高频词的主要表达内容其将分为人生思考、生活状态、抑郁症治疗、正面情感表达和负面情感宣泄5类,与前文高词频分析结果基本一致,其中正负向情感的表达仍需进一步研究。3 抑郁症患者情感分析3.1情感词典构建中文情感词汇本体库中的词汇共分为7大类21小类,从词语词性、情感类别、情感强度及极性等多角度对情感词汇进行了描述,词汇格式如表3所示。在该词汇库中补充具有微博文本
22、特征的情感词语,构成本文所需情感辞典,以提高对微博平台文本情感分析的精确度。将“乐”“好”归为积极情感倾向,将“怒”“哀”“惧”“恶”“惊”归为消极情感倾向,具体情感词汇分类如表 4所示。3.2情感分析流程情感分析流程见图4,具体步骤为:将情感词典中的词汇按照类别整理成列表形式;将经过分词处理的微博词语与情感词汇进行匹配,定位情感词;载入否定词,对情感词前有否定词或双层否定词的词汇进行修正;确认情感类别所属并计算每条微博的情感程度。Table 2LDA model theme-word specific mapping表2LDA模型主题词具体映射序号主题一主题二主题三主题四主题五主题标识人生思
23、考生活状态抑郁症治疗正面情感表达负面情感宣泄高频词不想、无聊、世界、感情、希望、难受、父母、生活、难过、快乐、坚持、痛苦、离开、活着、意义感情、啊啊啊、好烦、害怕、工作、干活、想要、开心、总是、时间、感觉、好难、希望、梦见、暴食药物、父母、感觉、晚上、医生、讨厌、睡不着、情绪、睡觉、每天、不想、医院、难受、安眠药、身体偶像、感情、努力、活着、哈哈哈、好好、感觉、生活、一点、希望、说话、未来、朋友、宝贝、过年感情、晚安、烦死、世界、不吃、不配、不想、窒息、消失、自杀、垃圾、呜呜、减肥、失眠、学校Table 3Format of emotional vocabulary表3情感词汇格式词语无所畏惧
24、手头紧周到词性种类idiomidiomadj情感分类PHNEPH强度775极性101Table 4Classification of emotional vocabulary表4情感词汇分类情感倾向积极消极情感大类乐好怒哀惧恶惊情感类别快乐、安心尊敬、赞扬、相信、喜爱、祝愿愤怒悲伤、失望、疚、思慌、恐惧、羞烦闷、憎恶、贬责、妒忌、怀疑惊奇Fig.3LDA model visualization图3LDA模型可视化 174第 10 期范文蓉,刘峰:基于抑郁症患者微博平台数据的文本语义挖掘与情感分析3.3情感分析结果3.3.1情感词频为直观了解微博平台抑郁症患者的情感倾向,分别对积极、消极倾向的情
25、感词汇进行词频统计,以词云图的形式展示,结果见图5。图中展示了抑郁症人群常用于表达积极、消极的 40 个情感词汇,字体越大表示提及次数越多。对积极情感词汇进行深入分析,发现“希望”“喜欢”“快乐”“朋友”“坚持”等词汇出现频率较高,反映了抑郁症患者对美好生活的向往。社会普遍对抑郁症患者存在偏见,认为他们是危险人群,但通过情感分析发现他们的精神世界并不全是抑郁灰暗的,也有许多积极信念的支撑,其无时无刻不处于努力自救的状态,也非常渴望被亲人或朋友救赎。因此,适当的情感关怀是治疗抑郁症的有效方法之一。对负向情感词汇进行深入分析,发现“难受”“讨厌”“痛苦”“害怕”“抑郁”等词汇的出现频率较高,反映出
26、抑郁症患者情绪不稳定,时常处于低落状态。现代生活节奏较快,学业、工作、感情等多方面压力导致人们经常会有焦虑、悲伤等负面情绪,如不能及时有效调节疏导,可能会导致或加重抑郁症,这在微博平台中体现为用户对消极情感词汇的频繁使用。3.3.2基于时间序列的情感变化以中文情感词汇本体库中情感词的强度得分为依据,基于时间序列对抑郁症患者的情感强度变化进行分析,结果见图6。其中,横坐标表示一天中的24 h,纵坐标表示平每位抑郁症患者发布的微博文本中所有情感词汇的平均倾向程度,黑色折线表示一天中患者表达消极情感程度的变化趋势,灰色折线表示一天中患者表达积极情感程度的变化趋势。可以看出,在同一时间区间内抑郁症患者
27、的消极情感表达一直强于积极情感表达,且两种情感表达强度变化趋势基本一致。抑郁症患者在夜晚21点到凌晨1点期间的消极情感词汇表达程度显著增加,并在 24点左右达到一天中的高峰值,强度达白天消极情绪表达的6倍以上。本应属于正常人群休息和睡眠的时间却成为抑郁症患者爆发式宣泄消极情绪的时刻,严重影响其日常生活质量和工作学习效率。3.3.3消极情绪强度占比为深入了解抑郁症患者的消极情绪表达情况,选择类别和程度两个指标进一步全面分析。以情感词强度得分为依据,对文本数据进行怒、恶、惊、惧、哀五大类消极情绪的细致分析,并以雷达图呈现,结果见图7。可以看出,微博平台抑郁症患者的5类消极情绪强度有所差异,强度最高
28、的为“恶”,代表性词汇为难受、讨厌、抑郁、恶心、焦虑等,其次为“哀”,代表性词汇为难过、痛苦、对不起、伤害、孤独等;再次为“惧”,“怒”和“惊”则较少出现。“恶”“哀”“惧”3种主要消极情绪的具体高频词汇及其频次如表 5所示。情感分析结果提示抑郁症患者通常持有悲观的人生态度以及消沉的情感取向。(a)Positive(a)积极(b)Negative(b)消极Fig.5Vocabulary frequency of positive and negative emotions图5积极、消极情感词汇词频 1 2 3 4 5 6 7 8 9 101112131415161718192021222324
29、0481215192327时间 消极情绪 积极情绪平均情感强度/时Fig.6Emotional intensity changes based on time series图6基于时间序列的情感强度变化分词结果与情感词典合并载入否定词修正否定或双重否定确认情感类别情绪词语列表计算情感程度 Fig.4Emotional analysis process图4情感分析流程 1752023 年软 件 导 刊4 微博平台抑郁症患者主要特征轻度抑郁症主要表现为情绪低落、经常性失眠、食欲下降,严重时会有自我伤害甚至自杀倾向。因此,在网络社交平台中,抑郁症患者的言语、行为、认知等模式与正常人群有明显差异,且包
30、含除临床症状之外的其他信息。因此,本文根据微博文本数据挖掘与情感分析结果,从4个维度总结提炼出社交平台中抑郁症患者的主要特征,以期提高该类人群的识别准确度,具体特征如图8所示。4.1平台形象特征从性别角度来看,女性抑郁症患者人数多于男性,这与女性普遍更加关注情感状态相符合;从年龄角度来看,年龄在 18-25岁的抑郁症患者居多,即高中生、大学生两个群体患抑郁症的比例更高,符合原生家庭是抑郁症主要诱发因素之一的认知;从发博时间来看,抑郁症患者更倾向于在夜晚宣泄负面情绪,与患者经常失眠的症状相符合。4.2认知特征抑郁症患者情绪长期低落,内心极度缺乏自信和安全感,害怕真实的自己会被别人笑话或伤害,不敢
31、向别人表达自己内心的真实想法和感受,有回避正常社交的情况存在,因此具有隐匿性的微博平台成为他们的倾诉途径。LDA 模型聚类的第一个主题“人生思考”和高频词汇“无聊”“世界”“生活”“意义”等反映了该群体对真实世界的感受。此外,微博平台中抑郁症患者的自我价值感较低,在认知方面常常自我否定,严重者会表达出自杀倾向。患者往往从事日常活动便已十分困难,更不要说完成复杂工作,因此经常自觉能力低下,处处不如他人。本文抓取的“累”“活着”“死”等高频词汇充分体现了抑郁症患者容易缺乏自信,对自我持有消极态度,并时常出现轻生念头。4.3行为特征本文数据显示绝大多数抑郁症患者存在睡眠障碍,并伴随暴食行为特征。入睡
32、困难主要表现为患者入睡前思绪繁杂、辗转反侧,同时会有悲观、消极的念头,导致睡眠质量非常差。“睡”“晚安”“睡不着”“梦”“晚上”“安眠药”这些高频词汇体现出抑郁症患者睡眠障碍的行为特征。少部分抑郁症患者会出现暴饮暴食现象,这与微博文本中反复提及的“吃”字相呼应。短时间内大量强迫性进食的行为会增加人体摄入的脂肪量,导致神经中枢陷入休眠状态,进而加重抑郁症。抑郁症患者的生活不尽如意,但并没有放弃寻求治疗的机会。LDA模型聚类的第5个主题和“药物”“医生”“医院”等高频词表明看医生吃药是他们日常生活经常做的事情,其中“药物”一词被提及358次。此外,“朋友”“走”“音乐”等词在微博文本中被高频提及,
33、可以看出抑郁症患者也会向朋友倾诉烦恼、无聊时外出散步、烦心时听听音乐,以平复心情、舒缓不稳定的情绪。4.4情感特征抑郁症患者的情绪波动较大且常处于悲观消极的状态,词汇提及率第一的“感情”及消极情绪“恶”“哀”“惧”等高频词汇证实了这一情感特征。根据对微博平台抑郁症患者的情感分析可知,消极情绪中“恶”类的最高频词汇为“难受”,“哀”类中除与“难受”相接近的“难过”外,“痛苦”一词的出现频率也很高。这两类情绪即微博平台抑郁症患者的主要情感特征。平台形象情感特征认知特征行为特征女性多 年龄低 夜间发文悲观消极 难受痛苦人生思考自杀倾向失眠暴食日常治疗 Fig.8Main characteristic
34、s of depression patients on Weibo platform图8微博平台抑郁症患者主要特征 0.010.510.010.070.21哀惧惊恶怒 强度Fig.7Proportion of intensity of five types of negative emotions图75类消极情绪强度占比Table 5Three main high-frequency vocabulary and frequency of negative emotions表53种主要消极情绪高频词汇及其频次排名12345678910恶高频词难受情绪不好讨厌抑郁恶心焦虑失眠头疼崩溃频次9524
35、98388374264256256202198146哀高频词难过痛苦对不起不行伤害情感孤独绝望无语失去频次416346180160158120110104104100惧高频词害怕可怕噩梦恐惧心慌厉害不安困难小心恐怖频次3121009454543838343432 176第 10 期范文蓉,刘峰:基于抑郁症患者微博平台数据的文本语义挖掘与情感分析5 结语本文基于微博平台真实数据,采用数据挖掘和情感分析方法从4个维度总结提炼了抑郁症患者的主要特征,为社交平台中抑郁症人群的识别提供了参考依据。今后拟从以下两个方面继续开展研究:针对没有抑郁倾向与有抑郁倾向两种人群的社交媒体平台信息进行分析,比较其语言
36、、行为特征,提取形成对照表,利用深度学习算法训练抑郁症患者识别模型。该模型可通过导入社交媒体平台数据与抑郁症患者数据进行对比,进而得到相似度,通过相似度判断该用户是否患有抑郁症及其程度。该方法可帮助寻找潜在的抑郁症患者,对不愿就医、无法就医的抑郁症患者提供医疗帮助;传统的抑郁症自测量表存在一定局限性,由社交平台挖掘出的抑郁症患者新特征可为量表的全面性和科学性进行补充和完善。参考文献:1 MedSci.The 2019 blue book on depression in ChinaEB/OL.https:/ 中国抑郁症领域蓝皮书 EB/OL.https:/ YU R,LI G Q,YIN J.
37、Review of Weibo text mining J.Information Research,2017(5):97-103.余容,李光强,尹健.微博文本挖掘研究综述 J.情报探索,2017(5):97-103.3 WANG P,YAN Y,WANG R,et al.The citespace analysis of psychological research in the era of big data in the past two decades J.Journal of Shandong Normal University(Natural Science Edition),20
38、20,35(3):348-357.王鹏,闫芸,王荣,等.近二十年大数据时代下心理学研究的Citespace分析 J.山东师范大学学报(自然科学版),2020,35(3):348-357.4 CAO B,XIA M,REN Z H,et al.Technology of text analysis in the big data era:application of the topic model J.Advances in Psychological Science,2018,26(5):770-780.曹奔,夏勉,任志洪,等.大数据时代心理学文本分析技术“主题模型”的应用 J.心理科学展,2
39、018,26(5):770-780.5 LIN J Y,LI D K,WU P X,et al.The modeling and analysis of mental health early warning based on social data mining J.Electronic Technology&Software Engineering,2020(8):172-173.林靖怡,黎大坤,吴平鑫,等.基于社交数据挖掘的心理健康预警建模与分析 J.电子技术与软件工程,2020(8):172-173.6 GONG J Q,LIN S F,HUANG Z S.Study on spati
40、al characteristics of data of patients with depression in tree hole of Weibo J.China Digital Medicine,2020,15(4):70-74.龚竞秋,林绍福,黄智生.微博“树洞”的抑郁症患者数据空间特征研究J.中国数字医学,2020,15(4):70-74.7 ZHA G Q,HU C R,SUN M T,et al.Depression group s Internet social interaction and preliminary screening algorithm for Weibo
41、 with suspected depressionJ.Computer Engineering and Applications,2022,58(1):158-164.查国清,胡超然,孙铭涛,等.抑郁症网络社交与疑似抑郁微博初步筛选算法 J.计算机工程与应用,2022,58(1):158-164.8 JUNG H,PARK H A,SONG T M.Ontology-based approach to social data sentiment analysis:detection of adolescent depression signals J.Journal of Medical I
42、nternet Research,2017,19(7):e259.9 MARTNEZ-CASTAO R,PICHEL J C,LOSADA D E.A big data platform for real time analysis of signs of depression in social media J.International Journal of Environmental Research and Public Health,2020,17(13):4752.10 CHIONG R,BUDHI G S,DHAKAL S,et al.A textual-based featur
43、ing approach for depression detection using machine learning classifiers and social media texts J.Computers in Biology and Medicine,2021,135:104499.11 LI S H,CHAO L M.The review on the application of text mining in Chinese information analysisJ.Information Science,2016,34(8):153-159.李尚昊,朝乐门.文本挖掘在中文信
44、息分析中的应用研究述评 J.情报科学,2016,34(8):15 3-159.12 MU X X,DONG X H,CHAI X Q,et al.Commodity personalized recommendation method integrating LDA topic model and support vector machineJ.Journal of Zhengzhou University(Natural Science Edition),2022,54(3):34-39.穆晓霞,董星辉,柴旭清,等.融合LDA主题模型和支持向量机的商品个性化推荐方法 J.郑州大学学报(理学版
45、),2022,54(3):34-39.13 ZHAO Y Y,QIN B,LIU T.Sentiment analysis J.Journal of Software,2010,21(8):1834-1848.赵妍妍,秦兵,刘挺.文本情感分析 J.软件学报,2010,21(8):1834-1848.14 TANG X B,LIU G C.Research review on fine-grained sentiment analysis J.Library and Information Service,2017,61(5):132-140.唐晓波,刘广超.细粒度情感分析研究综述 J.图书情报
46、工作,2017,61(5):132-140.15 XU L H,LIN H F,ZHAO J.Construction and analysis of emotional corpus J.Journal of Chinese Information Processing,2008(1):116-122.徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析 J.中文信息学报,2008(1):116-122.16 SHEN C F,MO D L.Use skills of BeautifulSoup library J.Computer Knowledge and Technology,2019,15(28):13-16沈承放,莫达隆.BeautifulSoup 库在网络爬虫中的使用技巧及应用J.电脑知识与技术,2019,15(28):13-1617 LU Y,MEI Q,ZHAI C X.Investigating task performance of probabilistic topic models:an empirical study of PLSA and LDA J.Information Retrieval,2011,14(2):178-203.(责任编辑:尹晨茹)177