ImageVerifierCode 换一换
格式:PDF , 页数:10 ,大小:2.74MB ,
资源ID:576823      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/576823.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(人工参与的迭代式数据清洗方法研究.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

人工参与的迭代式数据清洗方法研究.pdf

1、59TOPIC 专题2023048-1人工参与的迭代式数据清洗方法研究摘要数据采集技术的进步导致了数据集规模的飞速上涨,由于数据的大规模和高复杂性引起了严重的数据质量问题,数据清洗是数据活动中必要且重要的环节。为了在保证清洗准确率的情况下有效地降低人工标注成本,提出了一种人工参与的迭代式的数据清洗方法(IDCHI)。该方法在检测模块中提出了数据选择优化方法,使分类器在初始阶段就拥有较高的准确度;并进一步提出了待人工标注数据选择方法,有效地降低人工标注的数据量。实验结果表明该方法可有效且高效地清洗错误数据。关键词数据清洗;人工参与;迭代式;小批量梯度下降中图分类号:TP311 文献标志码:A d

2、oi:10.11959/j.issn.2096-0271.2023048Research on iterative data cleaning of human-computer interactionAbstractThe advancement of data collection technology has led to a rapid increase in the size of datasets.Due to the big scale and high complexity of the data volume,serious data quality issues arise

3、.Therefore,data cleaning is a necessary and important step in data activities.To effectively reduce human annotation costs while ensuring the accuracy of cleaning,an iterative data cleaning method(IDCHI)with human participation was proposed.This method proposed a data selection optimization method i

4、n the detection module,which enables the classifier to have high accuracy in the initial stage;and further proposed a method for selecting data to be manually annotated,effectively reducing the amount of data to be manually annotated.The experimental results show that the proposed method is effectiv

5、e and efficient in cleaning erroneous data.Key wordsdata cleaning,human_in_loop,iteration,mini-batch gradient descentLIU Yida,DING Xiaoou,WANG Hongzhi,YANG DonghuaSchool of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China刘一达,丁小欧,王宏志,杨东华哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨 1500

6、01BIG DATA RESEARCH 大数据600 引言随着数据采集技术的不断进步,数据集的规模飞速上涨,针对数据的处理成为不同程序中一个重要的任务。数据由不同的传感器产生,这些数据总量庞大。但是数据量的庞大以及数据来源的复杂也导致出现错误数据的概率增加,因为数据之间存在关联关系,这种关联性会导致新的错误类型产生1。为了解决这些错误数据引发的问题,如果直接删除错误的数据会破坏数据之间关系的完整性,降低数据的价值。因此不仅需要对错误数据进行检测,更需要采取方法将其清洗为干净的数据。数据的复杂性和不确定性使自动化修复算法很难以100%的置信度和准确率修复错误数据。以领域专家和用户为代表的人工参与

7、方法是通用数据清洗和持续数据清洗的重要部分2-4。近年来,范举等人5提出了人在回路的数据准备概念,归纳了在数据提取、标注、集成、清洗等数据准备过程6中的人工参与方法和人工任务。相比于自动化修复算法,人工修复具有修复准确率高、可靠性强,且对特定领域的数据修复效果好的优势7,但同时也具有修复成本高的问题8。因此,如何在提高数据清洗效果的同时减少人工标注的成本,是数据清洗中面临的主要挑战。本文的研究着重于通过人机结合进行迭代式的数据清洗。本文的贡献主要在于以下3个方面。本文提出了人工参与的迭代式清洗算法(iterative data cleaning of human-computer intera

8、ction,IDCHI)。本方法结合人工参与以及迭代式的方法,利用规则依赖将数据集分为符合规则的数据以及低质量数据,并对低质量数据进行迭代式的人工修复,实现了较高的清洗效果。本文提出了一种针对人工标注阶段数据的挑选方法。本文通过优化分类器模型和计算违反分数的方式,将针对单一维度内错误数据的违反分数计算、针对单一数据同一维度综合的违反分数计算、针对不同数据不同维度之间错误数据的违反分数计算这3种不同的违反分数结合,提高了违反分数的代表性,让违反分数较高的数据更可能成为错误数据,提高了挑选参与人工标注的错误数据的准确度,使数据可以通过较少的人工标注工作量得到较高的准确率。本文在数据集上展开了大量的

9、测试。人工参与的迭代式数据清洗方法可以通过较少的样本规模实现较高质量的错误检测任务,可以显著地减少达到一定准确度的数据清洗所需要的标注数量,进而减少人工标注的负担。1 数据清洗工作的研究现状目前,国内外对于时间序列上错误数据的研究往往集中于基于数据统计特征进行数据清洗的方法和基于规则依赖等先验知识进行数据清洗的方法。1.1 基于统计特征的数据清洗方法基于统计特征的数据清洗方法通常根据目前已知序列的分布,通过计算数据本身的统计量和统计指 标,使用聚类等方法将具有接近相似系数的数据进行聚类,从而对错误数据进行清洗9-12。2016年Krishnan等人13提出的ActiveClean算法通过判断数

10、据在对应模型中成为劣质数据的可能性来挑选要清洗的数据样本。近年来有学者提出了使用自动编码器14的深度学习方法。该方案将数据转换到低维空2023048-261TOPIC 专题间,并通过解码器进行重构,提取出数据中的特征,正确的数据将会得到较好的重构,而错误数据的重构将会出现问题。Le等人15通过计算数据的违反分数,结合逆最近邻(INN)算法,计算数据的幅值分数、相关分数和方差分数3类违反分数,进行决策树的构建,并最终利用决策树上的相关系数进行聚类,根据聚类结果通过人工修复来进行数据清洗。1.2 基于规则依赖的数据清洗方法基于规则依赖的数据清洗方法通过现有先验知识或者其学习的方式从已清洗过的数据中

11、推断规则依赖的方式,减少人工参与的成本,通过这些规则依赖对其余数据进行一定的清洗16-18。Charfi等人19通过将数据分为时空上的不同粒度,对不同时空粒度的数据采用不同粒度的约束进行对应的处理,实现了较为精细的数据清洗。范举等人5提出了人在回路的数据准备概念,通过基于众包的数据准备技术结合大量众包工作者来提升计算能力,从而支持数据准备的基本任务,对清洗质量和清洗成本进行控制。相比于自动化修复算法,人工修复具有修复准确率高、可靠性强,且对特定领域的数据修复效果好的优势20,但同时有修复成本高的问题。2 研究问题介绍2.1 问题定义定义1:多元序列。对于输入的待清洗的原始数据,可以将其定义为多

12、元序列X=X1,X2,Xn,其中每个元组的特征集合为Xt=f1,f2,fn,每个f表示元组X的一个特征。同时定义多元序列Xt表示时间戳为t时,多元序列X上所有的数据集合。定义2:规则依赖。令R表示一个关系,它包含m个属性Attrs(R)=(A1,Am)表示R上的属性集合,Dom(A)表示一个给定属性A的域。令I表示关系R的一个实例,包含若干元组,各元组均属于域Dom(A1)Dom(Am)。令DomI(A)表示属性A的空间,它包括所有出现在实例I中的A属性值。假设I中的每个元组均有一个标识符,即使元组的其他属性都发生变更,该标识符也不会改变。令TIDs(A)表示在实例I中的所有元组的标识符的集合

13、。令tA表示元组t的一个单元,其中,AAttrs(R),tTIDs(I)。每一个单元tA由元组以及属性来确定。在R上定义一个函数依赖集合,包含多个函数依赖。对于两个属性集合X和Y,它们均属于Attrs(R)。基于实例I的一个函数依赖,XY被表示为IXY。换言之,对于实例I中的任意两个元组t1和t2,如果t1X=t2X成立,则t1Y=t2Y必然成立。令表示基于关系R的函数依赖集合。本文假设是正则最小化的。每个函数依赖均可以被描述为如下的形式:XA。其中,XAttrs(R),且AAttrs(R)。定义3:错误数据。假设正确的序列为Xtrue,得到的原始数据中的序列为Xnormal。如果Xtrue=

14、Xnormal,那么就可以称这个数据点为正确的数据点,如果Xtrue!=Xnormal,那么就可以称这个数据点为一个错误数据。结合规则依赖的数据清洗指基于给定的规则依赖集合对劣质数据集进行清洗,将检测出其中的错误数据,并将其通过人工或者自动化的方式进行修复。2.2 方法框架本文的方法通过计算违反分数的方法对数据进行计算,从中找出违反分数较2023048-3BIG DATA RESEARCH 大数据62高的数据。如图1所示,首先针对原始数据集,基于现有的规则依赖对数据进行初步检测,将原始数据集分为违反规则的数据和符合规则的数据,其中符合规则的数据会对接下来的分类器模型进行初始化,之后这两部分数据

15、集共同组成劣质数据集。接下来通过更新后的分类器对劣质数据集进行违反分数的计算,从中挑选出高违反分数的错误数据,在人工修复部分对错误数据进行修复,再将这些修复过后的数据集传给分类器,对分类器模型进行更新,修复后的数据构成干净数据。反复迭代以上步骤,就可以提高训练模型的精度。3 人工参与的迭代式数据清洗3.1 检测模块数据清洗的第一步就是基于现有的规则依赖对原始数据集进行检测,并对原始数据集进行分类,将原始数据集X分为违反规则的数据Xvio和符合规则的数据Xacc,其中符合规则的数据Xaxx将对分类器进行初始化,违反规则的数据Xvio和符合规则的数据Xacc这两部分数据都会组成劣质数据集,并在之后

16、的迭代中使用。虚构数据举例见表1。假设存在规则依赖:学号姓名,年龄,专业。即在确定学号的基础上就能确定对应的姓名、年龄和专业。但是表1中第1行数据和第3行数据在学号相同的情况下专业不同,因此第1行数据和第3行数据就是违反规则的数据。3.2 分类器的更新与数据的自动修复本文方法中的分类器输出对劣质数据的预测值,该预测值可作为下一步计算违反分数的基础。在本文中,采用小批量梯度下降的方法作为分类器的模型。本方法中的分类器主要分为两步:初始化步骤中根据符合规则的数据Xacc对分类器进行初始化;在每一轮迭代中对劣质数据集Xdir进行预测,预测值作为下一步违反分数的计算基础。图 1人工参与的迭代式数据清洗

17、2023048-463TOPIC 专题在对分类器的初始化步骤中,将原始数据集X分为违反规则的数据Xvio和符合规则的数据Xacc,采用符合规则的数据Xacc对分类器模型进行更新,之后将违反规则的数据Xvio作为劣质数据集Xdir,得到劣质数据集作为以后的待清洗数据。对于每一个劣质数据,需要计算其所有维度的综合梯度,并计算这些劣质数据的平均梯度,利用劣质数据点的平均梯度对小批量梯度下降模型的系数进行初始化。在每一轮迭代过程中,采用被人工修复后的数据Xrep对分类器进行更新。具体到本方法中,在小批量梯度下降算法的更新中,每轮迭代采用固定数量的数据进行更新,对每轮更新列表中的数据逐行进行梯度计算,利

18、用更新数据点的平均梯度对小批量梯度下降模型的系数进行更新。然后对未标注数据进行筛选,已经清洗过的数据不需要再次筛选和清洗,最后得到待清洗数据。算法1:分类器的更新输入:传入的系数、数据集x、数据集结果y、迭代最大轮数n_epochs输出:更新后的参数(1)初始化更新序列(2)for epoch in n_epochs do(3)for 遍历更新序列中元组 do(4)计算在该元组时的梯度(5)计算所有更新序列的梯度之和(6)end(7)通过梯度和计算平均梯度(8)更新模型的系数=更新模型的系数学习率*平均梯度(9)筛选下一轮的更新序列(10)对筛选出的序列进行人工修复(11)end在如上所示算法

19、中,首先需要在第一轮对分类器模型涉及的更新数据元组进行初始化,从中挑选出需要更新的元组。之后进行n_epochs轮迭代,每一轮中,首先计算更新序列中的元组所处位置的平均梯度,之后通过平均梯度计算更新模型的系数,并筛选下一轮的更新序列;对这些更新序列进行人工修复,之后开始下一轮的迭代。3.3 挑选数据模块为了挑选参与人工修复的错误数据,需要计算数据点对应的违反分数Score。在这一步要从数据点中找出违反分数较高的数据进行人工修复,需要利用小批量梯度下降模型中对数据的预测值。对数据违反分数的计算分为3类,分别是对单一维度内数据错误的违反分数Scoresin、对单一 数 据不同维度 综 合的违 反分

20、 数Scoresinmul以及不同数据不同维度之间结合比值法的违反分数Scoremul的计算。之后,对这3种违反分数进行求和,求取违反分数Score=Scoresin+Scoresinmul+Scoremul。之后将数据按照违反分数Score从大到小排序,从中挑选违反分数较高的数据进行人工修复。(1)对单一维度内错误数据的违反分数Scoresin进行计算单一维度的违反分数主要考察其值与平均值的差。对于单一维度的计算,需要计算其最大值Xmax、最小值Xmin,以及此维度所有数据的平均值Xavg,违反分数为|X-Xavg|/|Xmax-Xmin|。例如,对于给定的数据表 1虚构数据举例学号姓名年龄

21、专业22780974潘达23计算机22781074黄天22计算机22780974潘达23数据科学22798774谢凡24生物2023048-5BIG DATA RESEARCH 大数据64(5,3,2,3,2),这5个数字的最大值为5,最小值为2,平均值为3,因此对其中的每一个数据,可以计算它的比值,5个数据的单一维度的违反分数为2 0 1 0 1,3 3 3 3 3。(2)对单一数据不同维度综合的违反分数Scoresinmul进行计算对违反分数计算方法进行判断,将得到的数据初始值与它的预测值进行比较,差距越大,就说明这个数据的违反分数越低。对于一个数据X以及它的预测值Xpredict,可以定

22、义这个违反分数为:predictabs()1abs()1XXX+(1)(3)对不同数据不同维度之间的违反分数Scoremul进行计算对于多维度的错误数据,通过同一元组的不同数据的比值是否超出范围来判定数据是不是错误数据。对于一个数据、它的预测值Xpredict、在规则中存在的相关关系的数据X以及它的预测值Xpredict,可以按照比值predictpredictXX进行排序,如果该关系中含有多个比值需要判断,那可以于违反规则的数据的Scoremul求平均值并作为违反分数。3.4 人工修复与更新在数据修复步骤中,对于现有的约束X,ZY,即数据X在满足规则Z的情况下必然存在数据Y的形式,笔者对两种

23、修复情况进行讨论。(1)对Y进行修复更改右侧属性Y,使Y符合约束。但是,如果存在多条约束X1,Z1Y、X2,Z2Y涉及数据Y,且对数据Y提出了不同的要求,就会对传统的自动化清洗造成一定的困难,需要人工修复对数据Y给出正确的修复值。(2)对于X进行修复通常来说,本方法假定在依赖中涉及的X数据都是正确的,但如果X,Z1Y1、X,Z2Y2这两个涉及数据X的依赖都被违反,就需要考虑可能需要对X进行人工修复。在修复阶段中,对于需要修复的数据X1,需要进行人工修复并传回结果。在人工修复步骤中,传入的数据为劣质数据Xdir,Xdir通常是一段或者几段时间内连续的数据。人工修复既需要指出这段数据是否错误,也要

24、返回正确的结果Xtrue。人工修复的结果传入分类器模型中,利用小批量梯度下降方法来更新模型。4 实验分析4.1 实验设定(1)数据集本节采用引风机数据集进行实验,该数据集共有2 087条数据,能够真实反映引风机组的运行变化过程。本文涉及的实验运行在Intel(R)Core(TM)i5-1035G1 CPU 1.00GHz 1.19 GHz的CPU和16 GB内存的PC上。(2)对比算法本文的实验目标是验证前文所述的人工参与的迭代式清洗算法的性能,选择ActiveClean算法作为基准算法,进行性能对比实验。ActiveClean算法13是一种渐进式清理方法,其中模型是增量更新的,而不是重新训练

25、的,其通过构建一定的挑选模型来优先清理那些可能影响结果的记录。(3)度量标准本文的实验任务是进行二分类问题,2023048-665TOPIC 专题即对正确数据与错误数据进行分类,正例(positive)为正常数据、反例(negative)为错误数据,可以将数据分为4类。TP(true positive):实际为正常数据、算法结果为正常数据的数据。FP(false positive):实际为错误数据、算法结果为正常数据的数据。TN(true negative):实际为正常数据、算法结果为错误数据的数据。FN(false negative):实际为错误数据、算法结果为错误数据的数据。之后,本文通过

26、准确率(P)与召回率(R)来衡量算法性能:P=TPTPFP+(2)R=TPTPFN+(3)在测试阶段,本文的时间轴为模型迭代的轮数,将预测的准确率与召回率作为评价指标。本文在训练中将数据分为训练集和测试集,其中前80%是训练集,后20%是测试集。每轮选取10组数据进行标注。4.2 方法有效性计算本文分别测试序列维数总数、错误数据总数和训练集规模对上述2种算法检测性能的影响。(1)序列维数总数在针对序列维数总数部分对训练方法性能的测试中,本文采用37个维度分别对两种方法进行测试,对比本文方法和基准方法之间的准确率差别。从图2可以看出,在序列维数较少的情况下,IDCHI算法的准确率和召回率明显高于

27、ActiveClean算法,在序列维数增加至5维左右时,由于数据维度增高后数据中含有的信息增加,因此主动学习部分针对数据信息的提取优势减小,两者的召回率和准确率接近。总体来说,IDCHI算法的准确率和召回率普遍高于ActiveClean算法,说明IDCHI算法可以高效地完成数据清洗任务。(2)错误数据比例在针对错误数据比例对训练方法性能的测试中,本文采用0.1、0.12、0.14、0.16、0.18、0.2 6个不同比例的错误数据的训练集分别对两种方法进行测试,对比本文方法和基准方法之间的准确率差别。从图3可以看出,随着错误数据比例的增加,两者的准确率和召回率都出现了不同程度的下滑,说明随着错

28、误数据比例的增大,对错误数据的判断难度也加大。两者相比,IDCHI算法保持着相对较高的准确率,说明IDCHI算法能在复杂数据的情况下完成数据清洗任务。图 2序列维数对于性能的影响2023048-7图 3错误数据比例对于性能的影响BIG DATA RESEARCH 大数据66(3)训练集的规模在针对训练集规模对训练方法性能的测试中,本文采用100、150、200、250个数据组作为训练集分别对两种方法进行测试,对比本文方法和基准方法之间的准确率差别。从图4可以看出,在准确率和召回率两个指标上,IDCHI算法都显著好于ActiveClean算法。在训练集规模较少的情况下,IDCHI算法的召回率和准

29、确率显著优于ActiveClean算法,但是在训练集规模增大的情况下,主动学习在少量训练集上的优势下降,ActiveClean算法的准确率和IDCHI算法接近,例如200和250规模的训练集情况下,IDCHI算法和ActiveClean算法的准确率和召回率接近。实验结果说明,本文提出的IDCHI算法可以通过较少的样本规模完成较高质量的错误数据清洗任务。5 结束语本文提出了一种结合了人工参与的迭代式数据清洗方法。该方法结合了人工以及规则依赖,通过检测模块迭代式地对分类器进行更新,提高了训练模型的精度。对比实验证明了该方法的准确性高于现有方法,能够在较少数据样本的情况下得到高质量的数据修复结果,其

30、不仅能通过较少的数据样本完成数据清洗任务,而且能在复杂数据的情况下高效地对数据进行清洗。参考文献:1 LIANG Z,WANG H Z,DING X O,et al.Industrial time series determinative anomaly detection based on constraint hypergraphJ.Knowledge-Based Systems,2021,233:107548.2 BERGMAN M,MILO T,NOVGORODOV S,et al.Query-oriented data cleaning with oraclesC/Proceedin

31、gs of the 2015 ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2015:1199-1214.3 SIDDIQUI T,KIM A,LEE J,et al.Effortle s s dat a ex ploration w ith zenvisage:an expressive and interactive visual analytics systemJ.arXiv preprint,2016,arXiv:1604.03583.4 SHOU C L,SHUKLA A.Ar

32、achnid:generalized visual data cleaningC/Proceedings of the 2019 International C o n f e r e n c e o n M a n a g e m e n t o f Data.New York:ACM Press,2019:1850-1852.5 范举,陈跃国,杜小勇.人在回路的数据准备技术研究进展J.大数据,2019,5(6):1-18.FAN J,CHEN Y G,DU X Y.Progress on human-in-the-loop data preparationJ.Big Data Resear

33、ch,2019,5(6):1-18.6 QIN X D,LUO Y Y,TANG N,et al.Making data visualization more efficient and effective:a surveyJ.The VLDB Journal,2020,29(1):93-117.7 DING X O,LIU Y D,WANG H Z,et al.SNN-AAD:active anomaly detection method for multivariate time series with 图 4训练集规模对于性能的影响2023048-867TOPIC 专题sparse ne

34、ural networkC/International Conference on Database Systems for Advanced Applications.Cham:Springer,2023:253-269.8 SATYANARAYAN A,MORITZ D,WONGSUPHASAWAT K,et al.Vega-lite:a grammar of interactive graphicsJ.IEEE Transactions on Visualization and Computer Graphics,2017,23(1):341-350.9 HEER J,AGRAWALA

35、M,WILLETT W.Generalized selection via interactive query relaxationC/Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.New York:ACM Press,2008:959-968.10 ABEDJAN Z,CHU X,DENG D,et al.Detecting data errorsJ.Proceedings of the VLDB Endowment,2016,9(12):993-1004.11 HANRAHAN P.Vi

36、zQL:a language for query,analysis and visualizationC/Proceedings of the 2006 ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2006:721.12 DING X O,SONG Y C,WANG H Z,et al.Cleanits-MEDetect:multiple errors detection for time series data in cleanitsC/International Conferenc

37、e on Database Systems for Advanced Applications.Cham:Springer,2023:674-678.13 KRISHNAN S,WANG J N,WU E,et al.ActiveCleanJ.Proceedings of the VLDB Endowment,2016,9(12):948-959.14 BEYGELZIMER A,DASGUPTA S,LANGFORD J.Importance weighted active learningC/Proceedings of the 26th Annual International Conf

38、erence on Machine Learning.New York:ACM Press,2009:49-56.15 LE K H,PAPOTTI P.User-driven error detection for time series with eventsC/Proceedings of 2020 IEEE 36th International Conference on Data Engineering(ICDE).Piscataway:IEEE Press,2020:745-757.16 YAKOUT M,ELMAGARMID A K,NEVILLE J,et al.Guided

39、data repairJ.arXiv preprint,2011,arXiv:1103.3103.17 B O S T O C K M,O G I E V E T S K Y V,HEER J.D3 data-driven documentsJ.IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2301-2309.18 XIAO H,BIGGIO B,BROWN G,et al.Is feature selection secure against training data poisoning?C/Pro

40、ceedings of the 32nd International Conference on International Conference on Machine Learning.New York:ACM Press,2015:1689-1698.19 CHARFI M,GRIPAY Y,PETIT J M.Spatio-temporal functional dependencies for sensor data streamsC/International Symposium on Spatial and Temporal Databases.Cham:Springer,2017

41、:182-199.20 LUO Y Y,CHAI C L,QIN X D,et al.VisCleanJ.Proceedings of the VLDB Endowment,2020,13(12):2821-2824.2023048-9刘一达(2000-),男,哈尔滨工业大学计算机科学与技术学院博士生,主要研究方向为数据清洗、数据依赖松弛方向。作者简介BIG DATA RESEARCH 大数据68收稿日期:2023-02-28通信作者:杨东华,基金项目:国家重点研发计划资助项目(No.2021YFB3300502);国家自然科学基金资助项目(No.62202126,No.62232005);中

42、国博士后科学基金项目(No.2022M720957);黑龙江省博士后面上资助项目(No.LBH-Z21137)Foundation Items:The National Key Research and Development Program of China(No.2021YFB3300502),The National Natural Science Foundation of China(No.62202126,No.62232005),China Postdoctoral Science Foundation(No.2022M720957),Heilongjiang Postdocto

43、ral Financial Assistance(No.LBH-Z21137)丁小欧(1993-),女,博士,哈尔滨工业大学计算机科学与技术学院助理教授,主要研究方向为数据清理、时间数据质量管理、时间数据挖掘、工业数据清理和多元时间序列数据中的异常行为挖掘。在数据库领域的国际会议和期刊上发表14篇学术论文。王宏志(1978-),男,博士,哈尔滨工业大学计算机科学与技术学院教授、博士生导师,主要研究方向为大数据管理、数据质量、图形数据管理和Web数据管理,发表论文100多篇。杨东华(1976-),男,哈尔滨工业大学计算机科学与技术学院副教授、博士生导师,主要研究方向为数据库、大数据管理与分析等,发表论文30余篇,SCI/EI检索30余次。主持国家自然科学基金面上项目2项、青年项目1项,以主要成员参与国家重点基础研究发展计划项目1项、国家重点研发项目1项、国家自然科学基金重点项目1项。主持中国博士后科学基金、黑龙江省博士后科学基金、黑龙江省自然科学基金等项目5项。2023048-10

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服