资源描述
Click to edit Master text styles,Second level,Third level,*,IBM Confidential,*,Click to edit Master title style,1,时代背景:新一代人工智能发展规划的提出,为抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国,日前国务院印发,新一代人工智能发展规划,。,-2017.7.8,规划,指出:立足国家发展全局,准确把握全球人工智能发展态势,找准突破口和主攻方向,全面增强科技创新基础能力,全面拓展重点领域应用深度广度,全面提升经济社会发展和国防应用智能化水平。,2,AlphaGo,到底有多厉害?,2011,年,北京邮电大学的,Lingo,围棋程序在,9,*,9,棋盘上以受让两子的条件,首次击败了中国围棋教练职业围棋,9,段俞斌和先生。那时,谁也没有想到仅仅,5,年之后,,AlphaGo,围棋程序就在,19*19,棋盘上无条件战胜了人类棋王。,研制,AlphaGo,的团队,DeepMind,正在投入,AlphaSC,的研发,未来将于人类顶尖高手在星际争霸游戏中一较高下。,3,AlphaGo,怎么做到的?,AlphaGo,使用两种不同的深度神经网络:第一种是策略网络,目标是选择在哪里落子。第二种则是价值网络,价值网络的作用是衡量走这一步对最终输赢的影响。,AlphaGo,成功的关键在于,:,海量对弈数据,:,6000,万局对弈数据。,算法创新,:深度神经网络,+,“,左右手互搏,”,。,计算能力出众,:打败李世石的,AlphaGo Lee,的芯片为,50 TPU,搜索速度为,10k,位置,/,秒。,人类专家位置,监督式学习,强化学习,4,AlphaGo,绝非一帆风顺,3,月,13,日李世石九段,“神之一手”,“AlphaGo,远非人工智能的终点。”微软研究院著名机器学习专家,John Langford,批评了,Wired,和,Slashdot,等媒体对于“实现人工智能”夸大其词的相关报道。,Langford,认为这些进展本是好事,但报道的时候产生了偏差,这容易导致失望和人工智能寒冬。,John Langford,国际机器学习大会,ICML2016,程序主席,“AlphaGo,以为自己做的很好,但在,87,手迷惑了,有麻烦了,”,“,错误在第,79,手,但,AlphaGo,到第,87,手才发觉,”,5,从,AlphaGo,到,AlphaGo Master,60-0 vs,顶级专业人士(在线游戏),等级分,专业级,业余级,入门级,2017,年,7,月,9,日,柯洁携,20,连胜,等级分冲至,3675,分,世界排名第一。,6,震撼之后的思考,什么是人工智能?为什么那么厉害?,AlphaGo,未来有没有可能被人类打败?,人工智能技术未来有没有可能取代人类?为什么?,人工智能可以帮助人类完成哪些事情?,人工智能已经出现在哪些领域,今后还会出现在哪些领域?,大数据时代的人工智能,8,内容提纲,人工智能基本概念与发展历史,人工智能与大数据,人工智能在气象领域的应用案例,人工智能在环保领域的应用案例,人工智能在网络安全领域的应用案例,人工智能面临的机遇与挑战,总结与展望,9,内容提纲,人工智能基本概念与发展历史,人工智能与大数据,人工智能在气象领域的应用案例,人工智能在环保领域的应用案例,人工智能在网络安全领域的应用案例,人工智能面临的机遇与挑战,总结与展望,10,什么是智能,智力或知能,是指生物一般性的精神能力。这个能力包括以下几点:,理解,、,计划,、,解决问题,,,抽象,思维,,表达意念,以及,语言,和,学习,的能力。,智力三因素理论,(Robert Sternberg),成分性智力,(componential intelligence),指思维和问题解决所依赖的心理过程。,经验智力,(experiential intelligence),指人们在两种极端情况下处理问题的能力:新异的或常规的问题。,情境智力,(contextual intelligence),反映,在对日常事物的处理上,它包括对新的和不同环境的适应,选择合适的环境以及有效地改变环境以适应你的需要。,Robert Sternberg,(,1949-,)是美国心理学家和心理测量学家。他是康奈尔大学人类发展教授。,11,什么是人工智能,人工智能,(,Artificial Intelligence,AI,),也称作机器智能,是指由人工制造出来的系统所表现出来的智能。通常人工智能是指通过普通计算机实现的智能。,人工智能研究,研究内容:包括,认知建模,、,知识学习,、,推理及应用,、,机器感知,、,机器思维,、,机器学习,、,机器行为,和,智能系统,等。,研究动机:包括,推理,,,知识,,,规划,,,学习,,,交流,,,感知,,,移动和操作物体,的能力等。,基础知识:包括搜索和数学优化,逻辑,基于概率论和经济学的方法等。,应用系统:目前有大量的人工智能应用系统,如,AlphaGo,Siri,等。,12,人工智能的三大发展要素,基础理论引入,相关学科交叉,多领域应用,机器学习,数据挖掘,人工智能,数学,统计学,认知科学,神经科学,控制论,13,人工智能发展历程中的里程碑,(1)-,图灵测试,图灵测试,(1950),一个人,(C),询问两个他看不见的对象(机器,A,和正常思维的人,B,)。如果经过若干询问后,,C,无法区分,A,与,B,,则,A,通过图灵测试。,聊天机器人,Eugene,Goostman(2014),在,5,分钟内试图欺骗,30%,的人。,图灵测试额外加分项:,说服测试者,令他认为自己是电脑。,你知道吗,你说的这些话真的很有道理。,我,我已经不知道自己究竟是谁了。,14,人工智能发展历程中的里程碑,(2)-,深蓝,vs,卡斯帕罗夫,1997,年,,IBM,研制的超级电脑,“,深蓝,”,在标准比赛时限内以,3.5,比,2.5,的累计积分击败了国际象棋世界冠军卡斯帕罗夫,震惊世界。,“,深蓝,”,的设计者许峰雄曾表示,一般的国际象棋手能想到后,7,步就很不错了,但,“,深蓝,”,能想到,12,步,甚至,40,步远,棋手当然不是计算机的对手。,插曲:卡斯帕罗夫在落败后曾称无法理解电脑下棋时做出的决定。他亦认为电脑在棋局中可能得到人类帮助并要求重赛,但,IBM,拒绝。,思考:深蓝靠什么打败了卡斯帕罗夫?深蓝能否击败李世石?为什么?,15,人工智能发展历程中的里程碑,(3)-Waston,与人机大战,2011,年,2,月,16,日,在美国智力竞猜节目,危险边缘,第三场比赛中,,IBM,另一超级电脑,“,沃森,”,以三倍的巨大分数优势力压该竞猜节目有史以来最强的两位选手肯,詹宁斯和布拉德,鲁特,夺得这场人机大战的冠军。,“,沃森,”,在比赛中没有连接互联网,其数据库中包括辞海和,世界图书百科全书,等数百万份资料,强大的硬件则助力其能在,3,秒钟之内检索数亿页的材料并给出答案。,思考:就面临的挑战来说,,“,沃森,”,相比深蓝有哪些不同?,“,沃森,”,的特点是什么?,“,沃森,”,有可能胜任,AlphaGo,的工作吗?,16,人工智能发展历程中的里程碑,(4)-,图像识别领域机器首次超越人类,2015,年的,ImageNet,挑战赛,在图像识别准确率上,机器的表现首次超过了人类。这被公认为是一个里程碑式的突破。,在此之前,,2010,年算法的图像识别错误率至少在,25%,左右,但到,2015,年,计算机图像识别错误率已经低于人类(人类水平大概是,4%,左右)。,2015,年是,0.03567,,也就是,3.5%,。,2016,年,,ImageNet,竞赛,图像识别错误率进一步下降,最好成绩为:平均错误率,0.02991,,也就是,2.99%,左右。,思考,:,这一次的人工智能突破和前几次相比有何不同,?,17,人工智能发展(简史),混沌初生 开天辟地,百家争鸣 百花齐放,物竞天择 适者生存,达特茅斯会议的召开标志着人工智能的诞生。(,1956,年),图灵测试的提出标志人工智能进入萌芽阶段。,以,DENDRAL,系统为代表的专家系统大量涌现。,(,19701980,),浅层机器学习模型兴起,,SVM,、,LR,、,Boosting,算法等纷纷面世。(,19902000,),多伦多大学教授,Hinton,开启深度学习在学术界和工业界的浪潮,(,2006,),人工智能出现新的研究高潮,机器开始通过视频学习识别人和事物,,AlphaGo,战胜围棋冠军(,2011,今),随着新的算法和模型不断涌现,学科交叉现象日趋明显,人工智能的研究进入了新的阶段。,奠定了人工智能的数学基础,出现了人工智能历史上的第一个应用。,-,西蒙和纽厄尔提出了,“,Logic Theorist,”,自动定理证明系统。,大数据时代的到来给人工智能的发展带来契机,人工智能全面融入人们的社会生活。,18,人工智能发展的真实历史过程(波浪式前进),最近一次的人工智能热潮兴起,是由于大数据时代使得数据需求得到了满足。,达特茅斯会议标志,AI,的诞生,自然语言,探索式推理,微世界,第一款神经网络,感知机,将人工智能推向,第一个高峰,人工智能计算机,DARPA,无条件拨款,放弃联结主义,计算能力突破没能使机器完成大规模数据训练和复杂任务,,AI,进入,第一个低谷,DARPA,停止拨款,集成电路技术提高,反向传播算法提出,霍普菲尔德神经网络被提出,DARPA,受到认可重获拨款,反向传播算法获得广泛关注,,AI,进入,第二黄金时期,循环神经网络,狂热追捧带来失望,LISP,机市场的崩溃,DARPA,失败,政府投入缩减,,AI,跌入,第二次谷底,行为主义提出,非线性多层自适应网络,循环神经网络出现,IBM,深蓝战胜人类象棋冠军,深度卷积神经网络提出人工智能,加速发展,人脸识别率超过,99%,欧盟、美国脑工程计划,AlphaGo,挑战人类围棋冠军,计算能力,数据需求,下一个问题呢,启蒙阶段,低潮时期,复兴阶段,遇冷时期,快速发展,1955,2016,2005,1991,1986,1970,1958,19,内容提纲,人工智能基本概念与发展历史,人工智能与大数据,人工智能在气象领域的应用案例,人工智能在环保领域的应用案例,人工智能在网络安全领域的应用案例,人工智能面临的机遇与挑战,总结与展望,20,大数据是什么?,大数据(,Big Data,),:,是指,大小,超出了常用软件工具在,运行时间内,可以承受的收集、管理和处理数据能力的数据集。,大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的,相对概念,。,21,大数据真正价值不在于大数据本身,而在于数据内容的分析和洞察。,大数据时代的,5V,特点,22,大数据时代的要求,大数据规模大小是一个不断演化的指标,当前任务处理的单一的数据集,当前数据规模:从数十,TB,到十几,PB,级,处理大数据的可等待的合理时间依赖应用场景,地震数据预测要求在几分钟内才有效,气象数据应该在小时级别,失联飞机数据处理要在,7,天之内,数据挖掘一般要求在,12,小时内,大数据时代需要人工智能技术同时满足以上两个要求。,23,大数据时代需要什么样的人工智能?,能适应反映大数据分布的抽样方法,解剖麻雀,基于大数据分布的算法,庖丁解牛,追求高效并行的人工智能算法,曹冲称象,反映全量特征的人工智能算法,治大国如烹小鲜,24,大数据时代的人工智能技术不断涌现,互联网搜索,生物特征识别,汽车自动驾驶,智能机器人,选举结果预测,智能客服系统,25,人工智能的应用范围和领域不断拓展,人工智能应用,图像识别,语音识别,文字识别,其他信号识别,无人驾驶,人脸识别,场景感知,气象预报,文献筛选,污染预报,医学影像分析,虹膜识别,视频监控,计算机春联,手写数字识别,智能交通,智能客服,智能庭审记录,小米基因筛选,网络安全,计算机写诗,26,内容提纲,人工智能基本概念与发展历史,人工智能与大数据,人工智能在气象领域的应用案例,人工智能在环保领域的应用案例,人工智能在网络安全领域的应用案例,人工智能面临的机遇与挑战,总结与展望,人机交互层,基于人工智能技术的强对流天气聚焦与推演,方案目标:,聚焦:辅助决策。,从海量数据中聚焦关键特征和重点区域,辅助气象专家进行决策;,推演:协助研判。,提供智能推演,协助气象专家对未来,3,小时的天气形势进行研判。,方案特点:,采用人工智能技术,综合运用多种深度学习算法,半结构化与非结构化大数据处理技术,雷达反射图,核心模块,气象数据,展示效果,模型算法,多层神经,网络,Softmax,线性模型,卷积神经,网络(,CNN,),循环神经网络(,LSTM,),卫星云图,GRIB2,在分析预报场资料,关键特征识别,重点区域识别,时空特征学习,天气变化推演,未来,3,小时强对流天气模拟推演,关键特征和重点区域,2,维效果,展示层,系统层,模型层,数据层,辅助人工决策,提供智能推演,气象专家,最终气象预报结果,历史对流过程,标注数据,与传统方法的比较,拥有深度自学习能力。,认知计算无需先验知识,即可从海量历史数据中进行训练学习,并挖掘潜在的规律和模式。同时,认知计算能够根据每天产生的气象数据进行自动学习,自我调整以适应天气变化的最新情况。,拥有基于大数据的辅助决策能力。,能够充分利用气象历史数据。气象数据越多,收集时间越长,认知计算模型的分析结果越准确。,数据依赖程度低。,认知计算系统只需少量的观察和再分析数据即可完成分析和推演。,基于空气动力学进行数值计算。,传统数值方法主要依赖空气动力学公式对气象数据进行分析,计算开销高。,基于少量历史数据进行人工决策。,传统数值方法主要基于少量历史数据,进行人工外推。其历史气象数据未得到充分利用。,依赖专家经验。,传统数值方法依赖专家根据其掌握的经验进行分析和调整。,需要大量的物理变量组合分析。,传统数值方法很难处理物理变量缺失的情况。,传统数值方法,人工智能方法,强对流天气聚焦,700mb,高度垂直速度,地面能见度,,10,米风,,80,米风,地表温度,历史对流天气标注结果,输入参数,关键特征识别,重点区域可视化,子系统的构成:,气象图片资料的自动解析,多层神经网络模型,Softmax,线性模型,特征预测效果评估模块,多特征自动排序模块,重点区域可视化模块,子系统的特点:,支持,43+,种气象图片的自动分析,综合运用领先的深度学习技术,支持端到端的关键特征识别和排序,支持基于计算机视觉技术的重点区域可视化,气象图片资料,历史对流天气标注集,多层神经网络模型,单特征预测效果评估,训练数据,验证数据,多特征自动排序,气象图片资料,历史对流天气标注集,Softmax,线性模型,格网不同位置权重解析,重点区域可视化,待分析特征,注,:,深度学习的结果只能揭示区域和预测目标的相关性,但不能解释区域和预测目标的因果关系。,关键,技术,1-,关键特征识别与排序,候选气象特征(,43,个),地面对流有效位能,2,米露点温度,可降水相对湿度,入射短波辐射,地面对流抑制,2,米相对湿度,700mb,高度温度,行星边界层高度,混合对流有效位能,累计降水,700mb,高度垂直速度,雪水当量,最不稳定对流有效位能,降水类型,500mb,高度温度,1,小时降雪,最不稳定层对流有效位能,可降水,500mb,高度涡度,雪深,10,米风,航空飞行规则,250mb,高度风场,2,米位温,80,米风,925mb,高度温度,250mb,高度风速,850mb,高度相对湿度,地面能见度,850mb,高度温度,云顶高度,高层云量,地表温度,850mb,高度风场,云底高度,低层云量,2,米温度,850mb,高度风速,总云量,中层云量,模拟雷达反射率,2,米温度,-,地表温度,850-500mb,平均相对湿度,高,低,6-10,月历史对流天气标注集,针对,2016,年,6,月,-10,月间,48,个对流天气过程,根据其中,43,个候选气象特征,收集,10w+,张图片。,针对每个候选特征,应用深度学习中的多层神经网络模型对其预测对流天气过程的能力进行评估。,根据评估结果,对不同特征按照预测效果进行排序。,关键特征的识别与排序旨在从海量数据中提炼有效特征,协助气象专家提升对流天气过程的预报准确率。,输入层,输出层,隐层,I,隐层,II,隐层,III,误差反向传播,信息正向传播,31,重点区域,针对待分析特征,按照发生对流过程的类型,对图片进行分别标注。,关键,技术,2-,重点区域识别,根据对流过程的类型,应用,softmax,线性模型对不同位置网格点(,RGB,取值)的重要性,(,权重,),进行评估,进而识别出不同类型天气的重点区域,如右图所示。,31,网格点权重可视化。,示例,250mb,高度风场,(,b,)待分析图片,重点区域可视化旨在从海量地理气象数据中快速发现重要区域,辅助气象专家提升对流天气过程的预报精度。,如上图所示,通过比较待分析图片和标准模板,可以计算对应区域的偏差。,通过对偏差的分析比较,可以准确地识别出待分析图片未来,1-3h,内可能发生的天气过程的类型。,(,a,)无对流过程标准模板,无对流过程,台风过程,大尺度天气系统降水过程,局地对流天气过程,32,重点区域识别结果验证,(示例:,250mb,高度风场),局地对流天气,2016,年,10,月,04,日,14:00,17:00,偏差,0.03,0.41,0.21,0.09,偏差,0.03,0.33,0.19,0.11,偏差,0.05,0.21,0.07,0.14,偏差,0.01,0.01,0.1,0.12,重点区域,无对流过程,台风过程,大尺度天气系统降水过程,局地对流天气过程,根据重点区域的分析结果,可以分析出未来出现不同天气类型的概率。,结果验证:,系统为预报员提供无对流天气过程模板和重点区域具体位置。预报员可以通过比较重点区域的偏差情况,分析未来,0-3h,出现的天气类型。,2016,年,10,月,04,日,14:00,2016,年,10,月,04,日,15:00,2016,年,10,月,04,日,16:00,2016,年,10,月,04,日,17:00,强对流天气推演,强对流天气推演,子系统的构成:,卫星云图和雷达反射图的自动解析,卷积神经网络模型,循环神经网络模型,多层网络的深度学习模型,支持未来天气的自动推演模块,系统特点:,通过海量历史数据训练模型,时空特征认知,空间特征:卷积神经网络(,CNN,),时序特征:循环神经网络(,LSTM,),利用深度学习优化模型,历史卫星云图,雷达反射图,卷积神经网络层(空间特征提取),多层网络连接,数据集,未来天气自动推演,循环神经网络层(时间特征提取),时空特征学习,深度学习优化,输出结果,无监督学习,实时卫星云图,雷达反射图,34,关键技术,3-,基于多层卷积的时空特征学习,技术路线,1.,通过卷积神经网络(,CNN,)提取空间特征:在每一层神经网络中,空间数据做卷积等操作,并通过误差反向传播学习卷积核,2.,通过循环神经网络(,LSTM,)提取时间特征:循环利用卷积神经网络学习天气变化的规律,3.,采用多层卷积层,并循环利用参数空间进行建模,优化后的模型可以很好的掌握天气在空间和时间上的变化规律,1.,卷积神经网络层:通过卷积学习天气的空间特征,天气序列输入,天气序列输出,3.,多层网络连接,2.,循环神经网络层:通过循环层学习天气变化的时间特征,35,示例:强对流天气推演,-,雷达反射图,(示例一),观测序列,2016,年,8,月,1,日,00:0004:00,实际发生,2016,年,8,月,1,日,05:0007:00,天气推演,2016,年,8,月,1,日,05:0007:00,利用模型推演未来,3,个小时的天气变化,模型推演到了台风登陆的位置和时间,模型推演到了台风移动的方向和旋转,36,示例:强对流天气推演,-,雷达反射图,(示例一),实时天气,2016,年,8,月,1,日,04:00,3,小时后天气,2016,年,8,月,1,日,07:00,3,小时后天气推演,2016,年,8,月,1,日,07:00,模型可以推演出左上角逐渐消散的过程,模型可以推演出左下角的从无到有,模型可以推演出右下角台风中心的移动和旋转,利用模型推演未来,3,个小时的天气变化,推演到了台风登陆的位置和时间,37,示例:强对流天气推演,-,卫星云图,(示例二),实时天气,2016,年,8,月,3,日,04:00,3,小时后天气,2016,年,8,月,3,日,07:00,3,小时后天气推演,2016,年,8,月,3,日,07:00,模型可以推演出左上角的从无到有,模型可以推演出右下角的移动,推演出中心的消散,利用模型推演未来,3,个小时的天气变化,推演出右上角向下方移动,38,内容提纲,人工智能基本概念与发展历史,人工智能与大数据,人工智能在气象领域的应用案例,人工智能在环保领域的应用案例,人工智能在网络安全领域的应用案例,人工智能面临的机遇与挑战,总结与展望,业务需求:需要利用大数据分析人工智能等技术,以数据驱动业务,以分析支持科研,业务需求,许多小的功能由于结合不同时期的需求自主开发,较为零散,导致操作分散,需要整合多维度数据辅助人工数据审核,人工生成报表,查询指定时间、指定维度数据困难、工作量大,使用,excel,模板生成报表,易出错,分析,层次,1.,多维度综合查询,从,Excel,中解放出来,2.,常规统计分析报表,业务轻松一览,3.,高级模型挖掘,获取深入洞察,*,室,*,室,空气质量监测数据,气象监测数据,特殊VOC监测数据,监测中心的综合监测站监测数据,各类设备运行状态数据,PM2.5/TSP/PM10采集称重数据,*,室,重金属分析,OC/EC分析,有机组分分析,阴阳离子分析,*,室,空气质量监测审核数据,空气质量监测统计数据,潜势预报产品数据,*,室,PM2.5反演图,污染气体反演图,沙尘反演图,火点反演图,简报/月报,数据,*,室,区县监督性监测数据,区县比对监测数据,中心监督性监测数据,激光雷达监测数据,垂直气象要素监测数据,FDMS分析监测数据,空气环境遥感应用监测数据,污染物化学组分监测数据,空气质量日报数据,空气质量月报数据,空气质量年报数据,空气质量数值模型数据,统计预报产品数据,气象模型预报产品数据,空气重污染预报预警,污染源处理模型数据,案例库数据,面源遥感数据,激光雷达数据,在线源解析结果,情景模拟结果,基准污染源清单,减排污染源清单,国控污染物数据,简报/月报,数据,监测数据库,业务产品数据库,辅助数据库,运行支撑管理数据库,目录和元数据库,第三方数据,GIS,数据,总站空气监测数据,气象数据,。,大气环境业务数据和信息的数据视图,未来,小型监测设备,京津冀数据,设计方案,数 据 层,模 型 层,应 用 层,展 示 层,内部网站,报表,GIS,曲线,外部网站发布,外部移动应用,报表,GIS,曲线,社交,图像,报表,GIS,曲线,图像,模型特征,业务规则,综合观测实验室数据应用,环境空气质量分析及业务应用,大气污染源管理及应用,重污染过程分析与案例库管理,统计与数值模型预报,综合会商,重污染应急决策支持,统计模型库,自动室,分析室,遥感室,污染源室,专家知识库,空气质量预报预警,空气质量综合分析,NAQPMS,CMAQ,MM5/WRF,SMOKE,数值模型库,CAMx,AQMDSS,ARIA,WRF-CHEM,ADMS,基于案例的推理,认知计算,特征场挖掘,时空模式分析,模型融合,深度学习,关联分析,场分析,误差模式挖掘,大气室,外部数据,在线源解析,数据审核,管理与融合,基于情景的污染过程仿真,污染控制方案效果评估,空气质量大数据分析,空气质量指标体系,空气质量高级统计分析工具集,基于,GIS,的数据耦合展示,业务知识积累,数值模型工作原理,输入数据,模型库,MM5,WRF,源排放清单,CMAQ,重污染案例再分析数据,空气质量预报(包括,集合预报,),NAQPMS,CAMx,WRF-CHEM,源排放情景库,SMOKE,卫星遥感数据,气象观测数据,科研试验数据,空气质量观测数据,人工观测数据,ADMS,AQMDSS,ARIA,作业管理与调度优化,全球背景场数据,(NCEP,ECMWF,JMA,CMC,etc.),在线源解析,排放控制情景模拟,重污染影响参数模拟,污染同化,统计模型工作原理,数 据 层,模 型 层,应 用 层,展 示 层,内部网站,报表,GIS,曲线,外部网站发布,外部移动应用,报表,GIS,曲线,社交,图像,报表,GIS,曲线,图像,模型特征,(气象场、污染变化趋势等),业务规则,(平稳天气研判、逆温识别等),综合观测实验室数据应用,环境空气质量分析及业务应用,大气污染源管理及应用,重污染过程分析与案例库管理,统计与数值模型预报,综合会商,重污染应急决策支持,统计模型库,自动室,分析室,遥感室,污染源室,专家知识库,空气质量预报预警,空气质量综合分析,NAQPMS,CMAQ,MM5/WRF,SMOKE,数值模型库,CAMx,AQMDSS,ARIA,WRF-CHEM,ADMS,基于案例的推理,认知计算,特征场挖掘,时空模式分析,多预报模型融合,深度学习,多污染物关联分析,气象场关联分析,预报误差模式挖掘,大气室,外部数据,在线源解析,数据审核,管理与融合,基于情景的污染过程仿真,污染控制方案效果评估,空气质量大数据分析,空气质量指标体系,空气质量高级统计分析工具集,基于,GIS,的数据耦合展示,业务知识积累,自动室,分析室,遥感室,污染源室,大气室,外部数据,统计模型库,基于案例的推理,认知计算,特征场挖掘,时空模式分析,多预报模型融合,深度学习,多污染物关联分析,气象场关联分析,预报误差模式挖掘,空气质量大数据分析,空气质量指标体系,空气质量高级统计分析工具集,基于,GIS,的数据耦合展示,业务知识积累,重污染过程分析与案例库管理,现有业务提升,个性业务分析,技术方案设计,人工智能技术应用,-,重污染案例分析,相关分析,区域传输分析,气象条件分析,时序分析,分布分析,跨行业分析,重污染案例设计,预报会商设计,现有业务提升,个性业务分析,技术方案设计,重污染案例展示,人工智能技术应用,-,重污染案例分析,重污染案例设计,预报会商设计,现有业务提升,个性业务分析,技术方案设计,重污染案例匹配,人工智能技术应用,-,重污染案例匹配,重污染案例设计,预报会商设计,现有业务提升,个性业务分析,技术方案设计,人工智能技术应用,-预报预警,重污染案例设计,预报会商设计,现有业务提升,个性业务分析,技术方案设计,人工智能技术应用,-,个性化业务分析,模 型 层,应 用 层,展 示 层,内部网站,报表,GIS,曲线,外部网站发布,外部移动应用,报表,GIS,曲线,社交,图像,报表,GIS,曲线,图像,模型特征,(气象场、污染变化趋势等),业务规则,(平稳天气研判、逆温识别等),综合观测实验室数据应用,环境空气质量分析及业务应用,大气污染源管理及应用,重污染过程分析与案例库管理,统计与数值模型预报,综合会商,重污染应急决策支持,统计模型库,自动室,分析室,遥感室,污染源室,专家知识库,空气质量预报预警,空气质量综合分析,NAQPMS,CMAQ,MM5/WRF,SMOKE,数值模型库,CAMx,AQMDSS,ARIA,WRF-CHEM,ADMS,基于案例的推理,认知计算,特征场挖掘,时空模式分析,多预报模型融合,深度学习,多污染物关联分析,气象场关联分析,预报误差模式挖掘,大气室,外部数据,在线源解析,数据审核,管理与融合,基于情景的污染过程仿真,污染控制方案效果评估,空气质量大数据分析,空气质量指标体系,空气质量高级统计分析工具集,基于,GIS,的数据耦合展示,业务知识积累,自动室,分析室,遥感室,污染源室,大气室,外部数据,空气质量大数据分析,空气质量指标体系,空气质量高级统计分析工具集,基于,GIS,的数据耦合展示,业务知识积累,现有业务提升,个性业务分析,技术方案设计,1.,选择有效指标进行,PM2.5,等级与气象条件的规律挖掘,2.,自动挖掘规律,3.,语义化展示,业务人员根据专业知识总结结论,人工智能技术应用,-,个性化业务分析,现有业务提升,个性业务分析,技术方案设计,模型全生命周期管理,人工智能,模式挖掘,时空分布,/,演化特征,多污染物关联特征,气象场的关联分析,预报模型的误差性能特征,预报特征库,统计,/,数值模型,(新建,/,更新),专家知识库,业务规则引擎,业务经验,模型融合,深度学习算法,统计,/,数据挖掘引擎,神经元网络,随机森林,C5.0,CART,CHAID,广义线性回归,SVM,KNN,Case based Reasoning,模型评估,模型上线,模型归档,模型升级,知识集成,统一数据资源池,人工智能技术应用,-,技术方案设计,现有业务提升,个性业务分析,技术方案设计,51,内容提纲,人工智能基本概念与发展历史,人工智能与大数据,人工智能在气象领域的应用案例,人工智能在环保领域的应用案例,人工智能在网络安全领域的应用案例,人工智能面临的机遇与挑战,总结与展望,52,背景,什么样的网页会被称为恶意网页?,便利的网络服务吸引了网络攻击者们通过,钓鱼网站,1-1,,垃圾广告,1-2,和恶意软件,1-3,推广等方式进行非法牟利。尽管这些不法活动的目的和手段各不相同,但他们都需要,不知情的用户访问攻击者提供的网,页地址,以达到攻击目的。这些网页因此被称为,恶意网页,。,53,背景,恶意网页的威胁有多大?,国际反钓鱼组织,APWG,的数据显示,,2012,下半年间,使用恶意网页进行网络钓鱼从,93,462,起攀升到,123,486,起。,卡巴斯基报告,1-4,显示,恶意网页在,87.36%,的网络攻击中出现,并已成为黑客谋求经济利益的重要工具。,Google,的研究指出,其搜索结果中,1.3%,的页面为被挂马网页,1-4.1,。,因此,如何有效地识别恶意网页已经成为亟待解决的网络安全问题之一。,54,背景,恶意网页识别的一些研究进展,观点:恶意网页的识别与检测是一个,攻防博弈,问题。,攻击者视角:,自动生成域名技术、隐匿技术。,防御者视角:,学术界:,URL,语法特征,,DNS,特征,网页内容特征等。,工业界:,SmartScreen,筛选器和,Safebrowsing,采用的内置黑白名单方法等。,下面分别从恶意网页识别问题的基本概念,识别技术和面临挑战三个方面介绍。,55,目前,恶意网页尚无一个明确的、统一的定义,。,Google,2-1,将恶意网页限定为一种不安全的网站,发生的场景可以是恶意软件自动下载,2-2,,网页弹窗,2-3,诱骗用户输入自己的用户名和密码等。,Birhanu E,.,等人,2-3.1,将恶意网页定义为一类通过利用漏洞对一次性的访问行为发起攻击的网页。,百度百科,上,2-4,对恶意网站定义为故意在计算机系统上执行恶意任务的病毒、蠕虫和特洛伊木马的非法网站,并指出他们的共同特征是采用网页形式让人们正常浏览页面内容,同时非法获取电脑里的各种数据。,一般来说,恶意网页是以网页木马,钓鱼网站为代表的一类网页。不同于正常网页,恶意网页往往,通过伪装成合法网站或在网页中嵌入恶意脚本,,从而在,用户访问时,对其,网络,安全,构成威胁。,恶意网页基本概念与评价指标,因此,将,恶意网页定义为以网页形式出现,以访问时窃取用户隐私,安装恶意程序或运行恶意代码等恶意行为为目的的网页集合。,56,恶意网页识别概述,恶意网页识别概述,恶意网页识别系统基本框架,包括网页采集,特征抽取,网页,判别三个步骤。,恶意网页识别的应用场景,攻击场景,检测位置,主要识别特征,57,恶意网页识别框架,恶意网页识别系统基本框架,图,1.,恶意网页识别的基本框架,(1),网页采集,。负责对互联网上的网页进行收集、去重和过滤。其中,按照网页收集方式,一般可分为主动和被动两种。,(2),特征抽取,。依据网页自身特点和识别方法的不同,对网页信息的特征进行抽取,作为识别恶意网页的依据。这些特征包括但不限于,URL,词汇特征,主机信息特征,网页内容特征,,URL,(,DNS,)黑名单,链接关系以及跳转关系等。,(3),网页判别,。主要判别方法包括:黑名单过滤法,规则匹配法,机器学习方法以及基于交互式主机行为的识别方法,。,58,恶意网页识别概述,恶意网页识别概述,恶意网页识别的应用场景,攻击场景:,钓鱼网页,恶意软件下载,跨站脚本执行(,XSS,),,SQL,注入,网页木马,检测位置,服务器端,客户端,网关端,主要识别特征,此外,一些研究从,HTTP,会话,3-23,搜索引擎提供的相似网页,3-24,出发,对恶意网页的识别提供了新的思路。,图,2.,识别恶意网页的特征分类,59,恶意网页识别研究进展,恶意网页识别的方法,基于黑名单技术的识别方法,基于启发式规则的识别方法,基于机器学习的识别方法,基于交互式主机行为的识别方法。,60,恶意网页识别研究进展,恶意网页识别的方法,基于黑名单技术的识别方法,典型应用:,Google Safebrowsing,DNSBL,PhishTank,等。,存在问题:不能及时更新,容易漏判,基于启发式规则的识别方法,基于机器学习的识别方法,基于交互式主机行为的识别方法,图,1,黑名单示例,61,恶意网页识别研究进展,恶意网页识别的方法,基于黑名单技术的识别方法,基于启发式规则的识别方法,典型应用:火狐,Firefox,IE,存在问题:误报率高,规则更新难。,基于机器学习的识别方法,基于交互式主机行为的识别方法,图,2,启发式规则示例,/a-z*.phish.a-z*/,/a-z*.malicious.a-z*/,/a-z*.y0utube.a-z*/,图,1,黑名单示例,62,恶意网页识别研究进展,恶意网页识别的方法,基于黑名单技术的识别方法,基于启发式规则的识别方法,基于机器学习的识别方法,常用分类算法:,PA,,,CW,,,SVM,存在问题:标注数据集较少,过拟合。,基于交互式主机行为的识别方法,图,3.,分类算法的工作过程,图,2,启发式规则示例,/a-z*.phish.a-z*/,/a-z*.malicious.a-z*/,/a-z*.y0utube.a-z*/,图,3,特征示例,LabelFeatures,01 0 0 0 1 0,10 1 0 0 1 0,10 1 1 0 0 1,63,恶意网页识别研究进展,恶意网页识别的方法,基于黑名单技术的识别方法,基于启发式规则的识别方法,基于机器学习的识别方法,基于交互式主机行为的识别方法,一般与蜜灌技术,虚拟化技术相结合使用。,按照检测行为的不同,蜜罐技术可以细分为基于模拟的低交互式蜜罐和基于真实系统的高交互式蜜罐。,64,恶意网页识别研究进展,不同类别,恶意网页识别方法,的比较,识别方法,基于黑名单技术,基于启发式规则,基于机器学习,基于主机行为,误判率,低,高,低,低,漏判率,高,低,低,低,分类速度,快,一般,一般,慢,优点,技术简单,易操作,计算开销小,分类速度快,可实时响应。,识别漏判率低,可以识别一些尚未收录的恶意网页,准确率较高,可扩展性强,能够对尚未收录的恶意网页进行识别,识别准确率很高,可以对特定类别的恶意网页(主要是网页木马等)进行准确分析,缺点,不能识别未收录黑名单的恶意网页,黑名单更新周期长,规则生成和更新难,依赖于领域知识,且容易误判,需要事先了解网页样本集,容易出现,“,过拟合,”,现象。,无法识别其他类别的恶意网页。分类速度慢。,适用场景,实时在线环境,实时在线环境,实时在线环境,离线环境,表,2.,不同识别方法的比较,65,内容提纲,人工智能基本概念与发展历史,人工智能与大数据,人工智能在气象领域的应用案例,人工智能在环保领域的应用案例,人工智能在网络安全领域的应用案例,人工智能面临的机遇与挑战,总结与展望,66
展开阅读全文