收藏 分销(赏)

77-计算机视觉计算机视觉入门大全:基础概念、运行原理、应用案例详解.docx

上传人:二*** 文档编号:4768127 上传时间:2024-10-12 格式:DOCX 页数:28 大小:2.03MB
下载 相关 举报
77-计算机视觉计算机视觉入门大全:基础概念、运行原理、应用案例详解.docx_第1页
第1页 / 共28页
本文档共28页,全文阅读请下载到手机保存,查看更方便
资源描述
【计算机视觉】计算机视觉入门大全:基础概念、运转 原理、使用案例详解2020-07-07 原文 图灵人工智能An Introductory Guide to Computer Vision 这是一篇计算机视觉入门指南,从概念、原理、用例等角度引见了 计算机视觉。 「机器能够模仿人类视觉系统」的幻想已经过时了。自I960年月第一批学术 论文消灭以来,计算机视觉已经走了很远,现代系统已经消灭,且它们可以集 成到移动使用中。 今日,由于其广泛使用和巨大潜力,计算机视觉成为最热的人工智能和机器学 习子领域之一。其目标是:复制人类视觉的强大力量。 但是,到底什么是计算机视觉?它在不同行业中的使用现状如何?知名的商业 用例有哪些?典型的计算机视觉任务是什么? 本文将引见计算机视觉的基础概念和现实使用,对任何听说过计算机视觉但不 确定它是什么以及如何使用的人,本文是了解计算机视觉这一简单问题的便捷 途径。 你可以通读本文,或者直接跳至某个章节。 埃菲尔铁塔(图源: )该分类器认为上述图像属于包含旅游景点的图像类别。但这并不意味着分类器 认出埃菲尔铁塔了,它可能只是已经见过这座塔的照片,并且当时被告知图像 中包含旅游景点。 巴黎旅游景点明信片。(图源: %20Paris%20/14840-500x500.jpg )该分类器的更强大版本可以处理不止两个类别。例如,分类器将图像分类为旅 游景点的特定类型,如埃菲尔铁塔、凯旋门、圣心大教堂等。那么在此类场景 中,每个图像输入可能有多个答案,就像上面那张明信片一样。 定位假设,现在我们不只想晓得图像中消灭的旅游景点名称,还对其在图像中的位 置感爱好。定位的目标就是找出图像中单个对象的位 例如,下图中埃菲尔 铁塔的位置就被标记出来了。 被红色边界框标记出的埃菲尔铁塔。(图源: -eiffel.jpg )执行定位的标准方式是,在图像中定义一个将对象围住的边界框。 定位是一个很有用的任务。比如,它可以对大量图像执行自动对象剪裁。将定 位与分类任务结合起来,就可以快速构建有名旅游景点(剪裁)图像数据集。 目标检测我们想象一个同时包含定位和分类的动作,对一张图像中的全部感爱好对象反 复执行该动作,这就是目标检测。该场景中,图像中的对象数量是未知的。因 此,目标检测的目标是找出图像中的对象,并进行分类。 目标检测结果 (图源: vision/images/cv-research-areas-object-detection.jpg ) 在这个密集图像中,我们可以看到计算机视觉系统识别出大量不同对象:汽 车、人、自行车,甚至包含文本的标志牌。 这个问题对人类来说都算困难的。一些对象只显示出一部分,由于它们有一部 分在图像外,或者彼此堆叠。此外,相像对象的大小差别极大。 目标检测的一个直接使用是计数,它在现实生活中使用广泛,从计算收获水果 的品种到计算公众集会或足球赛等活动的人数,不一而足。 目标识别 目标识别与目标检测略有不同,虽然它们使用类似的技术。给出一个特定对 象,目标识别的目标是在图像中找出该对象的实例。这并不是分类,而是确定 该对象能否消灭在图像中,假如消灭,则执行定位。搜索包含某公司logo的 图像就是一个例子。另一个例子是监控安防摄像头拍摄的实时图像以识别某个 人的面部。 实例分割我们可以把实例分割看作是目标检测的下一步。它不只涉及从图像中找出对 象,还需要为检测到的每个对象创建一个尽可能精确的掩码。 (图注)实例分割结果。 你可以从上图中看到,实例分割算法为四位披头士成员和一些汽车创建掩码 (不过该结果并不完整,尤其是列侬)。 人工执行此类任务的成本很高,而实例分割技术使得此类任务的实现变得简 约。在法国,法律禁止媒体在未经监护人明确同意的情况下暴露儿童笼统。使 用实例分割技术,可以模糊电视或电影中的儿童面部。 目标追踪目标追踪旨在追踪随着时间不断移动的对象,它使用连续视频帧作为输入。该 功能对于机器人来说是必要的,以守门员机器人举例,它们需要执行从追球到 挡球等各种任务。目标追踪对于自动驾驶汽车而言同样重要,它可以实现高级 空间推理和路径规划。类似地,目标追踪在多人追踪系统中也很有用,包括用 于理解用户行为的系统(如零售店的计算机视觉系统),以及在玩耍中监控足 球或篮球运动员的系统。 执行目标追踪的一种相对直接的方式是,对视频序列中的每张图像执行目标追 踪并对比每个对象实例,以确定它们的移动轨迹。该方法的缺陷是为每张图像 执行目标检测通常成本昂扬。另一种替换方式仅需捕获被追踪对象一次(通常 是该对象消灭的第一次),然后在不明确识别该对象的情况下在后续图像中辨 别它的移动轨迹。最终,目标追踪方法未必就能检测出对象,它可以在不晓得 追踪对象是什么的情况下,仅查看目标的移动轨迹。 计算机视觉运转原理 如前所示,计算机视觉的目标是仿照人类视觉系统的工作方式。算法如何实现 这一目标呢?本文将引见其中最重要的几个概念。 通用策略深度学习方法和技术深刻转变了计算机视觉以及其他人工智能领域,对于很多 任务而言,使用深度学习方法已经成为标准操作。尤其是,卷积神经网络 (CNN )的功能超过了使用传统计算机视觉技术所能达到的最优结果。 以下四步呈现了利用CNN构建计算机视觉模型的通用方法: 1 .创建一个包含标注图像的数据集或者使用现有的数据集。标注可以是图像 类别(适用于分类任务)、边界框和类别对(适用于目标检测问题),或 者对图像中每个感爱好对象进行像素级分割(适用于实例分割问题)。 2. 从每张图像中提取与待处理任务相关的特征,这是建模的重点。例如,用 来识别人脸的特征、基于人脸标准的特征与用来识别旅游景点或人体器官 的特征存在显著区分。 3. 基于特征训练深度学习模型。训练意味着向机器学习模型输入很多图像, 然后模型基于特征学习如何处理任务。 4. 使用不同于训练所用数据的图像评估模型,从而测试训练模型的精确 率。 该策略格外基础,但效果不错。这类方法叫做监督机器学习,它需要包含模型 待学习现象的数据集。 现无数据集构建数据集通常成本昂扬,但是它们对于开发计算机视觉使用至关重要。侥幸 的是,目前有一些现成的数据集。其中规模最大、最有名的是ImageNet ,该 数据集包含1400万人工标注图像。该数据集包含100万张具备边界框标注 的图像。 带有边界框的 ImageNet 图像(图源:http://www. image-net. org/bbox_ fig/kit_ fox. J PG ) 具 备 对 象属性 标注的 ImageNet 图像 (图 源:http://www.image- net.org/attribute_ fig/pullfigure.jpg ) 另一个有名数据集是 Microsoft Common Objects in Context (COCO)数 据集,它包含328,000张图像、91个对象类别(这些类别很简约识别,4岁 孩童也可以轻松识别出来),以及250万标注实例。 COCO数据集中的标注图像示例。(图源:. org/abs/1405.0312 )虽然该领域可用数据集并不是特殊多,但仍旧有一些适合不同的任务,如 CelebFaces Attributes Dataset ( CelebA数据集,该人脸属性数据集包含 超过20万张名人图像)、Indoor Scene Recognition数据集(包含 15,620张室内场景图像)、Plant Image Analysis数据集(包括属于11个 不同类别的100万张植物图像)。 训练目标检测模型 • Viola-Jones 方法有很多种方法可以处理目标检测问题。很多年来,Paul Viola和Michael Jones在论文《Robust Real-time Object Detection》中提出的方法成为 流行的方法。 虽然该方法可用来检测大量对象类别,但它最后是受人脸检测目标的启发。该 方法快速、直接,是傻瓜相机中所使用的算法,它可以在几乎不铺张处理力量 的情况下执行实时人脸检测。 该方法的核心特征是:基于哈尔特征与大量二分类器一起训练。哈尔特征表示 边和线,计算简约。 (b) Line Features ( a) Edge 哈尔特征(图源:. org/3.4.3/haar_ features.jpg ) 虽然比较基础,但在人脸检测这一特定案例下,这些特征可以捕获到重要元 素,如鼻子、嘴或眉间距。该监督方法需要很多正类和负类样本。 名目 •什么是计算机视觉? O计算机视觉处理什么问题 O区分计算机视觉与其相关领域 •行业使用 O零售业 O制造业 O医疗行业 O自动驾驶 。保险业 O农业 。安防 •典型的计算机视觉任务 O图像分类 O定位 O目标检测 O目标识别 O实例分割 O目标追踪 •计算机视觉运转原理 。通用策略 O现无数据集 。训练目标检测模型 •商业用例 。视觉搜索引擎 o Facebook人脸识别 o Amazon Go 。特斯拉自动驾驶 。微软 InnerEye •计算机视觉在小公司的使用现状 •如何实现计算机视觉项目什么是计算机视觉? 计算机视觉处理什么问题 本文暂不争辩算法细节。不过,上图呈现了该算法检测蒙娜丽莎面部的过程。 •基于CNN的方法深度学习变革了机器学习,尤其是计算机视觉。目前基于深度学习的方法已经 成为很多计算机视觉任务的前沿技术。 其中,R-CNN易于理解,其作者提出了一个包含三个阶段的流程: 1. 利用区域候选(region proposal )方法提取可能的对象。 2. 使用CNN识别每个区域中的特征。 3. 利用支持向量机(SVM )对每个区域进行分类。 R-CNN: Regions with CNNfeaturestvmonitor? no. tvmonitor? no. warped region 1. Input image 2. Extract region proposals (~2k) 3. Compute CNN features 4. Classify regions R-CNN 架构(图源:. org/abs/1311.2524 ) 该区域候选方法最后由论文《Selective Search for Object Recognition》 提出,虽然R-CNN算法并不在意使用哪种区域候选方法。步骤3格外重 要,由于它削减了候选对象的数量,降低了计算成本。 这里提取的特征没有哈尔特征那么直观。总之,CNN可用于从每个区域候选 中提取4096维的特征向量。鉴于CNN的本质,输入该当具备同样的维度。 这也是CNN的弱点之一,很多方法处理了这个问题。回到R-CNN方法,训 练好的CNN架构要求输入为227 x 227像素的固定区域。由于候选区域的 大小各有不同,R-CNN作者通过扭曲图像的方式使其维度满足要求。 满足CNN输入维度要求的扭曲图像示例。 虽然该方法取得了很好的结果,但训练过程中存在一些困难,并且该方法最终 被其他方法超越。其中一些方法在这篇文章中有深化引见: overview-in-the-age-of-deep-learning/o商业用例 计算机视觉使用被越来越多的公司部署,用于回答业务问题或提升产品功能。 它们或许已经成为人们日常生活的一部分,你甚至都没有留意到它。以下是一 些常见的使用案例。 视觉搜索引擎2001年,Google Images的消灭意味着视觉搜索技术可被大众使用。视觉 搜索引擎能够基于特定内容标准检索图像。常见用例是搜索关键词,不过有时 候我们会供应源图像,要求引擎找出相像图像。在某些案例中,可以指定更具 体的搜索条件,如沙滩的图像、夏天拍摄、至少包含10个人。 现在有很多视觉搜索引擎,有的可以网站形式直接使用,有的需要通过API 调用,有的则是移动使用。 最有名的视觉搜索网站无疑是Google Images. Bing和Yahooo前两个网 站均可使用多个关键词或者单张图像作为搜索输入,以图像作为搜索输入又名 「反向图像搜索」(以图搜图)。Yahoo仅支持关键词搜索,搜索结果同样 不错,如下图所示。 cat playing5 B ::: «HOO! Yahoo图像搜索。 还有一些视觉搜索网站同样值得关注,如仅支持反向图像搜索的TinEye ,以 及仅支持文本搜索但掩盖范围极大的Picsearcho 在移动使用方面,由于视觉搜索技术渐渐成为标准特征,此类使用之间的区分 较大。 此类实现包括Google Goggles (后被Google Lens取代),它可从图像中 猎取具体信息。例如,从一张猫照片中得到其品种信息,或者供应博物馆中艺 术作品的信息。 在电商市场中,Pinterest开发了 Pinterest Lens。假如你需要现有衣物的新 穿搭想法,你可以为这件衣服拍张照,之后Pinterest Lens会前往穿搭建 议,该建议包括你可以购买的搭配单品。近年来,针对网购的视觉搜索成为增 长最快的趋势之一。 最终,视觉搜索的更高阶案例是视觉问答系统,参见: question-answering/oFacebook人脸识别 每 Q Search B © ®= New Amanda Willis (2 mutual friends) added 1 photo that might include you. Go to Photo Review to see it ■ 13 minutes ago IGNORE TAG YOURSELF 虽然早在2000年月中期,出于自动对焦目的而使用人脸检测技术的相机已经 普遍,但近年来人脸识别领域消灭了很多更优秀的成果。最常见(也最具争 议)的使用或许就是识别图像或视频中的人物。这通常用于安防系统,但也消 灭在社交媒体中:人脸管理系统为人脸添加过滤器,以便按人脸执行搜索,甚 至在选举过程中阻挠选民多次投票。人脸识别还可用到更简单的场景,如识别 面部表情中的心情。 其中同时引发了爰好和担忧的用例是Facebook的人脸识别系统。开发团队 的一个次要目标是阻挠生疏人使用消灭用户人脸的图像(见下图的示例),或 者向视障用户告知图像或视频中消灭的人物。 Gary Chavez added 1 photo that might include you. Go to Photo Review to see it. ■ 22 minutes ago Kevin Burton added 1 photo that might include you. Go to Photo Review to see it. ■ 27 minutes ago Facebook 人脸识别。(图源:h ttps://cdn0. tn wedn. com/wp - content/blogs,dir/1/files/2017/12/Facebook-Tagging-796x428.jpg ) 除了那些令人担忧的部分以外,这项技术在很多场景中是无益的,比如对抗网 络骚扰。 Amazon Go厌倦了超市和杂货店的排队等待? Amazon Go商店供应别样的体验。在计算 机视觉的挂念下,这里不用排队,也没有包装箱。 其思路很简约:顾客进入商店,选择所需商品,离开商店,不用排队结账。 这是如何实现的呢?多亏了 Amazon的「Just Walk OutJ技术。顾客必需 下载一个移动app ,该app可以挂念Amazon识别他们的身份。当他们想 进入Amazon Go商店时,该app供应一个二维码。商店入口处有一些闸机 供顾客出入商店,顾客进入商店时,闸机读取顾客的二维码。一个好玩的功能 是,其他人可以陪伴该顾客一起进入商店,且陪伴者无需安装该使用程序。 顾客可以在商店内自在移动,而这也是计算机视觉发挥作用之处。商店内安装 有一系列传感器,包括摄像头、运动传感器和商品上的分量传感器。这些设备 收集了每个人的行为信息。它们实时检测顾客从货架上拿取的货品。顾客可以 取下某个货品,转变办法的话再放回去。系统最终会向第一个拿起它的顾客收 费,即便它被递给另一位想要购买的顾客,第一位拿起它的顾客仍旧需要领取 费用。于是系统创建了一个包含全部拿起货品的虚拟购物车,并进行实时维 护。这使得顾客的购物流程格外顺当。 当顾客完成购物,即可走出商店。当他们经过闸机时,系统不会让顾客扫描货 品或二维码,而是记录买卖额并向顾客发送确认通知。 Amazon Go是计算机视觉对现实世界和人类日常生活产生乐观影响的一个案 例。 特斯拉Autopilot让汽车自动行驶不只是一个遥远的梦。特斯拉Autopilot技术供应格外便利 的自动驾驶功能。这并不是全自动驾驶系统,而是可在特定路段上驾驶汽车的 驾驶助手。这是特斯拉强调的重点:在全部情况下,把握汽车都是驾驶员的责 任。 自动驾驶通过目标检测和追踪技术实现。 要想使Autopilot工作,特斯拉汽车必需「高度武装」:八个全景摄像头供 应250米范围内的360度图像、超声波传感器用于检测对象、雷达用来处理 四周环境信息。这样,特斯拉汽车才能够依据交通条件调整行驶速度,在遇到 妨碍物时准时刹车,保持或变换车道,拐弯以及流畅地停车。 特斯拉Autopilot技术是计算机视觉对人类日常活动带来乐观影响的另一个 精彩案例。 微软 InnerEye在医疗行业中,微软的InnerEye是挂念放射科医生、肿瘤专家和外科医生处 理放射图像的贵重工具。其次要目的是从恶性肿瘤的3D图像中精确 识 别出肿瘤。 癌性肿瘤的3D图像。 基于计算机视觉和机器学习技术,InnerEye输出格外具体的肿瘤3D建模图 像。以上截图呈现了 InnerEye创建的对脑部肿瘤的完整3D分割。从上述视 频中,你可以看到专家把握InnerEye工具,指引它执行任务,InnerEye像 助手一样运转。 在放射疗法中,InnerEye结果使得不损害重要器官直接针对目标肿瘤进行放 射成为可能。 这些结果还挂念放射科医生更好地理解图像序列,基于肿瘤大小的变化,推断 疾病能否有进一步进展、稳定,或者对医治反应良好。这样,医疗图像就成为 —种重要的追踪和衡量方式。 最终,InnerEye可用于规划精准手术。 计算机视觉在小公司的使用现状计算机视觉在大公司的实现常被大家谈论,但这不意味着全部公司必需是谷歌 或亚马逊那种量级才能从该机器学习技术中受益。任何规模的公司都可以利用 数据和计算机视觉技术变得愈加高效,制定更好的决策。 我们来看一些小公司的现实案例: Tryolabs曾挂念一家位于旧金山的小型风险管理公司构建和实现了一个计算 机视觉系统,用于扩展对屋顶检查图像的处理。 在使用计算机视觉技术之前,公司专家人工分析无人机拍摄的照片,检测屋顶 建设中的损伤。虽然分析结果很精确,但由于服务耗时且人力资源无限,该服务无法得到无效扩展。 为了处理这个问题,我们构建了一个能够理解图像并自动识别屋顶问题(如积 水、电缆松散和铁锈)的深度学习系统。为此,我们开发了一个能够基于屋顶 图像检测问题的深度神经网络、分析输入图像的流程,以及使检测结果可用于 外部工具的API0因此,这家公司的订单量和收益都有所增长。 如何实现计算机视觉项目和在组织内值得进行的全部创新一样,你该当选择一种有策略的方式来实现计 算机视觉项目。 利用计算机视觉技术实现成功创新取决于全体业务策略、资源和数据。 以下问题可以挂念你为计算机视觉项目构建战略路线图。 1、计算机视觉处理方案该当降低成本还是添加收益? 成功的计算机视觉项目要么降低成本要么提高收益(或者二者兼顾),你该当 定义该项目的目标。只要这样,它才能对组织及其进展产生重要影响。 2、如何衡量项目的成功? 每个计算机视觉项目都是不同的,你需要定义一个特定于该项目的成功目标。 设置好目标后,你该当确保它被业务人员和数据科学家等认可。 3、能否保证信息的猎取? 开启计算机视觉项目时,数据科学家该当能够轻松访问数据。他们需要和来自 不同部门(如IT部门)的重要同事合作。这些同事应以其业务学问供应支 持,内部官僚主义则会成为次要约束。 4、组织收集的数据能否合适? 计算机视觉算法并非魔法。它们需要数据才能运作,输入数据的质量打算其功 能。有多种不同方法和来源可供收集合适数据,这取决于你的目标。无论如 何,拥有的输入数据越多,计算机视觉模型功能优秀的可能性越大。假如你对 数据的量和质存在疑虑,你可以请数据科学家帮忙评估数据集质量,必要情况 下,找到猎取第三方数据的最优方式。 5、组织能否以恰当格式收集数据? 除了拥有合适量和类型的数据以外,你还需要确保数据的格式。假设你使用数 千张完善的手机照片(辨别率高,背景为白色)训练目标检测算法。然后发觉 算法无法运转,由于实际用例是在不同光照/对比度/背景条件下检测持有手机 的人,而不是检测手机本身。这样你之前的数据收集努力基本上就作废了,你 还需要重头再来。此外,你该当了解,假如数据存在偏见,算法会学到该偏 见。 关于如何开启成功的计算机视觉项目,参见博客: -questions-to-ask-before- starti ng-a-successful-machine-learning-project/o期望本文能够挂念读者了解计算机视觉概念、运作原理以及现实使用。 原文链接: 先进制造业+工业互联网 人类能够理解和描述图像中的场景。以下图为例,人类能做到的不只仅是检测 披头 士专辑《艾比路》的封面。(图源: 除了这些基本信息,人类还能够看出图像前景中的人正在走路,其中一人赤 脚,我们甚至晓得他们是谁。我们可以理性地推断出图中人物没有被车撞击的 危急,白色的大众汽车没有停好。人类还可以描述图中人物的穿着,不止是衣 服颜色,还有材质与纹理。 这也是计算机视觉系统需要的技能。简约来说,计算机视觉处理的次要问题 是: 给出一张二维图像,计算机视觉系统必需识别出图像中的对象及其特征,如外 形、纹理、颜色、大小、空间陈列等,从而尽可能完整地描述该图像。 区分计算机视觉与其相关领域计算机视觉完成的任务远超其他领域,如图像处理、机器视觉,虽然它们存在 一些共同点。接下来,我们就来了解一下这些领域之间的差异。 •图像处理图像处理旨在处理原始图像以使用某种变换。其目标通常是改进图像或将其作 为某项特定任务的输入,而计算机视觉的目标是描述和解释图像。例如,降 噪、对比度或旋转操作这些典型的图像处理组件可以在像素层面执行,无需对 图像全体具备全面的了解。 •机器视觉机器视觉是计算机视觉用于执行某些(生产线)动作的特例。在化工行业中, 机器视觉系统可以检查生产线上的容器(能否洁净、空置、无损)或检查成品 能否恰当封装,从而挂念产品制造。 •计算机视觉计算机视觉可以处理更简单的问题,如人脸识别、具体的图像分析(可挂念实 现视觉搜索,如Google Images ),或者生物识别方法。 行业使用 人类不只能够理解图像中的场景,稍加训练,还能解释书法、印象派画家、笼 统画,以及胎儿的二维超声图像。 从这个角度来看,计算机视觉领域尤其简单,它拥有大量的实际使用。 从电商到传统行业,各品种型和规模的公司现在都可以利用计算机视觉的强大 力量,这是依靠于人工智能和机器学习(更具体地说是计算机视觉)的创新所 带来的利好。 下面我们就来看看,近年来受计算机视觉影响最大的行业使用。 零售业近年来,计算机视觉在零售业的使用已成为最重要的技术趋势之一。下文将引 见一些常见的用例。假如你想对计算机视觉在零售业的潜在使用有更具体的了 N军,请参考: machine-learning/o 行为追踪实体零售店利用计算机视觉算法和摄像头,了解顾客及其行为。 计算机视觉算法能够识别人脸,确定人物特征,如性别或年龄范围。此外,零 售店还可以利用计算机视觉技术追踪顾客在店内的移动轨迹,分析其移动路 线,检测行走模式,并统计零售店店面遭到行人留意的次数。 添加视线方向检测后,零售店能够回答这一重要问题:将店内商品放在哪个位 置可以提升消费者体验,最大化销售额。 计算机视觉还是开发防盗窃机制的强大工具。人脸识别算法可用于识别已知的 商店扒手,或检测出某位顾客将商品放入本人的背包。 库存管理计算机视觉在库存管理方面有两个次要的使用。 通过安防摄像头图像分析,计算机视觉算法可以对店内剩余商品生成格外精确 的估量。对于店铺管理者来说,这是格外贵重的信息,它可以挂念管理者马上 察觉不寻常的货物需求,并及早作出反应。 另一个常见使用是:分析货架空间利用情况,识别次优配置。除了发觉被铺张 的空间以外,此类算法还可以供应更好的货品摆放方案。 制造业生产线上的次要问题是机器中缀或残次品,这些问题会导致生产延迟和利润损 失。 计算机视觉算法被证明是实施猜测性维护的好方法。算法通过分析(来自机器 人身上摄像头等的)视觉信息,事后发觉机器的潜在问题。此类系统可以猜测 包装或汽车拆卸机器人能否会中缀,这是一项巨大的贡献。 这同样可用于降低不良率,系统可以检测出整个生产线上各个组件中的缺陷。 这使得制造商实时响应,实行处理方法。缺陷可能不那么严峻,生产流程可以 连续,但是产品以某种方式被标记,或者被指向特定的生产路径。但是,有时 停止生产线是必要的。为了进一步的利益,此类系统可以针对每个用例进行训 练,按类型和严峻程度对缺陷进行分类。 医疗行业在医疗行业中,现有计算机视觉使用的数量格外浩大。 毫无疑问,医疗图像分析是最有名的例子,它可以显著提升医疗诊断流程。此 类系统对MRI图像、CT扫描图像和X光图像进行分析,找出肿瘤等特别, 或者搜索神经系统疾病的症状。 在很多情况下,图像分析技术从图像中提取特征,从而训练能够检测特别的分 胸腔3D渲染CT扫描图像的体分割。(图源: . wikipedia.org/wiki/Image_segmentation ) 上图是观看胸腔元素所需的图像分割结果。该系统分割每个重要部分并着色: 肺动脉(蓝色)、肺静脉(红色)、纵膈(黄色)和横膈(紫色)。 目前大量此类使用已经投入使用,如估量产后出血量、量化冠状动脉钙化情 况、在没有MRI的情况下测定人体内的血流量。 但是,医疗图像并非计算机视觉在医疗行业中独一的用武之地。比如,计算机 视觉技术为视障人士供应室内导航挂念。这些系统可以在楼层平面图中定位行 人和四周事物等,以便实时供应视觉体验。视线追踪和眼部分析可用于检测晚 期认知妨碍,如儿童自闭症或阅读妨碍,这些疾病与特别凝视行为高度相关。 自动驾驶你能否思考过,自动驾驶汽车如何「看」路?计算机视觉在其中扮演核心角 色,它挂念自动驾驶汽车感知和了解四周环境,进而恰当运转。 计算机视觉最令人兴奋的挑战之一是图像和视频目标检测。这包括对不同数量 的对象进行定位和分类,以便区分某个对象是交通信号灯、汽车还是行人,如 下图所示: 自动驾驶汽车目标检测。(图源:, com/max/1600/1 ^q!u Vc-MU-tC- WwFp2yXJo w.gif ) 此类技术,加上对来自传感器和/或雷达等来源的数据进行分析,使得汽车能 够「观察」。 图像目标检测是一项简单的强大任务,之前我们已经争辩过,参见: overview-in-the-age-of-deep-learning/o另一篇文章从人类-图像交互的角度探讨这一主题,参见: question-answering/o保险业 计算机视觉在保险业中的使用影响很大,尤其是在理赔处理中。 计算机视觉使用可以指点客户以视觉形式进行理赔文件处理。它可以实时分析 图像并发送至适合的保险经纪人。同时,它可以估量和调整维护费用,确定能 否在保险掩盖范围内,甚至检测能否存在保险欺诈。全部这些最大程度上缩短 了索赔流程,为客户供应更好的体验。 从预防的角度来看,计算机视觉在避开不测事故方面用途极大。大量可用于阻 挠碰撞的计算机视觉使用被整合到工业机械、汽车和无人机中。这是风险管理 的新时代,可能转变整个保险业。 农业计算机视觉对农业有极大影响,尤其是精准农业。 在粮食生产这一全球经济活动中,存在一系列贵重的计算机视觉使用。粮食生 产面临一些反复消灭的问题,之前这些问题通常由人类监控。而现在,计算机 视觉算法可以检测或合理猜测病虫害。此类晚期诊断可挂念农夫快速实行合适 措施,削减损失,保证生产质量。 另一项长期挑战是除草,由于杂草对除草剂产生抗药性,可能给农夫带来严峻 损失。现在消灭了配备有计算机视觉技术的机器人,它们可以监控整片农田, 精准喷洒除草剂。这极大地节省了使用农药量,为地球环境和生产成本均带来 了极大的好处。 土壤质量也是农业中的一大次要要素。一些计算机视觉使用可以从手机拍摄的 照片中识别出土壤的潜在缺陷和养分缺乏问题。分析之后,这些使用会针对检 测出的土壤问题,供应土壤恢复技术和可能的处理方案。 计算机视觉还可用于分类。一些算法通过识别水果、蔬菜甚至花卉的次要特性 (如大小、质量、分量、颜色、纹理等),对其进行分类。这些算法还能够检 测缺陷,估量出哪些农产品保鲜期较长、哪些该当放置在本地市场售卖。这极 大延长了农产品的保鲜期,削减了农产品上市前所需时间。 安防与零售业类似,对平安具备高要求的企业(如银行或赌场)可从计算机视觉使 用中获益,这些使用对安防摄像头拍摄的图像进行分析,从而识别顾客。 而从另一个层面上来讲,计算机视觉是国土平安任务中的强大工具。它可用于 改进港口货物检验,或者监控敏感场所,如大使馆、发电站、医院、铁路和体 育场。这里,计算机视觉不只能够分析和分类图像,还能对场景供应具体且有 意义的描述,为决策实时供应关键要素。 通常,计算机视觉广泛使用于国防任务,如侦查敌军地形、自动确认图像中的 敌军、自动化车辆和机器移动,以及搜索拯救。 典型的计算机视觉任务高度复制人类视觉系统,这是如何做到的呢? 计算机视觉基于大量不同任务,并组合在一起实现高度简单的使用。计算机视 觉中最常见的任务是图像和视频识别,涉及确定图像包含的不同对象。 图像分类计算机视觉中最知名的任务可能就是图像分类了,它对给定图像进行分类。我 们看一个简约的二分类例子:我们想依据图像能否包含旅游景点对其进行分 类。假设我们为此任务构建了一个分类器,并供应了一张图像(见下图)。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服