收藏 分销(赏)

0-计算机视觉如何入门计算机视觉-0条你不能不看的总结.docx

上传人:二*** 文档编号:4767801 上传时间:2024-10-12 格式:DOCX 页数:9 大小:97.47KB
下载 相关 举报
0-计算机视觉如何入门计算机视觉-0条你不能不看的总结.docx_第1页
第1页 / 共9页
本文档共9页,全文阅读请下载到手机保存,查看更方便
资源描述
【计算机视觉】如何入门计算机视觉,10条你不能不 看的总结新机器视觉 2020-01-10 原文 作者ZeroZone零域 链接 1839导读 目前,人工智能,机器学习,深度学习,计算机视觉等己经成为新时代的风向 标。 这篇文章次要引见 了下面几点: 第一点,假如说你要入门计算机视觉,需要了解哪一些基础学问? 其次点,既然你要往这方面学习,你要了解的参考书籍,可以学习的一些公开课 有哪些? 第三点,可能是大家都比较感爱好的,就是计算机视觉作为人工智能的一个分 支,它不行避开的要跟深度学习做结合,而深度学习也可以说是融合到了计算机 视觉、图像处理,包括我们说的自然言语处理,所以本文也会简约引见一下计算 机视觉与深度学习的结合。 第四点,身处计算机领域,我们不行避开的会去做开源的工作,所以本文会给大 家引见一些开源的软件。 第五点,要学习或者争辩计算机视觉,确定是需要去阅读一些文献的,那么我们 如何开头阅读文献,以及渐渐的找到本人在这个领域的方向,这些都会在本文理 进行简约的引见。 1. 基础学问 接下来要引见的,第一点是计算机视觉是什么意思,其次是图像、视频的一些基 础学问。包括摄像机的硬件,以及 CPU和 GPU的运算。 在计算机视觉里面,我们也不行避开的会涉及到考虑去使用CPU还是使用GPU 去做运算。然后就是它跟其他学科的交叉,由于计算机视觉可以和很多的学科做 交叉,而且在做学科交叉的时候,能够发挥的意义和使用价值也会更大。另外, 对于以前并不是做人工智能的伴侣,可能是做软件开发的,想去转型做计算机视 觉,该如何转型?需要学习哪些编程言语以及数学基础?这些都会在第一小节给 大家引见。 2. 什么是计算机视觉计算机视觉是一门争辩如何使机器“看”的科学。 更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等 机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观看或传送给一起 检测的图像作为一个科学学科,计算机视觉争辩相关的理论和技术,视图建立能够从图像或 者多维数据中猎取“信息”的人工智能系统。 目前,格外火的VR、AR, 3D处理等方向,都是计算机视觉的一部分。 计算机视觉的使用 无人驾驶 无人安防 人脸识别 车辆车牌识别 以图搜图 VR/AR 3D重构 医学图像分析 无人机 其他了解了计算机视觉是什么之后,给大家列了一下当前计算机视觉领域的一些使 用,几乎可以说是无处不在,而且当前最火的全部创业的方向都涵盖在里面了。 其中包括我们经常提到的无人驾驶、无人安防、人脸识别。人脸识别相对来说己 经是一个最成熟的使用领域了,然后还有文字识别、车辆车牌识别,还有以图搜 图、VR/AR,还包括3D重构,以及当下很有前景的领域-医学图像分析。 医学图像分析他在很早就被提出来了,已经争辩了很久,但是现在得到了一个重 新的进展,更多的争辩人员包括无论是做图像的争辩人员,还是本身就在医疗领 域的争辩人员,都越来越关注计算机视觉、人工智能跟医学图像的分析。而且在 当下,医学图像分析也孕育了不少的创业公司,这个方向的将来前景还是很值得 期盼的。然后除此之外还包括无人机,无人驾驶等,都使用到了计算机视觉的技 术。 3. 图像和视频,你要晓得的概念 图像一张图片包含了 :维数、高度、宽度、深度、通道数、颜色格式、数据首地 址、结束地址、数据量等等。 。举 例:JPEG压 缩,将原始图像分为8*8的小块,每个block里有64pixels0 1 ,将图像中每个8*8的block进行DCT变换(越是简单的图像,越不简约被压缩) 3,不同的图像被分割后,每个小块的简单度不一样,所以最终的压缩结果 也不一样 o当一个像素占用的位数越多时,它所能表现的颜色就更多,更丰富。 o举例:一张400*400的8位图,这张图的原始数据量是多少?像素值假如 是整型的话,取值范围是多少 ? 1,原始数据量计算:400 * 400 * ( 8/8 ) = 160,000Bytes (约为160K)2 ,取值范围:2的8次方,0-255 o图像深度:存储每个像素所用的位数(bits)o图片格式与压缩:常见的图片格式JPEG , PNG , BMP等本质上都是图片 的一种压缩编码方式 视频 原 始 视 频 = 图 片 序 列。 视频中的每张有序图片称为"帧(frame ) \压缩后的视频,会实行各种算法削 减数据的容量,其中IPB就是最常见的。 。I帧:表示关键帧,可以理解为这一幅画面的完整保留;解码时只需要本帧 数据就可以完成(由于包含完整画面)。P帧:表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需 要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差 别帧,P帧没有完整画面数据,只要与前一帧画面差别的数据) o B帧表示双向差别帧,记录的本帧与前后帧的差别(具体比较简单,有4 种情况),换言之,要解码B帧,不只要取得之前的缓存画面,还要解码 之后的画面,要通过前后画面与本帧数据的叠加取得最终的画面。B帧压 缩率高,但是解码比较麻烦。 。码率:码率越大,体积越大;码率越小,体积越小。 码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps 即千位每秒。也就是取样率(并不等同于采样率,采样率用的单位是Hz, 表示每秒采样的次数),单位时间内取样率越大,精度就越高,处理出来 的文件就越接近原始文件,但是文件体积与取样率是成反比的,所以几乎 全部的编码格式注重的都是如何用最低的码率达到最少的失真,围绕这个 核心衍生出来cbr (固定码率)与vbr (可变码率),码率越高越清楚,反 之则画面粗糙而且多马赛克。 。帧率影响画面流畅度,与画面流畅度成反比:帧率越大,画面越流畅;帧率越 小,画面越有跳动感。假如码率为变量,则帧率也会影响体积,帧率越 高,每秒钟经过的画面就越多,需要的码率也越高,体积也越大。 帧率就是在一秒钟时间里传输的图片的帧数,也可以理解为图形处理器每 秒钟刷新的次数。 o辨别率o影响图像大小,与图像大小成反比;辨别率越高,图像越大;辨别率越 低,图像越小。 。清楚度在码率肯定的情况下,辨别率与清楚度成反比关系:辨别率越高,图像越 不清楚,辨别率越低,图像越清楚 在辨别率肯定的情况下,码率与清楚度成反比关系:码率越高,图像越清 楚;码率越低,图像越不清楚 。带宽、帧率例如在ADSL线路上传输图像,上行带宽只要512Kbps,但要传输4路 CIF辨别率的图像。依据常规,CIF辨别率建议码率是512Kbps ,那么照 此计算就只能传一路,降低码率势必会影响图像质量。那么为了确保图像 质量,就必需降低帧率,这样一来,即便降低码率也不会影响图像质量, 但在图像的连贯性上会有影响。 4. 摄像机 摄像机的分类: 监控摄像机(网络摄像机和摸你摄像机) 不同行业需求的摄像机(超宽动态摄像机、红外摄像机、热成像摄像机等) 智能摄像机 工业摄像机当前的摄像机硬件我们可以分为监控摄像机、专业行业使用的摄像机、智能摄像 机和工业摄像机。而在监控摄像机里面,当前用的比较多的两个类型一个叫做网 络摄像机,一个叫做模仿摄相机,他们次要是成像的原理不太一样。 网络摄像机一般比传统模仿摄相机的清楚度要高一些,模仿摄像机当前该当说是 渐渐处于一个淘汰的形态,它可以理解为是上一代的监控摄像机,而网络摄像机 是当前的一个主流的摄相机,或许在13年的时候,可能市场上70%到80%多 都是模仿摄像机,而现在可能60%到70%都是的网络摄像机。 除此之外,不同的行业其时会有特定的相机,想超宽动态摄像机以及红外摄像 机、热成像摄像机,都是在公用的特定的领域里面可能用到的,而且他获得的画 面跟图像是完全不一样的。假如我们要做图像处理跟计算机视觉分析,什么样的 相机对你更有利,我们要学会利用硬件的优势。 假如是做争辩的话一般是可以把握我们用什么样的摄相机,但假如是在实际的使 用场景,这个把控的可能性会略微小一点,但是在这里你要晓得,有些问题可能 你换一种硬件,它就能够很好的被处理,这是一个思路。 还有些问题你可能用算法弄了很久也没能处理,甚至是你的效率格外差,成本格 外高,但是稍稍换一换硬件,你会发觉原来的问题都不存在了,都被很好的处理 了, 这个就是硬件对你的一个新的境况了。 包括现在还有智能摄像机、工业摄像机,工业摄像机一般的价格也会比较贵,由 于他公用于各种工业领域,或者是做一些精密仪器,高精度高清楚度要求的摄像 机。 5. CPU 和 GPU 接下来给大家讲一下CPU跟GPU,假如说你要做计算机视觉跟图像处理,那么 确定跳不过GPU运算,GPU运算这一块可能也是接下来需要学习或者自学的一 个学问点。 由于可以看到,当前大部分关于计算机视觉的论文,很多实现起来都是用GPU 去实现的,但是在使用领域,由于GPU的价格比较昂贵,所以CPU的使用场景 相 对 来 说 还 是 占 大 部 分。 而CPU跟GPU的差别次要在哪里呢?它们的差别次要可以在两个方面去对比, 第一个叫功能,其次个叫做吞吐量。 功能,换言之,功能会换成另外一个单词叫做Latency (低延时性)。低延时性 就是当你的功能越好,你处理分析的效率越高,相当于你的延时性就越低,这个 是功能。另外一个叫做吞吐量,吞吐量的意思就是你同时能够处理的数据量。 而CPU跟GPU的差别在哪里呢?次要就在于这两个地方,CPU它是一个高功 能,就是超低延时性的,他能够快速的去做简单运算,并且能达到一个很好的功 能要求。而GPU是以一个叫做运算单元为格式的,所以他的优点不在于低延时 性,由于他的确不擅长做简单运算,他每一个处理器都格外的小,相对来说会很 弱,但是它可以让它全部的弱处理器,同时去做处理,那相当于他就能够同时处 理大量的数据,那这个就意味着它的吞吐量格外大,所以CPU注重的是功能, GPU 注 重 的 是 吞 吐 量。 所以大部分时候,GPU他会跟另外一个词语联系在一起,叫做并行计算,意思 就是它可以同时做大量的线程运算,为什么图像会特殊适合用GPU运算呢?这 是由于GPU它最开头的设计就是叫做图形处理单元,它的意思就是我可以把每 一个像素,分割为一个线程去运算,每一个像素只做一些简约的运算,这个就是 最 开 头 图 形 处 理 器 消 灭 的 原 理。 它要做图形渲染的时候,要计算的是每一个像素的变换。所以每一个像素变换的 计算量是很小很小的,可能就是一个公式的计算,计算量很少,它可以放在一个 简约的计算单元里面去做计算,那这个就是CPU跟GPU的差别。 基于这样的差别,我们才会去设计什么时候用CPU,什么时候用GPU。假如你 当前设计的算法,它的并行力量不是很强,从头到尾从上到下都是一个简单的计 算,没有太多可并性的地方,那么即便你用了 GPU,也不能挂念你很好提升计 算功能。 所以,不要说别人都在用GPU那你就用GPU,我们要了解的是为什么要用 GPU ,以及什么样的情况下用GPU,它效果能够发挥出来最好。 6. 计算机视觉与其他学科的关系 计算机视觉目前跟其他学科的关系格外的多,包括机器人,以及刚才提到的医 疗、物理、图像、卫星图片的处理,这些都会经常使用到计算机视觉,那这里 呢,最常问到的问题无非就是有三个概念,一个叫做计算机视觉,一个叫做机器 视觉,一个叫做图像处理,那这三个东西有什么区分呢? 这三个东西的区分还是挺因人而异的,每一个争辩人员对它的理解都不一样。 首先,Image Processing更多的是图形图像的一些处理,图像像素级别的一些处 理,包括3D的处理,更多的会理解为是一个图像的处理;而机器视觉呢,更多 的是它还结合到了硬件层面的处理,就是软硬件结合的图形计算的力量,跟图形 智能化的力量,我们一般会理解为他就是所谓的机器视觉。 而我们今日所说的计算机视觉,更多的是偏向于软件层面的计算机处理,而且不 是说做图像的识别这么简约,更多的还包括了对图像的理解,甚至是对图像的一 些变换处理,当前我们涉及到的一些图像的生成,也是可以归类到这个计算机视 觉 领 域 里 面 的。 所以说计算机视觉它本身的也是一个很基础的学科,可以跟各个学科做交叉,同 时,它本人内部也会分的比较细,包括机器视觉、图像处理。 7. 参考书籍和公开课 参考书第一本叫《Computer Vision: Models, Learning and Inferencewritten by Simon J.D. prince,这个次要讲的更适合入门级别的,由于这本书里面配套了格 外多的代码,Matlab代码,C的代码都有,配套了格外多的学习代码,以及参考 材料、文献,都配得格外具体,所以它很适合入门级别的同学去看。 其次本 (Computer Vision: Algorithms and Applications》written by Richard Szeliski,这是一本格外经典,格外权威的参考材料,这本书不是用来看的,是 用来查的,类似于一本工具书,它是涵盖面最广的一本参考书籍,所以一般会可 以当成工具书去看,去查阅。 第三本《OpenCV3编程入门》作者:毛星云,冷雪飞,假如想快速的上手去实 现一些项目,可以看看这本书,它可以教你动手实现一些例子,并且学习到 OpenCV最经典、最广泛的计算机视觉开源库。 公开课: StanfordCS223B比较适合基础,适合刚刚入门的同学,跟深度学习的结合相对来说会少一点,不 会整门课讲深度学习,而是次要讲计算机视觉,方方面面都会讲到。 StanfordCS231N这个该当不用引见了,一般很多人都晓得,这个是计算机视觉和深度学习结合的 一门课,我们上YouTube就能够看到,这门课的授课老师就是李飞飞老师,假 如说不晓得的话可以查一下,做计算机视觉的话,此人算是业界和学术界的“执 牛耳”了。 8 .需要了解的深度学习学问 深度学习没有太多的要讲的,不是说内容不多,是格外多,这里只推举一本书给 大家,这本书是去年年底才出的,是最新的一本深度学习的书,它讲得格外金 面,从基础的数学,到刚才说的概率学、统计学、机器学习以及微积分、线性几 何的学问点,格外的全面。 .需要了解和学习的开源框架 OpenCV它是一个很经典的计算机视觉库,实现了很多计算机视觉的常用算法。可以挂念 大 家 快 速 上 手。 Caffe假如是做计算机视觉的话,比较建议Caffeo Caffe更擅长做的是卷积神经网络, 卷积神经网络在计算机视觉里面用的是最多的。 所以无论你后面学什么样其它的开源软件,Caffe是必不行免的,由于学完 Caffe之后你会发觉,假如你理解了 Caffe,会用Caffe,甚至是无力量去改它的 源代码,你就会发觉你对深度学习有了一个质的飞跃的理解。 TensorFlowTensorFlow最近很火,但是它的入门门槛不低,你要学会使用它需要的时间远 比其他全部的软件都要多,其次就是它当前还不是特殊的成熟稳定,所以版本之 间的更新迭代格外的多,兼容性并不好,运转效率还有格外大的提升空间。 9 .如何阅读相关文献 先生疏所在方向的进展历程,然后精读历程中的里程碑式的文献。 例如:深度学习做目标检测,RCNN, Fast RCNN, Faster RCNN, SPPNET, SSD和YOLO这些模型确定是要晓得的。又例如,深度学习做目标跟踪, DLT, SO・DLT 等。 ICCV: International CVPR: International Conference on Computer Vision ,国际计算机视觉大会Conference on Computer Vision and Pattern Recognition, 机视觉与模式识别大会 ECCV : European Conference on Computer Vision ,欧洲计算机视觉大会 除了顶会之外呢,还有顶刊。像PAMI、IJCV,这些都是顶刊,它代表着这个领域里面最尖端最前沿以及当下的争辩方向。 域里面最尖端最前沿以及当下的争辩方向。 先进制造业+工业互联网
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服