计算机视觉(ComputerVision,CV)是一门研究如何让计算机达到人类那样“看”的学科。更准确点说,它是利用摄像机和电脑代替人眼使得计算机拥有类似于人类的那种对目标进行分割、分类、识别、跟踪、判别决策的功能。作为一个新兴学科,计算机视觉是通过对相关的理论和技术进行研究,从而试图建立从图像或多维数据中获取“信息”的人工智能系统。
它是一门综合性的科学技术,主要包括计算机科学与工程、信号处理、物理学、应用数学与统计、神经生理学和认知科学等。
目前,计算机视觉技术已经应用在制造业、工业检验、文档分析、医疗诊断、军事目标跟踪、自主导航等系统当中。
下面,让我们举例来更直观的了解计算机视觉所包含的范围;
(1)判断当前图片中车辆的个数、颜色、类型、外观;
(2)根据图片判断当前的零件是否有缺陷;
(3)对图片中的数字和字符进行提取和分类判别;
(4)判断当前图片中是否有人脸;
(5)对当前图片中的人脸与黑名单中的人脸进行比对验证;
(6)跟踪当前视频序列中的车辆;
(7)判断图片中人脸的表情;
(8)根据病人的CT图片判断该病人的病情;
(9)根据摄像机成像跟踪导弹当前的运动轨迹;
(10)根据车辆前方的摄像头成像来判断前方车辆与当前车辆的距离,从而决定是否需要提速或检测;
(11)判断当前图片是电脑还是DVD;
。。。
上面的例子对于人类了来说是非常简单的,不过,对于计算机来讲,却异常复杂。原因在于人类经过几年甚至十多几十年的学习、认识和了解,已经对现实世界中存在的各种事物有了一个准确完善的分类归纳能力。而计算机则因为没有经过一个长久的、完整的学习和理解过程而显得比人类笨拙许多。试想一下,一个刚出生的婴儿,除了具备吃奶这样一个哺乳动物天生就有的能力外,他能够分清不同的人么?他能够分清不同的颜色、不同的形状、不同的外观、不同的表情么?很显然,不能!而一个三岁的小孩,应该可以基本分清常见的一些亲人了,但是,他却很难分清哪个是电脑哪个是DVD那个是Xbox360;另外,对于一个不具备医学知识的成年人来说,即使给他一张CT图片,他也很难判断这个CT图片的来判断是患病还是健康。究其原因,跟刚才提到的三岁小孩一样,都没有经过一个完整的、系统的、长久的、专业的学习训练过程。同样的道理,让计算机来达到人类所具备的这些能力,也需要一个完善的学习过程。如果完全不对计算机进行训练,那么它就跟刚出生的婴儿没什么区别,什么也不会。如果对他进行一些不完善的学习,那么它的某些视觉判断能力估计也就跟三岁小孩差不多。显然,如果想要让计算机对所“看见”的事物具有同正常成年人相接近的理解能力,就需要大量的样本来对计算机进行完善的、系统的学习和训练。
比如,让计算机来判断当前物体的颜色。那么,就需要有一种手段使得计算机能够对各种颜色进行区分。而为了达到这样一个目的,计算机需要依次完成以下步骤:
(1)获取到相机捕获的图片;
(2)对需要进行颜色判别的物体进行分割;
(3)对物体进行特征提取;例如,RGB的均值是多少,方差值是多少,HSV的均值是多少,方差是多少,等等。。。
(4)对所提取的特征进行选择;比如,在理想条件下对苹果的颜色进行分类判别,可以用RGB均值;而在实际应用对人脸的肤色进行判断可能要用到HSV颜色空间等。
(5)针对大量的训练样本进行分类器设计与训练;
(6)针对实际的测试图片,在提取特征之后,将特征输入到分类器当中进行分类判别;
不难发现,其实计算机处理事物的逻辑顺序和人脸处理事物的逻辑顺序是一样的。只不过,由于人类已经经过了长年累月的学习,所以可以做到“不假思索”的对所看到的事物作出准确的理解和判断。而计算机在处理的过程当中,由于传感器灵敏度不高、成像质量不好、对图片不能有效的去处噪声、不能准确的提取事物的特征、不能准确的对事物作出分类归纳,所以往往造成了计算机的视觉能力比人类低下等情况的发生。值得提醒的是,由于计算机拥有人类所无法比拟的一些特点,例如,没有疲惫感、没有情绪、处理速度快等,所以,人们还是希望在很多场合能够代替人类来参与一些诸如监控火灾、统计车流量、识别车牌等繁琐重复性的社会活动。
而如今,随着计算机视觉技术的不断发展,越来越多的新产品,越来越多的全新的用户体验方式正在强烈的冲击着人们传统的生活方式。下面,就让我们举几个典型的例子来说明其中用到计算机视觉技术的一些产品:
(1)最近微软公司特别火爆的应用于Xbox360上的kinect,这其中包括了人脸检测、人脸识别与跟踪、动作跟踪、表情判断、动作识别与分类等计算机视觉领域的前沿技术;
(2)Google公司专门为android开发的免费软件goggles,它的功能简单点说,就是利用手机拍照得到的图片进行检索,专业术语叫做基于内容的图片检索(ContentBasedImageRetrieval,CBIR)如今仍然是计算机视觉领域的一个热门分支;
(3)Facebook公司的人脸识别分类软件;目前人脸识别在计算机视觉领域已经从事了近半个世纪的理论研究;
(4)2006年美国热播剧集《prisonbreak》中男主角MicroScofield被FBI特工用市区监控摄像头进行实时跟踪的画面,这里用到的视频跟踪技术并不是科幻,而是计算机视觉领域真实存在的一个热门研究领域;
(5)Google的无人驾驶汽车技术;该技术运用了各种摄像头、激光设备、雷达传感器等,并根据摄像头捕获到图片及雷达和激光设备相互配合来感知车辆当前的速度,前方的交通标识、车道识别、判断周围行人与车辆的距离等信息,并以此来做出加速、减速、停车、左转、右转等判断,从而控制汽车实现真正的“自驾游”。需要提醒的是,除了google,大众和intel也在从事无人汽车驾驶技术的研究工作。
(6)腾讯QQ实验室最近发布的QQ手势达人forPPT,利用摄像头捕获手势的图片,并对简单的手势进行分类判别,从而实现翻PPT的目的;
(7)Googlestreetview(google街景)和微软的streetslide,都是一种用来观看城市街道景色的软件,尤其是streetslide,利用普通相机拍摄的二维图片进行拼接,从而生成了全景图,使得用户可以在街道当中漫游。相信研究计算机视觉的人应该不会对图像拼接太陌生;
<!--EndFragment-->
分享到:
相关推荐
计算机视觉系统及其市场分析.pdf 计算机视觉系统是指使用计算机代替人类眼睛和大脑,进行视觉感知和解释的技术。该技术具有广泛的应用前景,如机器人、工业自动装配、生物医学图像诊断、遥感照片解释等。 计算机...
计算机视觉的研究对象是计算机视觉系统,研究内容包括计算机视觉系统的原理、结构、算法和应用。 计算机视觉的三个阶段: 1. 第一阶段:将输入的原始图像进行处理,抽取基本特征形成基元图。 2. 第二阶段:在以...
计算机辅助绘图 1960年代初,美国I Sutherland提出交互式 计算机辅助 绘图的概念 ,由此开创 了计算机图 形学和计算 机辅助绘图 技术的领域 虚拟设计及其应用培训资料全文共55页,当前为第15页。 计算机辅助几何...
图像融合技术可以广泛应用于遥感、机器视觉、计算机视觉、图像处理等领域。 图像融合技术可以分为灰度图像融合技术和彩色图像融合技术两种。灰度图像融合技术是指将多个灰度图像融合成一个新的灰度图像,而彩色图像...
多媒体技术及应用教程 多媒体技术是计算机产业发展的新领域,涵盖了多媒体计算机的...8. 计算机视觉 通过学习本教程,学生将具备设计、开发和应用多媒体计算机系统的能力,并了解多媒体计算机的发展趋势和应用前景。
8. 粒子群优化算法的发展前景:粒子群优化算法的发展前景广阔,未来可以应用于更多领域,例如机器学习、数据挖掘、计算机视觉等领域。 粒子群优化算法是一种高效的优化算法,可以解决复杂优化问题,具有广泛的应用...
1.1计算机图形学及其相关概念 1.2计算机图形学的发展 1.2.1计算机图形学学科的发展 1.2.2图形硬件设备的发展 1.2.3图形软件的发展 1.3计算机图形学的应用 1.3.1计算机辅助设计与制造 1.3.2计算机辅助...
(2)由于深度学习技术的成功应用而取得了重大突破的领域,比如语音识别和计算机视觉等;(3)由于深度学习的应用而有可能发生巨变的应用领域,以及从深度学习的新研究中获益的应用领域,其中包括自然语言和文本处理...
人工智能及其在金融领域的应用 当前,我国经济发展处于新旧动能转换关键期,人工智能对于我国抢占科技制高点 ,推动供给侧结构性改革,实现社会生产力新跃升,提高综合国力和国际竞争力具有重要 意义.2017年7月,...
3. 计算机视觉学 4. 图形用户界面(GUI) 5. 视觉特效 四、显示设备 1. 液晶显示器(LCD) 2. 发光二极管(LED) 3. 随机扫描 4. 光栅扫描 五、图形输入与输出设备 1. 键盘输入 2. 鼠标输入 3. 扫描仪输入 4. ...
拉普拉斯二维主成分分析及其在人脸识别中的应用 拉普拉斯二维主成分分析是一种基于二维主成分...人脸识别是计算机视觉和模式识别中一个重要的研究领域,拉普拉斯二维主成分分析方法为人脸识别领域带来了新的发展机遇。
机器学习是人工智能领域的重要分支之一,已经被广泛应用于开发计算机视觉、语音识别、自然语言处理等技术。随着数据量的急速增长,机器学习的应用在营销领域也变得越来越重要。机器学习能够充分利用大数据,发现更多...
正交矩阵及其性质PPT学习...正交矩阵及其性质是线性代数中一个重要的概念,它广泛应用于机器学习、计算机视觉、数据分析等领域。深入了解正交矩阵的概念和性质,对于我们更好地理解和应用线性代数的方法具有重要意义。
贝叶斯滤波和卡尔曼滤波是两个非常重要的状态估计方法,它们广泛应用于机器人、自动驾驶、导航、计算机视觉等领域。贝叶斯滤波是一种基于贝叶斯公式的状态估计方法,而卡尔曼滤波则是贝叶斯滤波的一种特殊形式,用于...
3. 场景知觉的应用:研究场景知觉的应用,包括计算机视觉、人工智能、心理学等领域。 四、场景知觉的研究方法 场景知觉的研究方法包括: 1. 实验设计:设计实验来研究场景知觉,包括刺激材料的选择、实验过程的...
此图像投影几何软件包旨在作为开发Julia的计算机视觉投影几何函数库的起点。 当前,该程序包由许多组件组成,这些组件最终可以/应该被分离成单独的程序包,或者有助于其他现有的程序包。 同样,这些功能中的某些功能...
新设计比重很小 人工效率低、工作繁琐 加工停留时间短,流通时间长 计算机应用的必要性 概念设计定义 在确定任务后,通过抽象化,拟定功能结构,寻求适当的作用原理及其组合等,确定出基本求解途径,得出求解方案的...
计算机视觉是人工智能的一个领域,训练计算机解释和理解视觉世界。利用来自相机、视频和深度学习模型的数字图像,机器可以准确地识别和分类物体,然后对它们看到的东西做出反应。在过去几年里,深度学习使得计算机...
在某些应用中,对线性链表中的每个结点设置两个指针,一个称为左指针,用以指向其前件结点;另一个称为右指针,用以指向其后件结点。这样的表称为双向链表。 在线性链表中,各数据元素结点的存储空间可以是不连续的...