栋川资讯

「恒亚集团官网」触控屏要变老古董了?3D深度视觉产业链全解读

发表时间:2019-12-23 08:09:18  浏览次数:1921  
字体大小: 【小】 【中】 【大】

「恒亚集团官网」触控屏要变老古董了?3D深度视觉产业链全解读

恒亚集团官网,智东西

编 | 十四

随着硬件端技术的不断进步,算法与软件层面的不断优化,3d深度视觉的精度和实用性得到大幅提升,尤其是tof方案与vcsel的快速成熟,使得基于3d深度视觉的“深度相机+手势/人脸识别”具备了大规模进入移动智能终端的基础。

市场研究机构 abi research预估,全球眼球追踪、手势以及距离传感器技术领域在2016年创造近50亿美元的收入 。免提操作或手势识别很快将成为高端旗舰智能手机、媒体平板电脑和智能眼镜区别于其他同类产品的一个关键因素。

本期的智能内参,我们推荐来自海通证券的3d深度视觉产业报告。如果想收藏本文的报告全文,可以在智东西(公众号:zhidxcom)回复关键词“nc129”下载。

以下为智能内参整理呈现的干货:

尽管触控显示屏的识别精度和清晰度越来越高,但是,触控显示屏限制了用户的使用空间和灵活性 , 为了解决这一问题,语音控制与体感控制开始出现。

语音识别可以完全解放双手,但对于游戏娱乐、互动体验、拍照等领域,这些必须有用户肢体参与的场景,语音交互无法满足需求。 因此 ,比现今触控屏更高层次的体感交互成为了广大厂商追求的目标。

*人机交互发展趋势趋势

*3d深度视觉在众多领域具有广阔前景

手势识别: 场景丰富的百亿级市场

无论是消费级市场的游戏、娱乐、交互,还是商业领域的医疗、工业、军事等,都需要丰富的手部动作来参与,因此手势识别具有非常广泛的应用场景。

根据ihs的数据,2014年全球手势识别与传感器市场达到了31.2 亿美元的规模,过去几年的复合年增长率为32.78% ,预计到2022年该市场规模预计将达321.6亿美元。

*手势识别国内外产业链公司汇总

由于消费级市场更加的庞大,具有更强的爆发力,因此现阶段,广大厂商在 vr/ar(hololens)、汽车(在仪表盘上安装tof摄像头)、智能电视(三星)、游戏机(微软xbox)等领域的手势识别投入巨大的资源,并且已经取得了一定的成功,正在不断提升技术水平、准确度和应用的实用性。

手机中集成手势识别将带来众多的益处,包括:全新的用户界面实现了超越触摸屏的更深层次的控制功能,并将引领游戏和智能手机控制进入全新时代;新的控制感知更为灵活,戴着手套或是手不干净时也可进行控制;带来更丰富的用户体验,它无需机械开关、无需触摸屏或按钮就可实现家居自动化。

*手势识别应用案例

人脸识别: 从专业市场走向消费市场

人脸识别技术经历了二维可见光图像人脸识别、三维图像人脸识别/热成像人脸识别、基于主动近红外图像的三维多光源人脸识别三层进化过程,逐渐解决了光线等环境的变化对于人脸识别的影响,加之算法的不断精准演化,人脸识别技术不再局限于简单的单体身份认证,逐渐进入越来越多新的应用领域。

安防监控领域,人脸识别技术已经开始应用在刑侦、人流监控、人证合一等;人脸识别可以替代手势识别完成移动端的身份认证、支付交易确认、权限登录等功能;人脸识别可以直接获取消费者面部表情、生理年龄或精神状态;人脸识别还可以用于移动端自拍的快速对焦,用户自拍美颜等功能……

*人脸识别技术用于判断驾驶员精神状态

苹果:整合行业先驱primesense

苹果习惯于快(mai)速(mai)吸(mai)收新技术并用于未来的旗舰 iphone。2013年11月,苹果以3.45亿美元收购以色列 3d 传感器生产商 primesense。primesense的成名之战是给微软kinect体感控制器提供3d技术。收购primesense之后,苹果着力推动primesense 的3d体感控制器向小型化发展。

*primesense 3d传感器capri

2015年4月,美国专利局公布苹果 ,美国专利局公布苹果 3d 手势控制技术专利 ,通过专业化的算法更精确地识别用户的手势。即便带有特征的部分恰好被遮挡住,只要将包含被遮挡部分的图片片段忽略掉,仍然能够得到特定场景的精确描述符。配上数据库中储存的已知距离数据和运动学数据,就能获得可靠的手部动作和位置数据。

2015年10月,苹果公司关于手势和面部识别的专利再次出现,当用户与他人通过视频相关的应用(如视频)进行互动时,他们可以通过简单的手势,将视频画面中特定对象保存为本地图片。

*2015年苹果手势控制专利-识别视频中的物体并保存

2016 年7月,苹果再次公布新型3d手势控制专利 ,是一个图形投影仪,内嵌在一个诸如 iphone手机这样的 ios 设备上,可以识别出用户的手势操作,由此可以作为把手势作为游戏的控制杆或者控制器。

*2016年苹果3d手势识别专利结构图

面部识别方面,2015年7月,美国专利局批准了一项苹果提交的面部识别专利,名为“低门槛面部识别”,苹果此番获得的低门槛识别技术专利基于前置摄像头捕获的图像,然后图像处理器会对该图像进行处理,随后便与存储在参考模块中的图像进行对比。

*苹果“ 低门槛面部识别”专利

英特尔:持续强化升级realsense

早在 2012 年左右,英特尔便着重研发实感技术,当时叫 perceptual computing,即感知计算,并开放英特尔感知计算软件开发套件2013版。2013 年1月,英特尔联合nuance等多家公司推出了“感知计算”,类似于微软的 kinect,可进行手势与人脸识别,缺点是设备体积大,必须借助 pc 电脑完成。

随着技术完善与成熟,2014 年初更名为 realsense,即实感技术,而后发布了新的感知计算软件开发套件2014 版。2015 年英特尔新的 realsense 模块明显比之前的版本更小、更轻薄,它的运行温度更低,同时还拥有更大的识别范围。

*集成于电脑内部的realsense

realsense 的核心技术是红外线传感器(ir sensor),用于接收来自红外线发射器投射的光场信息,这使得 realsense 在探测范围内,能够创造出一幅 vga 级别分辨率的深度图,拓展版的模块还包括一个加速计和陀螺仪。目前,realsense 3d摄像头已经集成进戴尔、联想、华硕、惠普、宏碁 等厂商的产品。

*英特尔realsense组合产品与 sdk

在具体的识别能力方面,realsense 前置相机精度更高,可以在 0.2–1.2 米范围内跟踪手上的 22 个点的位置和方向。左右手是区分的,因而可以双手进行交互,可以实现静态手势识别和动态手势识别。

realsense 相机同样可以提供3d脸部检测与跟踪,可以同时跟踪4张人脸,可以获得三维 xyz 坐标。与2d跟踪相比,3d头部跟踪在头部运动方面更准确。可以提供脸部 78 个标记点的跟踪以提高脸部识别和分析的精确度,同时还可以进行面部表情识别与情感识别。

*realsense可跟踪手上的22个点,脸上78个点

微软:从kinect到 handpose

微软是最早涉足 3d 视觉的公司之一,公司在游戏领域推出 xbox 游戏机,志在与索尼和任天堂的游戏机一较高下,为了形成自己的竞争优势,微软在 2010 年与primesense 合作,推出了 xbox360 体感周边外设——kinect 1代。

kinect 上市后的头 60 天内,微软总计卖出了 800 万台 kinect 设备,同时成功拿下了“吉尼斯世界纪录中销售速度最快消费者设备”的头衔。

kinect 1代采用结构光原理,主要硬件为两个摄像头和一个红外线发射器:微软x853750001 / vca379c7130 红外线感应摄像头以及 cmos;vna38209015 可见光摄像头以及 cmos;og12 / 0956 / d306 / jg05a 红外线发射器。红外线摄像头提供景深数据(z 轴),可见光学摄像头则提供色彩对比数据。

*kinect 1代平台架构图

采用结构光原理的 的 kinect 1代的游戏体验(准确度 、 图像的分辨率和响应速度)并不好,因为计算斑点位移需要用图像在一个小范围区域内的来做块匹配,导致牺牲了像素级别的细节,凸凹不平的表面、物体边缘、很细的物体很难检测准确的深度。

2012年微软先后收购了 tof(时间光)相机公司 canesta和3dv,2013 年微软终止与primesense的合作,自行开发了kinect2 代(成为 kinect one) ,采用的是 tof原理,无论精度、分辨率还是响应时间都得到了很大的提升。

2015年5月 ,微软展示了基于kinect 的实时手势跟踪系统handpose ,可在仅利用一个深度摄像头(如xbox one的kinect)的情况下对复杂手势进行精确重构。handpose 利用了机器学习、3d建模以及合成分析(利用预先建立的手势集对实时手势进行比对)等技术来提高手势识别的精度和适用范围。2016年的 hololense 便使用了handpose 技术。

*handpose 技术大幅提升 技术大幅提升手势追踪的精度

谷歌:project tango瞄准移动端

project tango由谷歌先进技术与项目部门和部分研究人员,以及硅谷 movidius(已被英特尔收购)合作研发,后者提供的芯片技术可以分析和表达来自传感器和摄像头的数据。2014年2月谷歌成功为project tango项目研发出了一款android手机原型机。2016年6月,谷歌与联想合作正式推出基于 project tango 技术的 phab2pro 手机。

谷歌的目标是将自己在智能手机端安卓的辉煌复制到未来的移动端3d视觉领域,提前在移动端运动追踪 、深度感知、 区域学习 等方面实现布局, 尤其是在软件与操作系统的赛道。

project tango 包含三块技术:运动追踪(motion tracking) ,深度感知(depth perception) 和区域学习(area learning)。

在具体的 3d 深度感知方面,project tango 可以提供结构光和 tof 两种技术方案,在结构光方面是与 primesense(已被苹果收购)合作,在 tof 方面,tango 的深度传感器采集三维信息输出“点云”数据,结合运动追踪的轨迹数据达到了对“点云”的实时拼接。

*project tango原型机拆解

在具体的手势识别方面,谷歌也锐意创新,与主流的光学方案不同,在 2015 年的谷歌开发者大会上,谷歌提出了全新的60ghz毫米波手势识别技术,项目叫project soli。谷歌开发两种 soli 芯片,一种使用脉冲雷达,约9平方毫米大小;另一种使用连续波雷达,约 11 平方毫米大小。

*soli芯片部分特点

索尼:收购softkinetic补短板

索尼是与微软、任天堂齐名的世界电子游戏业三巨头之一,但与其他两巨头相比,索尼还是有自身的短板。

以手势识别技术为例,微软的 kinect 能使用结构光的技术来对玩家的手势进行识别,但索尼的ps4 则需要通过两个普通摄像头来完成此任务。2015年10月,sony宣布收购比利时传感器技术提供商 softkinetic ,恰好可以补齐这一短板,也是为了虚拟现实与体感技术的结合。索尼在官方宣称,“ softkinetic systems sa的应用可帮助公司提升vr与 ps游戏方面的控制体验”。

softkinetic是一家专门从事深度传感摄像头技术的电脑视觉初创型企业,成立于 2007 年,专注研发体感技术,其传感器技术能够追踪诸如手势等相关的图像。softkinetic 技术能够部署到安装在增强现实和虚拟现实硬件上的摄像头之中,从而增加手势与面部追踪的能力。softkinetic 公司的摄像机采用 tof 方案。

*softkinetic的手势追踪技术

事实上,索尼此举还有更长远的目的:结合softkinetic 的技术,不仅要在图像领域,还要在更宽广的传感应用范围,发展下一代的图像传感器和解决方案。索尼在 2015年10月分拆了半导体业务部门,成立了“索尼半导体解决方案公司”。索尼的下一个目标很可能是极具潜力的体感技术市场,这对连年来处于亏损状态的索尼来说将是一个新的出路。

三星:手势专利隔空操作gear vr

美国专利局在 16 年 3 月公布了一项三星公司的专利申请,申请文件显示,三星为旗下的gear vr 头显研发了一款可以识别手势的传感器,让用户可以用手势隔空操控gear vr。

这个传感器添加在三星 gear vr 的左侧上方,可以隔空识别用户的手势操作,并反馈给 gear vr,实现选择菜单、图标、照片、视频并点击的操作,完全不需要使用到设备上的任何真实按钮。如果这项专利能在 gear vr 上成功应用,那么 vr 的操控会更加随心所欲,这也将对 vr 领域产生巨大影响。

*三星手势识别专利原理图

同时,科技公司 gestigon 和 pmd 在16年6月宣布在三星 gearvr 上合作研发手势识别,结合 pmd 的 camboard pico flexx 深度传感器和 gestigon 的 carnival ar/vr interaction suite(增强/虚拟现实互动套件),在现有的 vr 设备上进行无触摸手势交互。目前跟 gear vr 应用的交互方式非常有限,用户需要左右转动头部和点头来显示菜单选项。gestigon 的 carnival sdk 实现了一项更自然的交互,把用户的双手放在应用当中。

*gestigon和pmd 在三星 gearvr上合作研发手势识别

计算机视觉技术的发展主要经历了 : 二维静态识别、二维图像动态识别、三维图像动态识别三个阶段。以手势识别为例,相比较二维手势识别,三维手势识别增加了一个 z 轴的信息,它可以识别各种手型、手势和动作。

这种包含一定深度信息的手势识别,需要特别的硬件来实现,常见的有通过红外光 信息的手势识别,需要特别的硬件来实现,常见的有通过红外光+光学传感器来完成。

*三种手势识别类型对比

根据硬件实现方式的不同,目前行业内所采用的主流3d机器视觉大约有三种:结构光、tof 时间光、双目立体成像。

*三种3d手势识别技术对比

结构光(structure light)是目前业界比较成熟的深度检测方案,通过发射特定图形的散斑或者点阵的激光红外图案,摄像头捕捉到反射回来的图案,对比散斑或者点的大小,从而测算出被测物体到摄像头之间的距离。

时间光(time of flight)是一种光雷达 (lidar) 系统,可从发射极向对象发射光脉冲,通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离,优点在于响应速度快,深度信息精度高 , 不容易受环境光线干扰, 成为移动端手势识别最被看好的方案。

多角立体成像(multi-camera )利用两个或者两个以上的摄像头同时采集图像,通过比对同一时刻获得的图像的差别,计算深度信息。 方案的优点在于不容易受到环境光线干扰,适合室外环境,不易损坏,但不适应昏暗环境、特征不明显的场景,目前在机器人、自动驾驶领域应用较多。

*消费级市场3d视觉产业链结构

无论是结构光方案,还是 tof 方案,主要的硬件包括四部分:红外光发射器(ir ld)、红外光图像传感器(ir cis)、可见光图像传感器(vis cis)、图像处理芯片,由于 3d 视觉需要克服环境光线的干扰,因此在红外 cis 上需要添加高质量的红外滤色片(ir fliter)。另外结构光方案还需要在发射端添加光学棱镜(lens)与光栅(doe)。双目立体成像方案比结构光和tof 方案多一颗红外图像传感器。

智东西认为,基于tof的深度视觉体感交互响应快,精度高,干扰少,未来两年或成为移动端、游戏设备体感交互的技术黑马,而结构光和多角立体成像的技术成熟度使其在消费市场、基建领域的应用很有潜力。总的来看,基于深度视觉的体感交互将借势移动设备的崛起以及可穿戴、智能化技术的抬头渗透消费电子市场。

黄水新闻

栋川资讯 版权所有 CopyRight ©

本网站部分文章和图片来源于国际互联网,如涉及版权,请联系我们删除。