Aug 03, 2020

FACEBOOK/谷歌/微美全息等AI深度学习+AR技术助力交互显示扩展应用场景


通过 AR 的方式,人们可以更好的理解数物互联带来的价值,这种价值有很多可以想象的空间,比如说预测性的维护,远程服务、远程诊断,包括基于云的众包产品研发体系等等。一旦把数字和物理世界打通,就会产生越来越新的应用场景。

通过 AR 的方式,人们可以更好的理解数物互联带来的价值,这种价值有很多可以想象的空间,比如说预测性的维护,远程服务、远程诊断,包括基于云的众包产品研发体系等等。一旦把数字和物理世界打通,就会产生越来越新的应用场景。

尽管AR技术刚刚起步,但已有迹象表明其将成为主流,AR将深刻影响每个行业的企业,在未来几年,AR将改变我们学习、决策和与物理世界进行互动的方式。那么AR到底有什么用呢?说到这里就不得不提到,与AR一起近年来一起大火的人工智能。

所谓VR(虚拟现实),简单来讲就是身临其境,把自己置身到另外一个虚拟的三维空间内,看到的场景虽然可能真实存在于另外一个空间,但眼前所见的都是假的。而AR(增强现实)则是真真假假,将真实的环境和虚拟的物体实时地叠加到同一个画面或空间同时存在。

有数据显示,到2020年的时候整个AR和VR的整个市场将会达到1500亿,但是在整个市场里面AR,增强现实的市场是有1200亿,VR的市场是300亿,AR市场将是VR市场的4倍。

AR因其更强的实用性和广泛的应用性得到各领域用户的关注。事实上,AR技术正在逐渐渗入到智慧城市建设中的方方面面,在智慧城市的智能交通、智能教育、智能医疗、智能家居、智能旅游等诸多领域都实现着广泛的应用,对推动以人为本、智慧参与的智慧城市建设起着重要的作用。看AR技术如何助力智慧城市的发展。

深度学习是机器学习的一个子类,即软件试图模仿大脑中用于模式识别的部分,它已经对整个技术行业产生了巨大的影响,而这是推动AR行业向前发展的一个关键因素。计算机以人类无法模仿的速度执行任务,但计算机处理和排序信息的方式永远无法与人类相匹配。在AR领域,深度学习正被用于解决基于摄像机追踪的检测问题。这一点很重要,因为将来消费者会在智能手机以外的设备上追踪摄像头。由于增强对象是在不同的观看条件下呈现的,包括不同的方向、规模以及光线条件,因此需要深度学习工具包在多个制造商的传感器之间进行无缝整合。

深度学习是培养实时图像识别和追踪增强对象的关键,并为它们提供了真实的位置数据和特征。深度学习的潜在用途远远超过3D建模,后者是在智能手机屏幕上叠加虚拟数据,就像我们在Pokémon Go中所看到的场景。深度学习成为主流的原因在于SLAM(同步定位和绘图),它来自高层次的概述,被认为是为苹果ARKit提供动力的主要技术。具体来说,VIO(视觉惯性测量)就是个简单的SLAM系统,它让ARKit的功能更加精确。SLAM使用计算机视觉来创建一个空间的数字轮廓,并追踪与物体相关的手机位置。随着处理技术变得越来越便宜,摩尔定律将会继续生效,SLAM的能力也会随之提高。但秘诀在于软件开发。在这方面,领先的公司专注于加速性能。

要成为一个世界级的AI力量,需要具备三点:最先进的算法、专用的计算硬件,以及机器学习系统所依赖的原材料——数据的大量供应。人工智能、机器学习、深度学习、自然言处理等先进技术带来的产业革命和生产力的充分释放,经过多年的创新发展,人工智能让智能设备逐步实现从认识物理世界到个性化场景落地的跨越。

在构成人工智能行业主体的三类企业中,算法企业是推动核心底层技术发展的重要力量,其重要意义在于以算法突破工业界红线,推动其真正达到工业界应用的KPI。这类企业实际上是推动当前人工智能核心底层技术发展的根本力量。从国外的巨头微软、谷歌、FACEBOOK等无不一一深耕超算,国内的微美全息等科技企业也涌上潮头,将超算能力和场景落地结合前行。

FACEBOOK

Facebook的一项类似研究就在CVPR公布。据了解,该研究的特点是将对象(主要以人为主)叠加到现有的图片中,并且让他们通过更逼真的视角和方式融合,看上去更自然。

虽然目前各种基于神经网络模型的人像生成工具,一种是在给定条件下生成图像,另一种是让算法从零开始,自由发挥生成一个高清且逼真的人像。Facebook表示,在两者之中似乎还存在一个新的应用,那就是将给定图像中的人像嵌入到包含其它人像的图像中。

这个过程,需要生成一幅人像并嵌入到现有包含其它人像的照片中,而这个生成的人像在的质量和原有图像差别并不明显,无论是清晰度和细节。而其中的几个关键在于:人脸、衣服、头发。

据了解,Facebook通过三个GAN完成整个过程:

第一个GAN基于现有被嵌入图像中的人物之间以及人物与背景的上下文关系,并生成一副目标的人体姿势;第二个GAN呈现出新的人物细节,包括脸部细节;第三个GAN对生成图像的面部细节进行增强,保证人脸部分看上去足够逼真。经过测验,Facebook表示第一步生成的虚拟人物姿势和大多数自然的任务姿态几乎相同,但是人物与人物之间的互动仍然是一个挑战。

而该研究的应用,可以融入未来的AR/VR社交(远程社交),或者其他AR衍生应用等场景。

微美全息:

而微美全息的全息AI云服务更是在行业中独树一帜。在现有的云服务市场中,科技巨头占据多数,构建基于人工智能的云服务将成为巨头的下一个主战场。AI是信息基础设施的一个升级,是今后产业发展的巨大引擎。巨头都想把握升级过程中涌现的大量机会,赋能全行业。第二,开源是一种开放式创新。通过开源深度学习平台,不仅可以吸引大量开发者,还可以为机器学习提供大量的数据支持,以及大量的现实场景。

无论是对软件开发者的内容生成解决方案,还是针对不同硬件设备的AR功能和服务解决方案,微美全息始终致力于通过领先的AI技术为客户和产业进行赋能,并与国内外领先的合作伙伴构建完整的AR内容及应用开发生态,共同推动AR应用落地及发展。

微美全息科技已集全息AI云移动软件开发商、处事商、运营商身份于一身,也成为海内领先的全息AI领域整合平台之一。在技术储备上超过4654个全息内容IP储备,细分行业龙头企业。各环节技术成熟,客户数量为485,全息AR专利数为224,其中132项专利和92项待审批专利,技术方面日趋成熟。其商业应用场景主要聚集在家用娱乐、光场影院、演艺系统、商业发布系统及广告展示系统等五大专业领域。

微美全息(WIMI.US)以“眼界即视界”为使命,公司建立了全球顶级、自主研发的深度学习平台和超算中心,并且研发了一系列AI技术,包括:人脸识别、图像识别、文本识别、医疗影像识别、视频分析、无人驾驶和遥感等。全息3D人脸识别软件的开发基于微美的全息成像特征成像检测和识别技术、模板匹配全息成像检测技术,以及基于深度学习和训练的视频处理和识别技术。传统的2D面部识别技术是一种基于面部特征的识别技术,它从面部图像或面部视频流中捕获信息,并自动检测和跟踪目标面部;微美的全息3D面部识别技术是全息成像捕捉和3D肖像的结合的识别技术。

全息AR行业是技术密集型的。全息AR体验只能通过硬件和软件技术的结合来实现,并且与全息AR相关的技术进步将把全息AR体验带入下一阶段。例如,深度学习AI技术的突破将使全息AR设备能够以更加无缝的方式集成由摄像机捕获并由计算机模拟的内容,从而为用户提供更加身临其境的体验。此外,集成芯片的发展将使图像处理器以更低的成本生产,从而降低全息AR器件的销售价格。5G网络的广泛采用将使本地设备和互联网之间的实时数据传输成为可能,从而大大增强了内容的多样性。

谷歌:

谷歌一直是支持使用深度学习技术的一股强大力量。深度学习如今在前沿应用中非常普遍,它几乎与人工智能是一个意思了。原因很简单——它的效果明显。运用深度学习,可以破解困扰数据科学家几十年的难题,比如语音和图像识别,以及自然语言生成问题。

2011年,谷歌成立谷歌大脑项目,这是他们首次公开对深度学习潜在可能性的探索。第二年,谷歌宣布他们已经建立了一个神经网络,用来模拟人类的认知过程。这个网络在16000台电脑上运行,在学习了大约1000万张图像之后,它能够成功识别出猫。

2014年,谷歌收购了英国深度学习初创公司DeepMind。DeepMind将现有的机器学习技术和神经科学的前沿研究联系起来,开创了一种新的研究方法,让系统更精确,就像大脑一样有了智力。

DeepMind研发出了Alpha Go,为了验证算法执行任务的能力,他们让系统玩电子游戏,后来又让系统下围棋,在这个过程中他们发现系统的技术越来越高超。

谷歌在邮件服务中是如何使用深度学习的?

当证明了深度学习在实验室和游戏竞赛中很有效果之后,谷歌悄然将这项技术推向了更多的服务领域。

第一次实用是在图像识别中,可以用它对谷歌索引出的互联网上的数百万张图片进行分类。这样做可以让图像分类更精确,从而为用户提供更准确的搜索结果。

谷歌目前在深度学习的研究中,在图像分析领域的最新突破是图像增强。这包括重建或填充图像中缺失的部分,这种功能是通过从现有的数据中推断,以及利用学到的其他类似图像实现的。

Google Cloud Video Intelligence向用户开放视频分析功能。用户将视频传到谷歌服务器上之后,这个平台可以对视频的内容进行分割和分析,可以自动生成摘要,如果视频内容有可疑之处,AI甚至还会发出安全警报。

语言处理是谷歌运用深度学习的另一个服务领域。谷歌AI语音识别助手运用深度神经网络来学习如何更好地理解语音指令和问题。谷歌大脑开发的技术已经在这个项目中有所运用。

最近,谷歌的翻译服务也运用了谷歌大脑开发的技术。在新的谷歌神经机器翻译系统上进行翻译,可以将一切都任务都转移到深度学习环境中。

另外,运用谷歌大脑的技术,可以在Youtube上提供更多个性化的推荐。当我们在谷歌的服务器中浏览内容时,它会监控和记录我们的浏览习惯。已经有数据显示,为用户推荐他们想要看的视频是提高用户留存率的关键,留住了用户之后就有源源不断的广告费了。深度神经网络能充分的用来研究和学习用户的习惯和偏好,不断推荐用户喜欢的内容。

总的来说,这一切加起来才是真正的沉浸式虚拟体验,每个人都可以从各种设备中享受这些体验。尽管在整个行业中,要想实现真正的AR未来还需要我们取得更大进步,但许多伟大的公司和伟大的头脑正在共同努力,使我们的梦想早日成为现实。




联系我们



宽泛科技专注为人工智能、边缘计算、影视后期、动漫设计、商务应用等领域,

提供基于人脸识别、深度学习、视觉计算、VR/AR/MR、桌面虚拟化、

数据存储及数据可视化、视讯会议等信息化解决方案及服务。

如果您有合作需求或宝贵建议,欢迎来信。

邮箱:hezuo@kuanfans.com

合作热线:(021) 5415 5559

官方网站:www.kuanfans.com