您现在的位置:首页 >> IT >> 正文
车萝卜CEO马斌斌:GMIC峰会分享车载人机交互变革
发表时间:2016年5月5日 12:23 来源:新科技 责任编辑:编 辑:麒麟

全球移动互联网行业影响力最大的GMIC盛会,于4月28日在北京国家会议中心盛大开幕,网罗了大量互联网、移动互联网的巨头和创业新星现身,分享最新的技术进展、趋势,碰撞顶级思维,是互联网行业极具价值的重要峰会。

在4月29日举办的”全球智能汽车峰会”中,思必驰副总裁雷雄国与北京乐驾科技车萝卜CEO创始人马斌斌,将就“车载内的人机交互变革”为主题进行理念分享,在全球智能机器人大会上发表了演讲。

3522.tmp.jpg

以下为演讲实录:

雷雄国:大家下午好,我是来自思必驰的雷雄国,很高兴和大家一块分享一下车联网领域人机交互技术的一些进展。先简单介绍一下思必驰,思必驰始于剑桥大学,我们在剑桥做了一些核心的语音技术,09年回国开始做产业化的工作。我们现在的核心技术专注智能硬件领域,尤其是车载这一块。

车载场景有一个刚需,就是解决用户开车中分心处理其他信息所导致的安全问题。如何通过语音解放双手是在语音交互领域我们在车载领域需要重点解决的关键点。除了智能车载领域,思必驰在智能家居和机器人这两大方向方面也会提供完整的解决方案。

这里简单跟大家介绍下我们在语音领域的核心进展,包括车载场景下的降噪算法,产业化过程中的实际应用。同时在语音合成方案,我们也做了大量的工作,例如在情感以及旋律信息合成效果方面。在车里方面,我们会陆续推出一系列新的技术,包括语音识别++,给用户提供更好的唤醒效果,减少用户思考和动手做辅助操作的次数。在核心语义理解和人机对话、自然语言处理和深度理解用户意图方面,结合业务场景和后端的业务数据,以及上下文语义理解,让人机交互摆脱限制,在车上做到更好的体验。

我们很多合作伙伴包括主持人刚才介绍的乐驾,在实际应用刚才介绍的语音技术过程中,遇到过非常多的问题。和马总的分享也会涉及到这些。思必驰把前期打磨这套系统中积累的宝贵经验和教训都揉进了我们最新开发的AIOS语音交互系里。我们的系统现在已经集成到了很多的智能车载硬件中。目前在整个后装硬件市场里的出货量非常大,我们已经占据了后装车载硬件市场45%以上的份额。在前装市场的进展要相对慢一些,不过也在稳步推进中。

简单说这么多。刚才提到了乐驾科技是思必驰的战略合作伙伴。乐驾科技所开发的车萝卜智能车载机器人是一款非常优秀的产品。掌声欢迎乐驾车萝卜CEO马总上台和我们做分享。

马斌斌:大家好,我是乐驾科技CEO马斌斌。

雷雄国:我们的合作伙伴一直在问一个问题:HUD这个产品概念很早就提出来了,目前在市场上的进展如何?乐驾能够最早将这款产品做出来,而且实现了量产,你的法宝是什么?

70EB.tmp.jpg

马斌斌:大家都知道,智能硬件创业可能是所有创业领域里难度最大的。Navdy最早提出了放在仪表台上的HUD+语音操控这个产品概念,但到现在都还没有真正生产出来。要真正做好这样一款技术含量很高的产品,不光要具备应将研发的基础能力,还要具备ROM层和BSP驱动层的底层系统研发能力,还要具备导航等核心应用的开发能力,而且还要具备很强的供应链管理能力,能真正将产品生产出来。

据我们所知,navdy的创始人有光学方面的背景,但是在整体硬件研发生产方面还需要依赖于深圳工厂,美国和中国在时差和空间上的障碍会严重影响两地沟通的效率,这是第一点;更致命的问题是,navdy并不具备语音技术的研发能力,只能依赖于siri、安卓语音等第三方平台。而一旦依赖这样的第三方平台,就很难实现自己产品在整体体验的全语音操控,也很难基于车载场景的噪音环境和自己硬件结构对音源识别效果做深度训练和优化。而乐驾车萝卜背后有思必驰给提供强大的语音定制化开发能力和基于业务场景和硬件结构特征的深度学习和优化,我们才有可能做出真正达到实用水平的全语音操控的产品;第三、navdy也缺乏在导航等驾车场景下核心应用的深度定制开发能力。

而乐驾车萝卜的团队具备了软硬件研发生产等各个领域的资深专家,我们既有来自华为、诺基亚、阿尔派、索尼、联想的资深的软硬件开发工程师,还有前小米Note的供应链经理,还有来自索尼中国的ROM和BSP驱动层的开发高手,还有前高德地图安卓开发总监负责导航等核心应用的开发。我们集齐了智能硬件创业的所有关键成功因素,召唤神龙的时刻自然就到来了。

雷雄国:HUD这个产品比较特殊,没有屏幕,除了语音交互外,还支持哪些模态的交互,能否和大家分享一下?

马斌斌:最早的萝卜既支持语音交互,也学习navdy支持手势操控。但是在车萝卜投入实用后,我们发现手势操控其实只是一个看起来很炫的噱头,实际并不实用,而且还会给驾驶带来很大的风险。因为驾驶过程中我们需要双手抓方向盘,研究看前方道路。如果此时你竖起一只手做手势操控,不仅一只手离开了方向盘,而且你的眼睛还要去观察机器是否已经准确识别里你的手势,大大增加了驾驶分心带来的安全风险。手势操控其实违反了辅助驾驶安全的重要原则。所以在后来的版本中,我们默认关闭了手势识别。和手势识别相比,卡在方向盘上的蓝牙遥控器能起到同样的作用,而且对驾驶的干扰大大减小。所以我们现在主推的方案是语音操控+蓝牙遥控器做一些简单的辅助操控。

雷雄国:最后一个问题,我想请教一下马总,在目前车联网非常火爆的行业背景下,未来智能车载设备会是怎样的发展方向?

马斌斌:首先,我相信,在车里面,随着语音技术的不断成熟,语音操控会变成最重要最主流的操作方式。语音操控人机对话辅以蓝牙遥控器、手指触控操作构成车载场景的人机操控方式组合;

其次,在车里面最重要的屏不再是中控台的车机屏,也不会是现在所兴起的后视镜屏,而是HUD。而HUD和车机屏、后视镜也不是替代关系,而是互相打通整合的关系。HUD屏、车机屏、仪表盘屏、副驾驶座以及后排座椅屏,以及手机屏,会通过多屏互动构建完整的车联网视觉交互体系。

总结来说,HUD屏用于显示对驾驶员最重要的导航及车辆关键参数信息,并显示驾驶员接打电话和收发信息过程的必要的信息提示,驾驶员也可以通过手机将自己的常用地址、路线等发送到HUD屏上显示和开始导航;车机屏和仪表盘屏做不适合HUD显示的辅助信息的显示,比如带有POI地点的详细的地图、音乐列表等。而车内乘客的娱乐则通过副驾驶座以及后排座椅屏实现,以及通过手机和副驾驶座及后排座椅屏的连接实现音乐、视频、及游戏等娱乐应用的点播、分享、和多人互动。

刚才已经讲到我们开车的时候,需要双手抓方向盘,眼睛看前方道路,开车的时候经常需要用手要浏览手机屏幕和车的屏幕,甚至手做操作,给驾驶带来极大的安全风险。有数据表明约38%的交通事故是影响安全的驾驶行为导致的,其中看手机分心会导致车祸概率增加3倍,开车分心引起的交通事故,是酒驾引起的十倍。然而我们开车时的确需要看一些信息,怎么解决开车的时候专注于驾驶本身还能方便安全的获取这些信息,甚至进行操作,这是很多车厂智能硬件厂商都在想办法解决的。而解决这个问题要从两个方面入手,一是解决信息的浏览问题,二是解决信息操控的问题。

信息浏览这个层面,车里面几种主流硬件形态都在做很多尝试。智能车机通过交互界面的优化和联网更新应用和数据,产品体验上比传统的车机有很大提升。但智能车机无论怎样改进,其安装位置天然决定并不适合在开车的时候看和进行操作。特斯拉做了巨大无比的大屏,看起来很有科技感。但我们认为特斯拉的这种大屏思路误导了整整一代的车机厂商。这个屏看起来很有噱头,但是带来严重的问题:原来的车机屏幕小,旁边有多个物理按键。开车的时候像音量调节、温度调节、换台等完全可以手摸到物理按键进行盲操作。而装了特斯拉上这样的大屏后,物理按键都变成了屏幕上的虚拟按键。开车的时候用户必须扭头看屏幕,找到按键的位置,必须点按这样的虚拟按键是还要确保点到位。眼睛、手、甚至全部的注意力都要集中到屏幕操作上,严重增加了驾驶风险。所以我们认为车机的安装位置决定了车机屏不适合作为车里面信息交互浏览的主要屏幕,只能做辅助信息的展示。

相比之下,后视镜这个屏要好一些。后视镜安装位置在前挡玻璃之内,用户看这个屏是虽然也需要扭头看,但眼角余光还能看到周围的情况。智能后视镜这种起来的很快,但有几个致命的问题:我们的人眼有一个特点,看近处的东西清楚时远处就模糊。当你看后视镜上显示的信息是,前方路面就是模糊的,有驾驶风险。更严重的问题是,后视镜本来是用来看后方车辆车况的,在后视镜上叠加显示图像会严重干扰你看后方车辆信息,也会带来极大的安全隐患。目前虽然没有看到过使用这种智能后视镜而导致的安全事故,但一旦发生,后果会非常严重。我们的建议是后视镜还是专注于做后视镜本身的功能,不用在镜子上叠加显示信息。

雷雄国:非常感谢马总,我想大家一定对车萝卜这一款产品非常期待。下面的时间交给马总详细介绍一下他的爱车上面非常高大上的产品车萝卜。

马斌斌:我大概介绍一下,我们对车载交互体验的一些理解了,刚才已经讲到我们开车的时候,要双手抓方向盘,眼睛看前方道路,开车的时候经常需要用手要浏览手机屏幕和车的屏幕,甚至手做操作,给驾驶带来安全风险,去年的数据中有大概38%的事故是影响安全的驾驶行为导致的,其中看手机分心会导致车祸概率增加3倍,开车分心引起的交通事故,是酒驾引起的十倍,我们开车需要看一些信息,导航的信息光听语音的播报没有听清楚,80%很多错过导航信息没有看车的屏幕,怎么解决开车的时候专注于驾驶本身还能方便安全的获取这些信息,甚至进行操作,这是很多车厂智能硬件厂商想办法解决的,这个问题两个方向入手,一个解决信息的浏览问题,另外一个解决信息操控的问题。

信息浏览这个层面,车里面几种主流硬件表现形态做很多尝试,大家很多车机的屏幕做交互和优化,智能车机问世了,特斯拉做了巨大无比的大屏,我们认为特斯拉的这一款大屏误导了厂商,这个屏看起来很有噱头,但是带来很多问题,原来的车机屏小屏幕带来物理的按键,开车的时候可以手找到按键进行盲操作,变成一个特斯拉大屏必须按那个屏幕,要点,然后要点重了调音量等等,眼要过去,手要过去,增加了驾驶安全的风险,这个安装位置将来不适合作为车里面信息交互浏览的一块屏幕,只能做辅助信息的展示。

相比后视镜这个屏幕好很多,安装位置在前挡玻璃之内,用户看这个扭头看眼角余光看周围的情况好一点,现在看到后视镜这种智能硬件方式起来的很快,但有一个致命的问题,我们的肉眼有一个特点,进出的东西清楚远处就模糊,专注看后视镜显示信息前方路面模糊的,有驾驶风险。更重要的问题,后视镜看后方的车况,你做并线操作做判断,你显示信息后方车辆的信息被干扰带来非常大的问题,目前没有发现说使用这种智能后视镜出现安全事故,如果发生后果非常严重,不是好的屏幕。

日本做到HUD,屏幕是透过,信息的呈现位置演示到路面上,这个屏幕看到信息飘在路上一样,他的焦距和路面的焦距基本上一致好很多,有一个大的问题,安装位置卡在遮阳档上,阳光刺眼本来可以放下去抵挡阳光的干扰,下载挂不下来,加了外挂遮阳档,信息投射远处路面的效果没了,用户的视线要从遮阳档的屏幕和路面之间做切换,危险也很大,所以我们说这个屏幕的位置也不是一个适合做交互的。

后来在14年的时候,navdy放在仪表盘的HUD,即不遮挡视线,方便安全看到前方的道路,这个是将来车里面最重要的一块屏,刚才讲到这块屏是不是以后有HUD屏或者车机屏不存在了,车机屏还是要,没有必要像特斯拉做那么大的屏,后视镜还是做后视镜,不要上面显示信息,车机屏和HUD屏做打通,一些信息通过车机屏做方向显示,重要的导航信息需要HUD的方式投射到路面这是更加安全的显示模式。手机屏刚才讲到可以信息投过来,但是手机屏内容有一个问题,一般带背景色,直接投到HUD效果不好,手机和导航信息投过来,解决一个问题,背景要变透明,解决路面的信息点不能太多,只能过滤的显示最重要的道路体系就够了。

解决了显示的问题,下一个问题要解决交互如何去操控的问题,大家肯定都想到语音操控,很高大上,很多厂家做一些尝试,国外知名的车厂,这个问题大家都看过,在去年的时候,我给大家介绍一下,山东人他用这种山东口音拨打电话号码,系统识别错误了,他就不断的纠正,导致更大的错误,机器崩溃,人也崩溃,语音效果不太好,我们就大致略过去,navdy的语音开发者,是苹果siri的提供商。

车载的难点,第一点开车是非常复杂的噪音环境,背景音乐声,胎噪风噪给语音识别带来干扰,怎么降噪,只能实现一步骤的语音交互,语音的指令,达不到车内解放双手的目的,怎么做到好的人机对话,多轮的人机对话要牵扯很复杂人工智能的技术,不是简单的语音指令,要智能的理解用户现在说的一句话,下面说的指令,中间是集成还是发起新的指令。这边和思必驰一起开发的车萝卜系统可以演示我们的效果,比如我说打电话做一个事例,打电话给小强,多个人的话,我可以选择董小强,我可以说移动电信,159开头的,可以说9418结尾的,尾号6431的。

这是我们打电话过程当中用的技术,可以完美解决痛点,看到我们系统不是假的,是真的视频,我们研发的会在9月底和10月底会出实物的产品,这是我们打电话的功能,我们看一下我们对导航的处理。(演示)。手机导航来了电话阻断导航界面,我们做并行的处理,接听就进入电话的接听状态,说完之后挂断他,看到前面的演示还有手势,后来手势功能去掉了,我们认为手势在车载不是安全的环境,不光是电话,来了微信看我们怎么处理。(演示)。还有音乐的功能,(演示)。我们歌也支持听王菲的歌,目前车萝卜一代机我们已经有这些功能,大家感兴趣可以京东商城车萝卜可以找到我们自己的产品,尝试真实的体验,谢谢!

相关文章
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备15027068号】
Copyright © 2015 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。