您现在的位置是: 首页 > 汽车动态 汽车动态

小鹏P7的语音唤醒方式-小鹏p7智能语音交互

tamoadmin 2024-10-03 人已围观

简介1.小鹏P7和国产特斯拉Model 3,你选谁?2.作为智能化电动汽车,小鹏P7体现在哪?3.小鹏P7体验如何?到底有哪些黑科技?4.小鹏P7 625E和特斯拉Model 3谁更能打?5.小鹏汽车语音指令不应答小鹏P7和国产特斯拉Model 3,你选谁?早前,小鹏汽车创始人何小鹏发表评论说:“我觉得Model?3国产版32.8万(不带自动驾驶)毫无竞争力,起码应该再降价1万美元。现在和5年前已经完

1.小鹏P7和国产特斯拉Model 3,你选谁?

2.作为智能化电动汽车,小鹏P7体现在哪?

3.小鹏P7体验如何?到底有哪些黑科技?

4.小鹏P7 625E和特斯拉Model 3谁更能打?

5.小鹏汽车语音指令不应答

小鹏P7和国产特斯拉Model 3,你选谁?

小鹏P7的语音唤醒方式-小鹏p7智能语音交互

早前,小鹏汽车创始人何小鹏发表评论说:“我觉得Model?3国产版32.8万(不带自动驾驶)毫无竞争力,起码应该再降价1万美元。现在和5年前已经完全不同,Tesla的电池优势、智能差异和我们相比都已经没有,在拿了政府这么多政策和补助后还是这个价格,要不然是成本控制有问题,要不然还想获得5年前的利润率。”

时至如今,小鹏P7大部分产品力已经曝光,虽然还没有正式上市,但是预售价也打出来了,基本确定在24-37万元,而特斯拉Model3国产版指导价为32.38万元起,补贴后29.905万元起。小鹏P7碾压国产特斯拉Model?3,能做到吗?

小鹏P7产品力的确够强,性价比高

据悉,小鹏P7预计在今年4月份正式上市,交付时间为5-6月份。在产品信息上,小鹏P7计划推出了3款车型,分别为入门级的后驱长续航版,NEDC标准下续航里程为550km+;后驱超长续航版,NEDC标准下续航里程为650km+(一说超700km),以及四驱高性能版,NEDC标准下续航里程为550km+,这3款车型的预售价格分别为24、27、37万元。单就续航里程来看,小鹏P7这个续航能力可以说是非常好了,相比特斯拉Model?3?国产标准版445km和进口Model?3高性能全轮驱动版595km续航来看,小鹏P7还是具有很大的续航优势的。此外,小鹏P7还有何优势呢?

在定位上,小鹏P7定位中大型轿车,而Model?3定位中型车,在尺寸上,小鹏P7的长宽高分别为4880/1896/1450mm,轴距2998mm,Model?3长宽高则为4694/1850/1443?mm,轴距为2875mm,因此从尺寸上看,小鹏P7的确占有优势。至于造型上,两款车型都采用了溜背式的造型,算是各有特色,只是小鹏P7看上去更大罢了。

在产品特色上,特斯拉Model?3最大的特点就是简约的设计和可靠的性能,在设计上,Model?3的内饰只有一块屏幕,设计思维可谓是极简主义,而小鹏P7则更加的科技和豪华一些,在配置上,特斯拉的优势在于可以选配AutoPilot自动辅助驾驶功能,其价格为27800元,FSD完全自动驾驶选装价格为56000元,虽然价格偏贵,但是特斯拉的驾驶辅助完成度较高,实用性更强。而在这方面,小鹏P7虽然XPILOT?3.0?自动驾驶辅助系统在高速行车时可以实现L3级自动辅助驾驶,但是想必大部分消费者实际心里是很没底的。

当我们买一辆特斯拉,买的是什么?

想要探讨小鹏P7是不是卖得过特斯拉Model?3,只探讨产品力本身是不能得到答案的,想要探讨这个问题,我们要考虑当我们买一辆特斯拉,买的是什么?当我们买一辆小鹏P7,买的是什么?

书戈以为,当我们购买一辆特斯拉Model?3,我想大部分买的是品牌、情怀,然后才是优势产品力,前者来看,特斯拉在全球范围内的声誉和品牌美誉度可谓是很高的,特斯拉好比是电动车品牌中的“Apple”,因此,特斯拉的品牌是具有巨大吸引力的,其次,特斯拉完备的产品力经过了众多消费者检验,是得到了全球消费者认可的,比如其搭载的自动驾驶功能就名声在外,虽然出过一些事故,但这并不影响他吸引人的程度。加上特斯拉在国内一直属于“豪车”,国产特斯拉Model?3把价格拉到了30万元边缘,能有超过450公里的续航,实际上已经十分够用了,而这几乎让电动车拥趸无法回避特斯拉的吸引力。

当我们买一辆小鹏P7,买的是什么?

更大的尺寸、更丰富的配置、更长的续航,无论从产品力本身哪个点出发,小鹏P7都是很好,甚至大部分产品力都比特斯拉Model?3更有优势,低配的价格也更低,但是我们仍旧要考虑,当我们买一辆小鹏P7,我们买的是什么?

当前,小鹏汽车虽然在电动车领域有了一定建树,但是小鹏品牌的知名度很低,全国来看知名度远不及特斯拉,同时车主数量少,产品和品牌的口碑都相对一般,虽然P7数据诱人,但是对于大都数消费者来讲,小鹏P7还远没有一个立体的形象,光凭数据优势就声称碾压特斯拉,这无疑是痴人说梦。而选择购买小鹏P7的人,基本都是看中的是P7出众的性价比,但是拿着相同数额的现今,能有多少人都拒绝品牌优势这么大的特斯拉呢?反正如果是书戈,书戈反手就选择特斯拉了。

本文来源于汽车之家车家号作者,不代表汽车之家的观点立场。

作为智能化电动汽车,小鹏P7体现在哪?

主要是体现在智能上,“智能“成为P7智能音乐座舱最大亮点之一。?凭借多达47处感知设备、近50处人车交互设备、超过30万亿次秒的芯片算力,P7座舱可实现四重连接,通过人性化交互,连接人与车。实时感知车内外环境,调节车内环境:例如感知到天气变化,屏幕背景会有对应的显示,,根据不同的空调温度,仪表台氛围灯会有冷暖色变化等,?感知用户身份及状态,实现车辆个性化设置、人脸识别启动车辆、?驾驶员疲劳分神预警等多项功能;?AI助手小P形象进化,可展现数十种拟人化的动作,并支持免唤醒多轮对话等,配合双屏互动,给我们无感但又无处不在的体验进化。

小鹏P7体验如何?到底有哪些黑科技?

据我了解,主导小鹏P7造型开发的小鹏汽车造型设计中心高级总监,还专门提到了全场景的体验设计和情感设计。换句话说,他们在设计的时候,就希望小鹏P7这辆车,是可以知冷暖、晓情绪、懂进退,有独立思考的能力的,我觉得这点就很牛了。另外,P7的外表也好看。全景玻璃车顶,玻璃车顶与前档、后档低辐射玻璃。可以锁住车内外能量传递,夏天隔热,冬天保温。而且小鹏P7有轴距的优势,相对于传统的电动轿车内部空间会更大,也是考虑到家庭的需求去设计的,在我看来简直是完美。

小鹏P7 625E和特斯拉Model 3谁更能打?

在过去,新能源汽车市场的大盘相对狭窄,用户要想入手新能源产品,往往只能在固定的几款车型中挑选。可时下,新能源汽车成了汽车圈的“时尚大咖”,汽车制造商们纷纷相中了新能源这片蓝海,并在其中不断加码,上新产品。在此背景下,愈发内卷的市场让用户犯了难,不知道如何挑选出行的最佳拍档。

因此,今天就给各位车友带来了两款大热门电动轿跑——小鹏P7 和特斯拉Model 3,看看谁才是年轻人出行的最佳选择?出于公平,我们选择了售价与产品表现最为接近的两个车型,分别为:小鹏P7 2022款 625E(官方售价为28.59万元)和特斯拉Model 3 2022款 后轮驱动版(官方售价为27.69万元)

设计:经典永流传,造型谁更靓?

市场在变,消费者的诉求也是日新月异,审美追求不断发生转变。对于时下的汽车市场而言,外观造型不再是“鸡肋”的存在,而是打开年轻人味蕾的先提条件。

先看小鹏P7,外观造型算得上是新能源汽车中的经典,封闭式的前脸采用贯穿式LED灯组和矩阵头灯,配合用熏黑打底的开放式前包围,简约明了,具备较强的先锋感,视觉效果也是极其犀利和具有科技感。腰身与车尾同样如此,走的是简约化路线,较短尾悬配合修长的前脸和隐藏式门把。轿跑的身姿映入眼帘,个性十足,而同样广受欢迎的贯穿式尾灯组在P7上也没有缺席。

再看特斯拉Model 3,封闭式前脸、矩阵头灯、扁平三段式前包围,虽没有小鹏P7那般特立独行,但也符合年轻人的审美。侧身与尾部的处理相对简单,棱角分明的双腰线配合溜背式车顶、隐藏式门把手,将车身的线条感展现出来。尾部加入拼色矩阵尾灯设计,不得不说辨识度有些中规中矩。

就设计而言,两款车型走的都是新能源简约风格。但小鹏P7的潮流元素和原创元素更多,看着更有年轻人的朝气。特斯拉Model 3则偏向“中庸化”,保留了一些经典元素,样式不错。但对于年轻群体而言,还是略显老成。

进入车内,两款车型的风格也是各有千秋。其中,小鹏P7采用由10.25英寸高清全液晶仪表+14.96英寸触控中控大屏组成的双联屏设计,配合简约化的内饰,展现科技质感。镀铬装饰板、亮色双缝线、真皮座椅包裹、无线充电板等的加盟,让车内饰显得更为丰富、更有活力。

而特斯拉Model 3的内饰,15英寸的悬浮式中控大屏,集成了车内大部分功能,方便用户进行操控。木质花纹装饰板与暗色调的内饰配色,让车内看着更为高大上,但也赋予了车内更多成熟感,这也是其为适应更普遍的消费群体而做出的让步。

科技:角逐智能时代的领先者

时下的年轻人都讲究“躺平”,期望在车辆中就能感受到更多元化的体验。正因如此,智能便成了关键要素,这也是考验两款车型的重要方向。

先说智能硬件方面,小鹏P7 625E搭载的是英伟达Xavier芯片,并提供13个摄像头、12个超声波雷达以及5个毫米波雷达。特斯拉Model 3 后轮驱动版搭载自研的特斯拉FSD芯片,提供8个摄像头、12个超声波雷达以及1个毫米波雷达。在基本的智能硬件上,小鹏P7 625E显得更为大方。要知道,智能硬件堪称车辆的“眼”与“耳”,是智能驾驶介入的关键要素。而配置数量越多,技术越扎实,就能对周边行车环境具备更精准的感知能力。

智能辅助驾驶功能方面,两款车型都能为用户上演了一场科技盛宴。在主动安全功能上,两款车型均能够提供并线辅助、车道偏离预警、车道居中保持等,在一定程度上减少用户驾车时的紧张感。而在辅助驾驶功能方面,两款车型则产生了极大的差异。其中,特斯拉Model 3 后轮驱动版相对中规中矩,只有单向的倒车影像,全速自适应巡航、自动驻车这些常规配置。满足日常使用尚可,但却断了冲击高阶体验的念头。

而小鹏P7 625E在智能辅助驾驶功能方面可谓是大方,不仅全面涵盖了特斯拉Model 3 后轮驱动版现有的配置,还能提供360度全景影像、透明底盘、倒车车侧预警,构成较强的停车黄金组合,不管是两侧还是前后,都能无角的展现给用户,精准地完成停车目标。

另外,小鹏P7 625E的自动泊车入位功能,堪称停车困难户的救命神器,狭窄的胡同、拥挤的路面车位,都能在毫米间完成停车;停车场记忆泊车也是小鹏P7 625E的一大亮点,该系统是首个可量产且不依赖于停?场改造的自主泊车系统,能够有效提升用户在面对复杂多变停车场景时的能力;而小鹏P7 625E的高速NGP智能导航辅助驾驶,在高级驾驶辅助地图所覆盖的多数高速公路和部分城市快速路,可以基于用户设定的导航路线,实现从A点到B点的智能导航辅助驾驶。与之相比,即使特斯拉Model 3后轮驱动版额外花费32000元选配增强版自动辅助驾驶功能,在智能功能上还是略占下风。

在智能座舱方面,小鹏P7 625E搭载Xmart OS车载智能系统。可以说是小鹏家族的“当红明星”,支持众多原创功能,如首创全场景语音智能交互,可持续倾听、支持唤醒词及指令自定义,能对车内的绝大多数配置进行语音控制,减少行驶中的手部负担;系统拥有应用商店和支付宝小程序双重应用生态,用户甚至可以利用车内方向盘操作“狂野飙车”等赛车类游戏,真正做到“车如家”。除此之外,OTA升级也能让车辆越用越新,紧跟市场潮流。

至于特斯拉Model 3 后轮驱动版,同样能支持基础的智能配置,如OTA升级、车联网、导航等。但也如同智能辅助驾驶方面的表现,配置数量没有那么丰盛,体验感也有所下滑。

动力与成本:性能难舍难分,使用成本打破僵局

动力方面,两款车型搭载的都是后置单电机。其中,小鹏P7 625E的最大功率为196千瓦,最大扭矩为390牛·米,纯电续航里程为625公里,快充时间为0.55小时;与之相比,特斯拉Model 3 后轮驱动版的最大功率为194千瓦,最大扭矩为340牛·米,纯电续航里程为556公里,快充时间为1小时。在性能体验上两款车型大差不差,都具备新能源汽车稳定、高效的特点。但小鹏P7 625E的续航里程和快充时间会更具优势。

值得注意的是,两款车型的保险与保养费用也有着较大的差别。小鹏P7 625E的第一年保险费用约为8300元,包括交强险及商业险,商业险包括:新能源汽车损失险、新能源汽车第三者责任险300万保额等。而保养费用则是首保免费,一次标准保养约为374元。

与小鹏P7相比,特斯拉Model 3 后轮驱动版的第一年保险费同样在8300左右。但只能包含车辆损失险、第三者责任险100万保额、不计免赔特约险和交强险。保额力度和涵盖范围都没有小鹏P7那般广泛。再说保养费用,特斯拉Model 3 后轮驱动版首保同样免费,但此后的费用相对较高。如特斯拉Model 3后轮驱动版更换制动液的材料费用为132元,工时费为621.5元,总费用为753.5元,工时费高得离谱。

除此之外,小鹏P7 625E有一个点是比较能打动我的,花费18000元能够额外选配智能音乐座舱增强套件,内含丹拿剧院级音响系统、Nappa真皮座椅等配置,赋予车内更有质感的体验,这也是特斯拉Model 3 后轮驱动版所不能媲美的。

最后:

作为纯电市场三十万区间的主力车型,<a class="hidden" href="" title="特斯拉" data-keyType="Mast

本文来自易车号作者电动GO,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关

小鹏汽车语音指令不应答

第一个是唤醒速度快,也就是说完“你好小P”后可以秒响应,被称为极速唤醒。但是视频中有信息提到极速唤醒的延迟是700ms,从数字看这个指标不好,当前稍微好一点的车载语音产品基本都能达到这个要求。11月17号关于小鹏语音的官方推文中从语音结束到界面动画小于300ms,希望之后能实车体验确认一下。

第二个是指语音指令响应速度快,是指从用户说完话之后到小P开始执行指令的时间。从视频的对比中可以发现,当前的极速版本把语控响应延迟从原来的1.5s缩减到0.9s左右。对于车载语音产品,0.9s是一个比较优的数字。当前的车载语音产品一般就是1.5s左右,好一点的可以做到1.2s。

除此之外每个视频中都强调了多意图指令理解的能力,不过这个是P7的已有功能。体验比较好的一点是目前针对多意图指令的TTS回复也是综合答复,不是逐条播报每个指令执行情况。

全时对话

打开全时对话开关后,小P会进行持续收音,任何时候都不需要唤醒(不用喊你好小P),就可直接说出指令并执行。目前只支持部分指令,猜测主要是车控类的指令。在全时对话的过程中,对于不支持的指令车机不会响应,但是用户可以5s内补充说一个“小p”,这样小p就可以把刚才不支持的指令识别出来并执行。通过这个产品设计很巧妙的解决了全时对话只支持部分领域引入的体验割裂问题,并且只需要说“小p”而不是“你好小p”。个人认为这是此次G9最出彩的功能更新。就像你让人帮忙做事情,如果他没动,可以在喊一下他的名字,把“你好小p”缩短为“小p”两个字也更加自然。

在视频展示中,可以看到G9上联合oneshot的交互方式,将“你好小p”的四字唤醒词缩减为“小p”两个字,实现了唤醒词字数减倍的巨大进步。当前两个字的唤醒词技术非常不成熟,单独使用会引入大量的误报,将其和指令连在一起以oneshot的形式推出两个字唤醒词,很好的缓解了这个问题。两个字的唤醒词相比于四个字更加自然使用也更加方便,一定程度上可以缓解唤醒词给用户带来的尴尬。百度智能健身镜上也应用了该设计,据说苹果也将采用该设计将“hi siri”缩短为“siri”。

打开全时对话开关后,默认只支持主驾的全时对话。此处小P的眼睛动画有变动,可以看出产品设计细节,用户体验比较好。

多人对话

同时打开多人对话和全时对话后,四个位置都可以使用全时对话功能,并且四个位置的用户可以交替说或者同时说,不会相互干扰,满足多人对话需求。

G9上实现了跨音区多轮对话,不同的音区使用同一个多轮状态进行维护,主驾说完“打开座椅加热”,副驾只需要说“我也要”就可以打开副驾的座椅加热。主要是针对音区绑定相关功能点进行的多轮对话继承优化。

四个位置asr的结果分别在四个角的位置显示并且会在屏幕上会展示回复内容,并且会锁定音区回复(有时不会进行TTS回复)。在视频中强调了此处一些产品细节的设计。

图2 四路全时对话屏幕展示

功能分析

极速对话

简单来讲,语音交互技术的永恒追求可以浓缩为两个字:快和准。快且准的语音交互技术是打造出真正让用户满意的语音交互产品的必要条件。极速对话的目标就是实现语音交互的“快”。

图3 语音交互数据流图

图3展示了从用户说话到车机执行并给出的答复的一个简化流程。**部分的录音模块是负责数据采集,蓝色部分是对采集到的语音数据进行处理来理解用户的意图,紫色部分是根据理解的指令回答用户,橙色部分是车机执行。一般意义上讲,用户感受到语音速度快就是从录音到指令执行的这段时间,这其中涉及到硬件、算法等多个模块。事实上一个完整的语音交互产品内部的模块以及交互逻辑要远比此处展示的复杂的多。对于如何优化语音交互速度,可以从以下三个方面进行分析:交互链路,算法,系统与硬件。

1、交互链路

交互链路优化是指在交互逻辑设计时缩短数据的传输路径或者优化数据的传输速度,使得的反馈结果更快的流向用户。可能的方案包括:

使用离线方案,优化离在线融合的逻辑。

采用流式处理,减少各个算法模块的绝对等待时间。

算法模块的并行处理,找出实现数据传递的最短路径。

算法模块合并,缩短数据传递的链路。

2、算法

语音交互技术的链条中包含了很多模块,试想如果每个算法模块都有几十毫秒的延迟,可能累积起来大几百毫秒就没了。因此要提升语音交互速度,各个算法模块的优化打磨是必不可少的。对于做产品落地的算法工程师而言,每个人面临的终极问题就是:怎么精简算法可以在不降低算法性能、不增加算力(CPU/NPU)占用的条件下尽可能的提升速度。成为一个带着镣铐在刀尖上翻腾的舞者,这可能是对做产品的算法工程师的最高要求。算法模块的优化不仅与产品体验息息相关,而且精简的算法可以直接降低硬件的成本。在语音技术链条中,对语音交互速度有直观影响的几个模块有:

信号处理:包含aec、分离、降噪三个核心算模块,此外还会有音区定位、人声隔离等。

VAD:VAD算法本身的延迟一般比较小,核心在后处理策略方面会造成比较大的延迟,这个和产品设计有关,需要在延迟小和其他体验方面做tradeoff。

ASR:引入延迟的部分包括模型打分需要累积的数据、对未来信息的依赖、CTC等算法的尖峰后移、剪枝搜索策略等。

3、系统和硬件

硬件是基础,系统是支撑。一个流畅的底层系统是优秀的软件产品的必要条件。语音交互系统不仅依赖硬件和系统,其本身也要对车身硬件或者系统进行控制。如果车机系统本身就容易卡顿,语音交互算法优化的再好也没有用。影响到语音交互体验的硬件和系统包括:

录音硬件和录音驱动

语音相关进程的优先级以系统资源分配策略

控制车身硬件的响应速度

车机系统的响应速度

G9的极速对话功能将语控延迟从1.5s降低到了0.9s左右。能做到如此大的提升,各个体验视频中强调的两点原因是:

将云端语音方案替换成离在线融合的方案,去掉云端方案中数据上传和下载的流程,从而缩短交互时间。

支持流式理解,ASR和NLU可以并行处理,缩短NLU的等待时间。

但是现在都是5G时代了,网络延迟真的会这么大吗?抱着怀疑的态度,笔者根据体验视频做了详细的分析,从语音结束到第一个字上屏、语音结束到全部识别结果上屏、识别结果到车机开始响应这三个关键时间段的数据统计来看,得到了如下结论:

极速对话中,识别结果提前了0.15s但是首字上屏结果却变慢了此处的提升大概率和离线的asr算法方案有关,网络延迟在里边占的比重比较小。

极速对话的巨大提升大概率来源于vad后处理策略改进和流式理解的离线NLU算法的改进。

因为网上的体验视频会有后期处理,可能与真实体验会有差异。因此之后会根据实车体验再做一次分析校正。对速度优化感兴趣的同学可以跳转的附录查看分析过程。

全时对话

全时对话是一种颠覆性的交互方式,打破了自iphone 4s 推出siri以来语音交互系统必带唤醒词的传统。根据语音交互逻辑的发展,可以从两个方向推导出全时对话的演化方式,其本质都是为了提升交互效率,让人机语音交互更自然更便捷,更符合人与人的对话逻辑。

图4 全时对话演进图

众所周知,唤醒词相当于语音系统的开关,打开则开始录音,关闭则停止录音。全时对话中去掉了唤醒词,语音识别系统就要做到一直进行收音。在失去开关的控制后,意味着语音交互系统的隐私性、安全性等会受到更多的关注。为了做好全时对话功能,必须做好以下几个方面:

1、采用离线语音方案

离线语音方案具有以下优势:

数据全部在本地处理,保护用户隐私。此处的数据不仅仅是包含生物特征的语音数据,语音识别出的文本内容中也包含了大量的用户隐私。

数据不需要上传云端,节省流量费用。

所有工作在本地完成,节省云端服务的成本。

G9上精心打磨的离线语音方案为实现全时对话功能提供了可行性。

2、做好人声分离和隔离

人声分离的目标是把目标人和其他人声分离开,人声隔离的目标是剔除非目标人声,只把目标人声送入语音识别引擎进行识别。G9上采用的是分布式四麦克风的硬件配置,从硬件上降低了人声分离和人声隔离的难度。但是算法上依然要努力做好这两方面,尤其是要做好目标位置不说话其他位置说话时的漏音问题。

3、做好误报控制

误报控制是全时对话中最难的也是最关键的部分,直接决定了全时对话功能的用户体验。做语音的同学应该都知道语音唤醒也有误报,每个语音唤醒从业者要解的80%的badcase可能都是误报的优化。全时对话的误报和语音唤醒的误报本质上都是不该被响应的语音被车机系统错误的响应了。但是全时对话的误报又和唤醒的误报有明显的不同。首先,误报对用户的影响不同。唤醒词仅是一个开关,发生误报的时候无非就是小P应答了一声并且转头看看你。但是全时对话中每一句话都是有实际动作的语控指令。试想你下雨天开着车正在和老婆打电话说路上堵车了晚点到家,这时候天窗莫名其妙的打开了。此时的你会不会口吐芬芳,如果你知道是全时对话作祟肯定会立马关了不会在打开了,如果你不知道是全时对话误报了,第一次可能莫名其妙,第二次估计就会开到4S店要求检修了。其次,误报发生的频率和控制的难度不同。唤醒词是确定的4个字,目标相对确定,但是依然非常难把误报控制做好,只有一个确定的词都这么难做,更何况全时对话中的数百个功能点,数千种说法。这种误报其实在现在的延迟聆听中也会存在,只不过因为延迟聆听一般只有几十秒,误报的可能性在时间维度上被大大的压缩。全时对话的误报可以分为两类。第一类是因为算法识别错误导致得指令误识别,比如asr把无关的语音识别成了有效指令,或者nlu把无关的文本解析成有效指令。解决该类的最好的方法就是无限提升算法性能,还有就是通过一些策略对这些错误指令进行检测屏蔽。第二类问题是人机对话和人人对话的区分。比如你在和朋友聊天的过程中提到的某一句话本身就属于一条可以触发车机动作的指令,但实际上你是在和朋友聊天而不是向车机下达指令。该类问题估计是全时对话中最难解决的问题。

4、避免用户体验的割裂感

从安全设计以及当前技术的成熟度出发,很长一段时间内全时对话支持的功能点只是全部语音功能点的子集,这会造成用户的学习成本上升,因为用户是不知道哪些功能支持哪些功能不支持的,会造成用户体验的割裂感。笔者认为小鹏G9对这个问题的处理非常好,小鹏的产品和工程师们使用后置唤醒的方式很优雅的解决了这个问题。个人猜测后置的“小p”应该是使用asr实现的而不是做了一个专门的两字的唤醒系统。目前了解到除了G9以外还有两款车支持全时对话。第一款是吉利的星越L,在系统里被设置为极客模式,打开后可以使用全时对话。但是这款的车的体验非常糟,基本上属于无法使用状态,因为一旦打开后,随便说一些话就会触发语音功能。第二款是奇瑞瑞虎8 pro,在系统中默认上线了全时对话功能,在该车宣传中称为全时免唤醒功能。该方案是由地平线提供,是业界第一款的基于全离线方案打造的全时对话系统,也是目前市面上体验最好的。希望早日体验到G9的全时对话功能,也希望G9能够后来居上,进一步推动全时对话功能的发展。

多人对话

G9中的多人对话功能主要有两点:一个是不同位置的人可以同时使用语音,相互独立互不干扰;第二个不同位置的人的对话可以相互继承。从技术上讲,多人对话相对于极速对话和全时对话会简单一些。

1、多人并行使用功能

要实现多人并行使用功能需要做好两点。第一点是强大的信号处理功能,特别是人声分离和人声隔离的能力,目前基于分布式四麦的前端信号方案相对比较成熟,有比较好的解决方案,但是也存在一些困难场景需要继续突破。第二点是算力大,能够支撑4路语音交互系统的并发,核心是4路asr和4路nlu的并发。

2、多人多轮对话功能

该功能的核心是做好多音区内多轮状态的继承,属于对话管理的范畴,业内也有比较好的解决方案。

总结

根据体验视频,笔者总结了G9上两种交互逻辑。(只是个人猜想)

图5 以“你好小P”发起的语音交互内部算法模块逻辑示意图

图6 全时对话语音交互内部算法模块逻辑示意图

小鹏P7的上市将车载语音助手推向了一个新的高度,成为众多车厂对标追逐的对象。希望G9能够将车载语音推向一个新的高度,给用户带来更多的便利,也给众多的语音从业者创造更多的机会和发展空间。最后希望能早日体验到G9的全部功能。

附录:延迟分析

在体验视频中,笔者选取了一个“打开车窗”的例子,通过分析录像视屏的方式,对比语音和视频中文字上屏状态以及指令执行状态,整理分析出了各个关键事件的时间点。

图2-1 关闭极速对话,各个关键时间的时间点

图2-2 打开极速对话,各个关键事件的时间点

根据识别结果上屏事件可粗略的把语音交互的延迟分为两个TD1和TD2两个部分,每部分的详细定义和说明可以参考表格。此外因为语音结果实时上屏也会影响到用户的感受,因此把语音结束到第一个字显示到屏幕上记为TD3。

名称 模块 说明 包含模块分析 关闭极速对话 打开极速对话(提升比例)

TD1 识别结果上屏延迟 从语音结束到屏幕上显示出完整指令文字的时间 1.录音延迟;2.前端信号处理延迟;3.vad算法延迟;4. 数据网络传输延迟(云端方案);5. asr算法延迟。 0.608s (9.732s ~ 10.340s) 0.467s(23.2%) (21.0s ~ 21.467s)

TD2 从文本到指令执行的延迟 从屏幕上显示完整指令文字到车机开始执行的时间 1. vad策略延迟 ;2.nlu算法延迟;3.指令解译、硬件启动等系统延迟。 0.947s (10.340s ~ 11.287s) 0.407s(57.0%) (21.467s ~ 21.874s)

TD3 识别结果首字延迟 从语音结束到第一个指令文字上屏的时间 1.录音延迟;2.前端信号处理延迟;3.vad算法延迟(数据积累延迟);4.数据网络传输延迟(云端方案);5. asr算法延迟。 0.335s (9.732s~10.067s) 0.367s(-9.5%) (21.0s ~ 21.367s)

注:只是使用一条语音的参考意义一般,还需要一定的数据来证明有效性。根据统计结果对极速对话中速度提升原因进行推测:

模块 极速对话中是否会有优化 说明

录音延迟 录音偏底层,打开极速对话前后应该没有变化

信号处理延迟 信号处理本身就是运行在端侧,估计没有变化

vad算法延迟 vad算法本身就是运行在端侧,估计没有变化 vad模型打分数据积累、对未来信息的依赖等

asr延迟 会有变化,TD1的提升大概率是和离线ASR算法方案有关。一方面是模型层面的优化,另一方面是本身搜索空间小,解码速度会快。 asr模型打分数据积累、对未来信息的依赖、解码延迟、ctc尖峰后移等

网络传输延迟 根据TD3的结果,感觉影响不大 云端方案中语音数据上传和识别结果下发

vad后处理策略延迟 影响比较大。 vad后处理一般会根据算法输出向后扩展一定时间,方式语控指令的提前截断

nlu算法延迟 针对“打开车窗”的指令,理论上不论云端还是端侧大概率的规则引擎实现,理论上二者在速度上的差异应该影响很小。结合流式语义理解会有提升

指令解译、硬件启动等系统延迟 不会有变化,硬件、系统层面不会有差异

传统的语音交互流程中为了保证语音识别不被提前截断(比如用户说话停顿、或者vad算法不鲁棒等)会在vad的算法输出后添加后处理策略,一般会在算法输出的基础上向后扩展一定的时间,这就会在很多场景下引入大量的延迟。如下图所示,虽然在t3时刻虽然拿到了完整的识别结果,但是由于vad段没有解码完成就不会送给nlu进行文本解析,直到t4时刻才会将asr结果给到nlu进行解析。引入流式语义理解后,asr的识别文本实时送给nlu进行解析,在t7时刻就可拿到nlu的解析结果,无论是继续等到t4时刻进行结果确认还是直接只用t7时刻的结果都会大幅度降低延迟。其实有意思的一点是,不打开极速语音时,从t3到t6时刻竟然用了0.947s,假设系统的vad后处理向后扩展了0.6s,硬件执行消耗0.1s,那nlu部分居然消耗了0.247s,针对“打开车窗”的这条如此简单的指令感觉很不可思议。只能说提升巨大全靠上一代衬托。

文章标签: # 语音 # 对话 # 小鹏