2022-06-25 18:43:06
【短路三分钟】侃大山式的汽车科技栏目,关注这个圈儿里有边没边的新鲜事。假装有内涵,貌似有信仰,经常无厘头,相似的科技新闻,不一样的视角,三分钟读懂。
文 | 木斯基
“嘿,吃了吗?”“还没吃呢”“没吃找地方吃去!”…
最平常不过的语言声音,却是当今汽车科技市场最热门技术之一,为什么会热?因为这也是一种专治懒癌的“灵丹妙药”。
人们普遍发现,这项技术发展完善之后可能彻底改变我们操控各类设备却懒于动手的困惑。而对于应用在汽车上的语音识别系统更是如此,它的出现不仅会解决“懒”的问题,也在潜移默化间规避了很多安全隐患。
就拿中国来说,很难想象去年一年的交通事故中就有30%和驾驶员玩手机分神有关,再想象一下,如果都改用语音控制系统操作,是不是就不分神了(郁闷的直接停车,认真的找手机了)。所以,这次我们就说说汽车语音系统面临的挑战吧,看看到底是谁折磨谁?
“说好普通话,方便你我他”,很多城市用了几十年的标语,即便到现在汽车都支持语音识别系统的时代了还这么适用,必须得服这句标语起草者的前瞻性!
这确实是现在智能语音系统发展所遇到的重要挑战,其实直到前两天我们才弱弱的知道,原来拥有13亿人口和56个民族的中国居然不是世界上方言最多的国家,比这事还是印度赢了,印度才是世界上语言最多的国家,据说一共有一百五十多种,再算上各种方言,大概有1600多种的样子…
据说,当初芬兰手机制造商诺基亚进军印度市场时,设计了十种印度方言的手机界面;而曾经微软在印度推出的Vista操作系统也提供了9种印度方言版本;现在,Google印度网站还有5种方言可选…
当然现在已经有了支持各种方言版的系统出现,比如粤语、维语等等,但大部分效果只能说差强人意,毕竟对于语音识别来说,如何唤醒、识别逻辑、自然语言理解、对话管理、自然语言生成和文语转换等等都是重要的算法,问题是需要一件一件一件一件一件一件一件…解决的,所以,尽量用好普通话,还是现在保持舒心使用汽车语音系统的关键。
更重要的是,让机器“听懂”人类的说话,“学习”也是很关键的。举个例子,同样一句普通话“去吃拉面去”和“哪能吃拉面”,系统要可以把关键字“拉面”“去哪”“吃”都提炼出来,进行匹配,同时分析出具体的意图,方言也是如此,要用数据库和建立模型让语音系统自我学习。
据说,很多语音识别技术的公司内部都有一个叫语音资源部的部门,他们的主要工作就是收集整理样本,甚至上街去采集数据、找不同口音的人去录音,积累到了巨大的量之后,就可以用于系统的教学之中。
相比于智能手机,其实在车内使用语音控制的环境踏实多了,毕竟关着窗户,车里的空间又那么有限,所以语音识别技术的难度并不在距离上,最主要的还是显示噪音问题。
首先是车辆存在很多非平稳噪声,所谓非平稳,就是那些难以预测的声音。比如在汽车行驶的过程中,来自于发动机、路面上行驶产生的噪音是属于可预测的噪音,这可以相对容易的在实验中进行模拟并剔除,但更多的很多意外状况下出现的噪声:比如路过一家大声放着乡村摇滚音乐的超市饭馆、旁边的卡车突然按了喇叭,车内孩子的突然哭喊等等…
一句话,声源混杂确实会大大降低语音识别的能力。
现在的技术并没有特别完美的解决方案,还是主要靠收声的准确性进行克服,比如用一组麦克风阵列,指向不同方向。
比如你说:去拉面饭馆,语音系统第一个捕捉到你声音的麦克风就会对声音进行定向,然后重点识别这个特定方向传来的声音,这个麦克风也会成为这次语音命令的主要输入源。因此,即便这个时候,副驾驶说了一句“去吃饺子”,麦克风虽然收到了副驾驶的声音,但并会干扰这次输入,屏幕上地图还是会推荐附近的“拉面饭馆”,当然这就需要阵列中的麦克风数量足够多,同时布局位置还要非常科学。
其实前边说的一些大都还在语音识别的问题上,真正做到智能,还有很长路要走。
现在的硬件系统其实已经足够强大了,需要的还是逻辑,或者说,逻辑就是核心技术,他们可以让系统更懂你。
比如,通过与人脸识别系统的配合,一方面准确收集声音,做出基本的分析,然后基于面部识别技术,判断出你说话的表情和口吻,最终精确的反馈出想要的结果,就像自动驾驶技术的发展,会依靠激光雷达、摄像头、处理器等等最后做出综合准确的判断,到那个时候,当你再说想去吃拉面,而副驾驶想去吃饺子,系统可能会听副驾驶的,因为聪明的系统早已发现副驾驶坐的是你妻子,而在数次聊到“吃什么”的问题上,你总是听妻子的。
语音识别是最早进入车内的黑科技,但至今还没有哪家企业敢说我敢100%识别你,懂你。无论怎么样,明天的技术一定会比今天的更先进,识别1600种方言,或许只在一夜之间。有机会,我们一定会带着读者体验一圈现在的产品,看看到底哪家最强!
往期精彩:
聚焦汽车科技
关注未来出行
腾讯汽车出品