为什么语音助手需要联网才能正常工作?
为什么语音助手需要联网才能正常工作?
-
智能手机普及的同时,也是带来了它的小尾巴,我们称之为是智能语音助手。像现在的很多智能手机都是有着自己的智能语音助手,比如苹果的Siri,华为的小艺,小米的小爱同学等。
推出这个智能语音助手的目的,则是为了更好的方便我们控制和使用手机,有时候不方便拿起手机的时候,我们是可以通过语音快速唤醒它们,让它们帮助我们做一些事情,比如拨打电话给某某,定一个闹钟什么的。
不过对于智能语音助手的功能,有些用户还是太高估了。让它们做一些命令性的事情,问题是不大的,可要是让它们和我们持续的进行对话,所回答的内容有时候根本牛头不对马嘴的。
好在现在的智能语音助手要比之前强大很多了,能慢慢的明白什么是搜索,什么是回答,在很多情况下,回答不出来的问题是会有两个解决方案。一个是直接说回答不了,问题超纲了。
另外一个是直接搜索其中重要的内容,这里我们只能说智能语音助手还需要进行很大改进,不然就会像鸡肋一样被用户所抛弃的。然而,有一个问题不知道你们注意到没有,在没有网络的情况下,智能语音助手还能好好的发挥吗?
这里我们用华为的小艺进行了实验,手机解锁以后,我们通过语音唤醒小艺,让它回答一些简单的问题基本是没有问题的。当我们禁止它连接网络以后,再来问相同的问题,我们是得到了下面的图片。
直接提示网络连接超时,请检查网络设置,而且仅限于是文字交流,用语音交流的话是根本不能识别的。也就让我们想到了上面的问题,如果智能语音助手在没有网络的情况下,是不能正常工作的。
原因应该是有这几点,第一点是联网以后,可以快速的识别我们的语言,我们所说的话立刻能以文字的形式显示在手机上,包括我们说的英文也是可以识别的。第二点是明白了我们说的话以后,它是需要进行搜索或者是回答。
这就涉及到它的学习能力,哪些问题是它能回答的,哪些是不能回答的。如果是不能回答,那么它会立马启动搜索程序,这一过程肯定是需要联网的。或者你可以问它马云是谁。
给出的答案绝对是网页上搜索到的。第三点是对遇到问题的反馈,我们的问题回答不上来的时候,应该是会有一种记忆机制在里面,通过不断的积累与多方面的学习,是慢慢的可以将这些问题解决的。
等到我们再一次询问的时候,是可以回答上来的。不过这个时间会比较长,而且目前在市面上的智能语音助手,没有觉得哪个是非常的强大,它们的根本还在于学习,只能说智能语音助手还有很长的路要走。
那么你们对于手机智能语音助手怎么看的,觉得自己手机上的它功能够强大吗,另外在使用智能音箱的时候,是否能达到你们的要求呢?
2019-12-03 14:44:56 -
我们将语音助手看作一个人。一个人从学说话到能够清晰的接受别人的信息并作出回答需要经过很多次的学习和训练:如爸爸妈妈反复对宝宝说一些重复的话,于其他人交流等。这一个过程是比较漫长的,而且需要不断重复。
语音助手的训练过程也是如此,需要大量的训练,以及不同的人与之交流上传数据。显然,这样的训练在单独一个人的设备中是无法完成的,我们的设备也无法储存云端中如此多的数据,处理器的运行速度也不足以处理如此多的数据。因此目前语音助手只能交接到云端,在云端处理好之后再发到手机中,呈现给你。
2019-12-03 17:58:46 -
从iPhone4S开始,语音助手Siri成为了苹果系列的标配,为用户提供了一种新的人机交互体验,而现如今语音助手已经成为了越来越多手机以及其他智能电子终端的标配功能。
在使用过程中会发现,该功能必须联网才能使用,之所以这么设计,是受到手机端算力不足,存储空间面对海量资源有限导致的,简单来说就是在保证同等体验的情况下,“臣妾做不到啊”。
为了解释这个观点,接下来按照以下几个维度进行解释:
语音助手的基本流程
主要技术的实现原理
云端实现的产品优势
语音助手的基本流程
要想弄清楚为什么语音助手需要联网才能使用,先要明白当前语音助手的背后的实现原理是什么。
如上图所示,简单的绘制了语音助手的基本流程框架,其中ASR,NLP,TTS均为云端服务,这三个环节的主要作用如下:
ASR(Automatic Speech Recognition),即自动语音识别技术,类似于人的耳朵,该环节会将接收到的语音信号,转换为文本信号,这样才能让计算机做后续的处理。
NLP(Natural Language Processing),即自然语言处理,类似于人的大脑,该环节通过文本以及上下文逻辑理解客户的意图,并提供最佳答案回复。
TTS(Text To Speech),即从文本到语音,类似于人的嘴巴,该环节会将NLP返回的文本结果转换为语音信号,并传递给播放器播放出来。
这三个技术环节构建起了整个语音对话的核心。
语音对话技术为什么不能在手机或者其他智能硬件端实现,而需要联网才能使用,取决于这三个环节目前无法在保证用户体验的情况下在手机端离线实现。
主要技术的实现原理
以目前市面上已经商用化的语音对话实现技术来看,可以将ASR,NLP,TTS的资料简单整理如下表所示:
看起来很懵?那就对了!
看上去非常简单的语音交互,实际上主要的技术环节就涵盖了表中的主要环节。从常见应用技术中可以看出,里面多个环节均涉及到了机器学习、深度学习。同时对于音频的处理中也需要大量的卷积操作。
听不太懂也没有关系,只要知道这个过程很难就可以了。手机端由于体积的考虑,成本的考虑,续航的考虑,重量的考虑,散热的考虑等等,比起服务器而言,尤其是支持GPU进行并发浮点运算的服务器,运算资源是非常少的。
为了更形象的说明,使用2016年发布的iPhone 7 Plus与2013年发布的iMac14,1进行一场跑分比赛,具体结果如下表所示:
可以看出,一个领先两年的旗舰手机,也无法与两年前的PC机抗衡,更不用说服务器端了。
因此在手机上支持上述表中的所有环节,实在是巧妇难为无米之炊。
云端实现的产品优势
目前整个语音对话因为种种原因,需要在云端进行识别,该解决方案的思路就是用联网依赖换产品体验,这个产品体验具体体现在什么地方呢?
在线识别的ASR,可以提供更加准确的语音识别,降低因为语音识别造成的答非所问;
在线处理的NLP,可以提供海量资源,比起手机端的本地资源,可以视服务器端的歌曲内容资源是无穷大的;
在线处理的TTS,更加拟人化,读音准确,对于多音字的发音更加准确;
在线的资源方便及时进行升级,而不需要手机端修改任何东西。例如:最近网络的热门网络用语,爱豆最新出的歌曲名称等,产品和程序员均可以在云端进行快速升级优化;
云端由于优秀的处理能力,及时计算上网络链路的延时,也会比手机本地提供的离线语音对话服务更加快速。
到目前为止,可以较为清晰的明白这么涉及的原理是什么了。在产品的设计过程中,无法做到完美,及时乔布斯一样的奇才,也在产品设计中面临着各种妥协。
回味一下
我们在产品的设计中如果也面临同样的问题,也会面临取舍,那么有两个关键因素需要明确:
用户的核心诉求是什么,为了满足其核心诉求,用户可以做妥协的程度有多少。
类似语音助手,虽然产品设计只有在联网时才能使用,给使用场景做了很大的限制,但是比起一个离线的语音对话,联网的语音对话更像是和一个不聋不哑,无所不知的智者交谈。
解决方案的天花板不要限制了产品的想象力
类似语音助手,一个完全运行在本地的产品,处处将会受到硬件资源的影响而无法大展宏图,如果是核心不可取代的产品,否则很容易沦为鸡肋。
产品设计迎合社会发展趋势
类似语音助手,随着5G网路的普及,随着人机对话技术的发展,随着知识图谱的逐步完善,“只能联网才能使用”也许将不再是问题。
2019-12-03 23:04:29 -
目前大部分语音助手依赖网络原因是因为所有信息交互来自云端,必须通过网络获取
2019-12-03 17:45:40