语音交互是什么意思,人机语音交互流程详解( 二 )


流程图中用到的工具很多,这里就不一一列举了 。
在我们设计了一套样本对话之后,我们还要详细研究一些细节,比如确认 。
如何确认
如何确认:
用户语音的确认 非语言式确认 通用确认 视觉的确认1 。用户语音确认
最重要的是对用户语音的确认,分为显性确认和隐性确认 。
明确确认:更重要的是,强迫用户确认信息 。比如:天猫精灵,能帮我点个奶茶吗?附近找了XXX奶茶,用了优惠后价格是XX元 。你想要一个吗?
不可见:即不需要用户确认消息 。比如用户:XX,你能帮我把闹钟定到明天10点吗?好的,我已经为你设定了明天早上10点的闹钟 。
那么如何决定何时使用隐式确认和显式确认呢?
下面介绍第三级自信 。系统会在一定的阈值内做出明确的正式确认信息 。并且这个阈值被设置为三个级别 。
自信是智能音箱能够识别的声音清晰度 。
通俗易懂的话,是人与人之间语言接受的清晰度 。当然,当你听不清对方说什么的时候,你一般会问,或者只是说,对不起,我没听清楚 。你能再说一遍吗?
三级自信,比如帮我再买一份外卖 。当置信度大于80%时,使用隐式确认 。好的,我已经帮你叫了外卖 。当置信度为45~79%,使用显性确认时,是否还要再点一份外卖?当置信度低于45%时,对不起,我没听清楚你说的话 。你想买什么?
仅隐形确认
当智能语音音箱能够清晰的识别出你在说什么的时候,你就可以在无形中直接确认了,体验很流畅,很舒服 。
非语言的:比如灯亮需要几秒钟,那就让系统恢复或者先知道,让用户知道接下来会发生什么 。加入一些特定的音效来代表特定的意义 。
有趣的一般确认
有趣的通用确认是指智能语音音箱不会单独回答你是或不是,而是会主动和你进行一些问候对话 。通过这样的情感化设计,可以让用户感到更加温暖和舒适 。
说了这么多确认策略,接下来说会话识别 。因为这是让用户了解对话进度和进展的重要方式 。
对话标识
它包括以下三个方面:
时间线,开始、进行中、结束 。接收回执,谢谢、知道了、好的、了解了 。积极反馈,哇,你这个消息真的很棒 。对话的作用是什么?是用户了解对话进度和进展的重要途径 。能够更好的跟踪用户使用过程的路径方法 。
你会发现,在很多情况下,智能语音设备并不总是能够快速准确地接受识别我们的信息 。错误率相对较高 。先说几个语音识别错误的案例 。
语音错误及其解决方案
几种异常情况:
未检测到语音 检测到语音,但没有识别 检测到语音,但没有回应 部分语音识别错误1 。未检测到语音
检测不到语音大概有两种情况 。一种是用户说了,系统没收到 。第二,用户没说 。
说说主要用户说了什么,系统没收到什么 。建议采用两种方案 。
我们前面提到的第一个信心水平,我们直接问:“不好意思,我没听清楚你说什么,你能再说一遍吗?二是什么都不做 。
在什么情况下应该使用查询?
用户必须回复后,系统才能继续进行任务 。你的系统只是支持语音,没有其他回复方式了 。什么情况下什么都不做比较好?
用户还有其他选择(比如手机界面可通过一个按键操作) 。什么也不做,不会中断对话 。有视觉信息可以提示用户做出明确地选择 。2 。检测到声音,但无法识别
处理方法和未检测语音基本相同,这里就不赘述了 。
3 。检测到语音,但没有响应
这通常有两个原因:
系统程序没有针对这种情况的回复 。程序中写了错误的回复 。解决方案,这里我们会通过测试找出是哪个环节出了问题,通过数据收集和分析可以找出具体的答案 。
4 。部分识别错误
大概是这样的:
用户:天猫精灵,嗯……我觉得……
天猫:嗯,好吧,我给你带首XXX的歌 。
解决方法:这个还是需要技术介入 。你可以通过应用固件后的N-Best列表(可以避免二次错误)和相应的数据分析来构建这个问题的解决方案 。
说完错误异常处理和解决方案,再来说说延迟和消歧 。
5 。延迟
在交互中,用户的平均等待时间是7秒(现在可能是5秒) 。当你的查询等待时间超过这个阈值,用户就会怀疑是不是系统出了问题,甚至会烦躁 。
解决方法:第一,通过“请稍候”让用户知道你正在工作和搜索 。第二,非语言提示,比如音效等等 。


推荐阅读