苏宁易购 I 小Biu智能语音项目总结

Homepage recommendation
上海/设计爱好者/5年前/12302浏览
苏宁易购 I 小Biu智能语音项目总结Homepage recommendation

小Biu智能语音项目总结以及对人工智能的一些思考


对自己说的话:

当你学到了很多的新知识,就要及时的倾倒出来,进行梳理,一味的学而不输出,时间长了就会被冲淡,最后什么痕迹都不会留下。尤其作为设计师,你输出来的东西,才能真正成为你自己的东西。

-

小Biu智能语音项目版权归属于苏宁易购。本文阅读时间大概需要15分钟

-

-

人工智能一直是这几年的热门,涉及行业很广,各大企业也都在争先恐后的抢市场,绞尽脑汁,研发一切能想到的产品。而在人工智能领域运用最广的可以说是智能语音了,可用于车载、家电、商业设备等等。有幸我们UED团队和工业设计团队属于一个部门,相比别的互联网公司的UED团队,我们能接触到更多的智能产品。我们自研的产品也很多,有魔镜、烟机、音箱、体脂称、冰箱等等。



多款智能设备都搭载了小Biu智能语音系统,本文就针对小Biu智能语音系统做一个总结。

(PS:前段时间也是因为项目需要,测试童鞋就坐在我们部门旁边,天天测试小Biu语音系统,整天被“小Biu小Biu”的声音围绕,我已经被洗脑了~害~)








了解VUI  



我们熟悉的有GUI,即图像交互界面(Graphical User Interface),主要是图形和文本所构成的,用户主要是通过点击和滑动这样的手势来和GUI进行交互的;而VUI,即语音交互界面(Voice User Interface),内容主要由文字构成,用户可以直接使用语音来进行交互,语音系统能够实现自动化的服务并且提供完整的相关流程。VUI需要设计对话的逻辑、语法、应答内容等,内容依赖于语音系统,弱化了二维界面,强化立体空间里通过语言进行交流的过程。VUI和GUI的差异等这里不多说了,网上的文章一大堆,感兴趣的童鞋可以自行查看。







VUI的背后  



用过智能音箱的朋友,应该都能感受到VUI带来的方便,一问一答即反馈的交互确实很方便,比如你对小爱音箱发送唤醒指令“小爱同学”,就能和她开始对话,并且执行你的命令(小Biu系列的智能设备语音系统,都是以“小Biu小Biu”唤醒)。透过现象看本质,看似简单的语音对话场景,背后技术实现逻辑远远不止这么简单。



举个栗子

假如你使用小Biu音箱购物,当你发出“我想买XXX”的语音指令时,后端处理该条指令的交互逻辑是有点复杂的。我们这里后端语音语义技术采用百度云端的服务,当百度云端认为这是一条购物Domian的请求时,将其理解为对应的Intent,并填充Slot,然后发给语音购物Bot,Bot控制交互逻辑,Bot对 指令处理后传至苏宁云端,苏宁云端对请求进行处理后,返回文本至百度云端Bot,由百度云端进行TTS,最后下发至音箱进行播报反馈给你结果。



hiahia~不急,我们还有流程图,还有名词解释,看下面的流程图,会清楚很多的。总之一句话,就是用户发出指令后,后台要经过一套算法,最终把你想要的结果呈现给你。

名词解释

Domain-某个领域(如:购物、家电控制、百科等);

Intent-某个领域的意图(如:购物领域下的物流查询等);

Slot-意图中的各种属性(如“我想买特仑苏牛奶”,其中“特仑苏”、“牛奶”就是属性);

ASR-Automatic Speech Recognition,指语音识别的能力;

NLP-Natural Language Processing,指自然语言处理的能力;

NLU-Natural Language Understanding,指自然语言理解的能力;

TTS-Text to speech,指将一段文本以语音方式播报的能力。


这里的Bot定义可以分很多种,可以是购物Bot、音乐Bot、天气Bot等等,每一个Bot里面也都有他自己的交互逻辑(这里不做深究)。







小Biu智能语音系统  



大概了解了VUI,我们回到小Biu语音系统。



1、唤醒方式


绝大多数的设备都是以唤醒词“Biu小Biu”唤醒语音助手,配有遥控器的设备,还可以按遥控器的语音键进行唤醒设备,比如TV。



2、载体分类


不带屏幕的设备有智能音箱、智能晾衣架等,带屏幕的有TV、烟机、魔镜等。



3、支持功能


1.影视,适用于TV、魔镜等带屏的支持观看影片的设备,语音可以搜索影片,可以进行播放操作,并且在播放中发送语音指令对其进行功能性的操作,比如:暂停、退出等。


2.应用,适用于带屏的设备,可以搜索应用,并且对应用进行安装、卸载等操作。


3.音乐,带屏和不带屏设备均适用,可以搜索音乐,并且在音乐播放中发送语音指令对其进行功能性的操作,比如:下一首、上一首、停止播放等。


4.股票,一般适用于带屏设备,可以查看具体的股票。


5.菜谱,适用于带屏的设备,按照使用场景,更适用于烟机、冰箱那类的设备。可以查看具体的菜谱、做法、使用材料等,还能一键下单购买食料。


6.购物,带屏和不带屏设备均适用,在带屏设备上使用,更能直观的查看商品信息,支持下单购买。


7.查天气,带屏和不带屏设备均适用,可以查看当天和近一周的天气。


8.查日期,带屏和不带屏设备均适用,可以查看当天日期。


9.控制家电,带屏和不带屏设备均适用,能控制家里的智能家电,对于带屏的设备,还能查看当前设备的各种状态和数据。


10.查限行,带屏和不带屏设备均适用,查看城市的限行信息。



列举了一些主要功能,不同的载体实现的功能也有很大的差异化,体验也会很不一样。比如语音购物,带屏的设备会更直观,用户能直接看到商品的样子、价格等各种信息,能提高用户对产品的信任度,要是换成纯语音的设备,恐怕用户要一直自行脑补画面,增加了用户的沟通压力。



举2个交互场景的栗子






4、交互状态


1.待唤醒,是交互流程过程前的状态,语音系统的载体未接受到任何唤醒指令时候,一直处于待唤醒的状态。就像赛跑的时候,“各就位”的状态,时刻准备着接受唤醒的信号。


2.监听中,是交互流程过程中的状态,接收到唤醒指令时,就好比发令枪那一声枪响,设备开始工作,处于监听的状态,接受用户发出的语音指令,同时进行处理分析用户的意图。


3.语音播放,是交互流程过程中或结束的状态,针对用户的语音指令,设备进行回答,以语音的形式和用户对话,存在于任何需要对话或者特殊情况需要反馈给用户信息的场景。


4.图文显示,是交互流程过程中或结束的状态,在带屏的设备,反馈状态除了语音,还有图文,针对如“购物”的场景体验,图文的反馈优于纯语音的反馈。


5.功能执行,是单个交互流程的结束状态,针对用户的指令,执行具体的功能,满足用户的指令意图。比如用户指令是“我要看电影”,最终执行的目的就是进行“播放影片”。




5、反馈形态


1.灯光,灯光反馈形态,主要存在于音箱设备,灯光的使用,让设备添加了一些情感元素,也增加了反馈时候给用户的亲和度,相比纯语音的设备,有灯光反馈的设备,更能直观的表达当前的设备状态,比如“是红色灯带、待机是蓝色灯带、对话中是蓝色灯带闪烁”。


2.语音,语音反馈形态,是语音系统普遍的反馈形态,载体也比较丰富。


3.图文,图文反馈形态,存在于带屏的设备,比如“TV”,更适用于一些如“购物、菜谱等”特殊的使用场景,反馈形态更直观,信息更丰富。









从语音系统到人工智能的体验反思 



1、等待体验


等待的阶段主要分:


唤醒阶段:通过指定的唤醒词或者按遥控器语音键,让设备从等待态转换为就绪态。


用户请求及反馈阶段:用户给出语音指令内容以及设备反馈结果满足用户的需求。


用户对于GUI的态度,是响应速度越快越好,加载内容、加载页面的时候,用户都希望秒打开,不希望等待,可是由于技术的壁垒,很难实现0ms的加载速度,为了提高用户体验,会加一些情感化的加载动效,减少用户在等待过程中的急躁心理,而VUI不像GUI,语音的对话,本身就带有一定的情感属性,一味地追求快,会给人一种轻浮及不稳重的感受,太慢则显得很笨或者给用户造成不耐烦的心理。百度人工智能交互设计院,针对各种等待状态反应时间做了测试,得出了各自状态让用户最能接受的等待时间。(PS:这里不做说明,感兴趣的童鞋可以去查看百度人工智能交互设计院相关报告。)




2、识别用户意图体验


用户发出的语音指令是千变化万的,语言的组合也是千变万化的,语种有很多,还有地方方言,在这么复杂的场景下,能够正确识别用户语音指令的意图,在语音系统的体验上显得尤为重要,每次都能识别准确,能说是智能,高频次的识别错误,怕是会被用户吐槽说是“智障”了。








a. 用户具体意图识别


用户发出指令时,中控需要识别并且理解,再分配到指定的技能上,再进行处理反馈给用户,执行命令。所以意图的识别准确性,取决于中控分配意图的能力,需要中控有一个全开放域。


举例一:

“我想买蛋糕”,中控应该理解意图为购物,分配给“购物”技能。

“我想做蛋糕”,中控应该理解意图为百科,分配给“百科”技能。


举例二:

“提醒我明天早上9点有会议”,中控应该理解意图为项目提醒,分配给“项目提醒”技能。

“明天要去杭州参加设计会议,今晚9点提醒我买高铁票”,中控应该理解意图还是为项目提醒,分配给“项目提醒”技能,要是分配给“订票”技能,就错了。





b. 不同的表述方式识别


同一个意图,可以有多种表述方式,并且受当下热门事件、流行元素等影响,不端会有新名词、新语句出来。这时候需要中控不停的学习更新,增加更多的语义覆盖,提高句式、话术、词槽的泛化程度,才能精确识别意图。


举例一:话术

“明天天气怎么样”、“我想查明天天气”、“告诉我明天天气如何”、“明天天气是好是坏”、“明天啥天气”,同样是要查询明天的天气,可以有多种话术,能够准备识别不同话术的同一意图,才能准备播报明天的天气,要是话术泛化程度不够,就会反馈异常。


举例二:词槽

“我想吃肯德基”、“我想吃全家桶”、“我想吃开封菜”、“我要吃KFC”,同样是要吃肯德基,可以用不同词语,词槽泛化程度高,则能准确识别用户意图,反之会反馈异常。


词槽、话术还需要考虑时效性,比如在疫情期间用户想搜索“口罩”,说“N95”、“KF94”,就能快速匹配到“口罩”的相关信息。





c. 模糊话术、歧义话术识别


VUI的输入不可控,表述模糊、语句不同停顿、同音字等都会造成不同的意思,目前语音系统是不能识别语句停顿和判断多音字的,ASR转化的时候就会出现差错,就不能精确识别用户的意图了。


举例一:同音字

“什么食物能致癌”,这里的“致”,也有可能会是“治”。


举例一:不同停顿

“帮我定下周六去杭州的高铁票”,这里的“定下周六”,可以是“定-下周六”,也可以是“定下-周六”。





3、执行结果体验



a. 反馈准确率/容错率


语音交互规范都会提及,反馈给用户的内容是否能够准确匹配需求,是否具备显性确认以提升容错性。

比如“我想听花儿乐队的《泡沫》”,如果搜索结果是邓紫棋的就不对了。如果没有资源,也应该处理成“未找到花儿乐队的泡沫,让我们来听听邓紫棋的”。


举例一:

有些内容有版权问题(比如:音乐版权),给不到指定结果,则需要用另一种方式代替来反馈给用户,弥补用户的落差心理。


举例二:

计算机的逻辑和人的习惯逻辑会有差异,此时反馈的结果可能不是用户想要的。


比如“5月1日晚上23点和5月2日凌晨2点,定第二天6点的闹钟”,大多情况,用户都会说“帮我定明天6点的闹钟”,默认是5月2日,而系统计算逻辑都会认为当天的第二天为明天,分别为5月2日和5月3日。


此时就需要让用户确认,反馈提示“已经为您设置明天早上6点的闹钟,我将会在4个小时后叫醒你”,让用户知道,是否设置结果和用户意图一致,防止用户被坑。



b. 任务的实现


大多数的语音系统,都是有自己的逻辑顺序,完成一个任务,都要按照设定的逻辑走,所以会经常出现引导术语,教用户怎么说、按照什么顺序说。


举例一:

比如用户需要购买火车票,先问出发地和目的地,然后问出发日期,然后确定车次,中间不能改不能乱,才能完成整个任务流程。


用户第一句话:“我想买火车票”,系统回复:“好的,你想从哪里到哪里?”

用户第二句话:“从北京到上海”,系统回复:“您想什么时候出发?”

用户第三句话:“明天下午出发”,系统回复:“为你找到如下车次,请问你想要第几个。”

用户第四句话:“那就第一个吧”,系统回复:“好的,正在为你下单。”


这里每一个槽位都是固定的,颠倒的表述,就会出错,怕是又要被说成“人工智障”了。能满足乱序填充槽位才能算是智能,也提高了VUI的使用体验。



c. 反馈形态


反馈形态包括:语音、文字、图像、灯光。不同的反馈形态给用户的感觉也是不一样的,特定的场景也需要特定的反馈形态,最终目的也都是为了让用户感受更好的体验效果。载体的不同,也决定了反馈形态的差异化。



比如早上用户起床还没睡醒,想问今天的天气,最让用户接受的肯定是语音形态了。此时文字、图像、灯光形态就显得有点弱了。


比如用户在购物,用户更愿意看到商品图,而不只是听声音。


又比如在夜晚,灯光的反馈能给设备增加情感属性,能拉近和用户的距离,给用户带来温暖。







4、情感化体验



影视作品中出现过很多机器人的形象,比如:阿丽塔、瓦力、机器猫、大白等,他们都有自己的个性,与它们互动,充满了期待与想象空间,或许他们比身边的人更懂你,帮你解决一系列生活问题的同时也让你感到温暖。



a.情感丰富度


机器人不只是机器人,需要具备喜怒哀乐的各种情感,才能更符合人与人之间交流的现象。我们开车的时候需要导航,如今各大导航系统,和明星合作,出了一系列情感丰富的导航语音包,情感丰富的导航更被人喜爱,感觉更亲近了,同时风趣的语言,也解决了开车时候的枯燥,我平时也一直用高德导航,设置的是岳云鹏语音包。下面列举几句看看。


“我的天呐,太羡慕你了,岳云鹏亲自为您导航”

“前方经过村庄,请您小心酒缸酱缸郭德纲”

“堵车啦,五环之歌听过没,我给你唱一段吧”

“前方为事故多发地,甭管事故多发,咱眼可别花”

“那么俏皮那么可爱,那么俊俏的我,要和您说拜拜了哦”





是不是很有趣呢?不过实际业务中,语音系统很难做到这样去满足不同人多场景的需求,比如你一直用小爱同学,突然蹦出来一句岳云鹏的声音,会不会吓到用户呢。这里前提用户需要有一个预期管理,乱玩梗,不懂的用户会莫名其妙,也很有可能冒犯用户,又要被骂“人工智障”了。



b.情感表现力


不同载体的语音系统情感表现力都不一样,表达的方式也都不一样。主要有“文字、图片、声音、灯光”等。语音的表达要像人在交流,而不是一个一个的吐字,不同的情感需要不同的声音,需要会笑、会哭,在愤怒的时候,必要情况还会口吐芬芳。载体要是带有显示屏的,还需要表情的管理,能更直观的让用户感受到情感。



c.人设一致性


不同的系统,一旦定义了一个人设,那他的性格就已经定格了,要是突然变风格,可能会让用户感到一脸懵逼,好比“李佳琪”、“李子柒”、“小团团”、“岳云鹏”,他们都有自己的鲜明风格,你和“李子柒”对话,突然像“小团团”那样逗比,估计很多观众都会吓一跳。



d.共情表现


“共情”是人们把自己真实的心灵感受,主动投射到自己所看到的事物上的一种心理现象。人类的共情行为,先感受和观察,然后做出回应。人会感同身受,能体会别人当时的情绪,一起快乐,一起悲伤。作为机器人,能通过各类传感器、采集器,进行视觉识别分析,音轨分析等解析出当前用户的情绪,再去和用户产生共情,这样的系统肯定能打动用户的心。









VUI设计师需要做些什么?  




1、用户研究


VUI设计师需要深入了解用户,了解用户和谁在一起,做用户研究之前,我们要先搞清楚,这个利益方的需求是什么,用户诉求是什么,我们的产品能够给用户带来什么?能够给他们解决什么问题?最后我们要确定我们的目标用户,然后进行调研。(具体研究方法,比如制定任务流程、制定用户体验地图、可用性测试等等,这里不做说明,可以查阅其他相关文章)




2、载体使用场景分析


载体的不同,使用场景就会不一样,交互方式也不一样。在VUI应用还未完全成熟的时候,缩小使用范围,找到产品自己适合的交互场景,才能实现更加优质的体验过程。


比如音箱,大多数交互场景,都是在家中,反馈形式一般也都是语音。怎么定义产品,能让用户感觉到和产品的对话,就像和自己的家人一样温暖?


比如商场里的一些智能机器人,由于商场人多,环境嘈杂、噪声也多,远场语音技术就要过硬,怎么消除噪音,精准捕捉用户的对话?针对路过的人,怎么设定一些特殊语境,主动打招呼,来吸引用户?


比如汽车中控,很多时候,用户在行驶中使用系统,这时候就需要更多的注意操作的安全性,什么时候用语音?什么时候使用触摸屏?处理方式,也要尽量简短明确,快速精准的完成用户的指令。




3、设计对话


a.理清对话逻辑


VUI的对话逻辑,如同GUI从点击到触发各个节点的交互逻辑,也需要从查询到回答的流转逻辑,将一个场景的对话流程贯穿起来。


b.设计语法


语法就是用户输入的指令集,设计师需要设计对话的意图,以及尽量考虑用户可能的表达方式,将其中最核心、最常用的表达方式提取为指令集模板。设计的指令集越多越全面,对话覆盖率就会越高。


c.设计应答


语音交互中最主要的应答方式是TTS,就是将设计师写好的应答脚本,通过TTS引擎转化为语音播放出来。应答带给用户最直观的感受,应答的好坏,直接关系到语音产品的体验。鉴于过长的语音内容会增加用户的记忆负载,设计应答时应该尽量简洁。




4、设计产品原型


针对带屏的设备,还得分析界面的展示形态,动态表情管理、图文显示、界面布局等。这时候需要GUI的能力,把VUI和GUI结合在一起考虑,可参考前面TV端购物、查看百科的例子。




5、了解底层技术的优缺点


VUI设计师要熟悉后台系统和终端设备之间的整个通信过程,这样能更深入的理解各个场景的交互行为是怎么样完成的。前面也举过例子,查看语音购物的流程。还得分析系统支持哪些能力,如果不是全开放域的系统,能力就会显得很局限,那么完成一条未知领域的指令,该怎么处理,就得多考虑了。




6、分析数据


分析数据肯定是必要的,对于设定好的功能,比如“设定的从接受指令到反馈结果,让用户等待的时间”,具体用户等待多久合适?比如“设定的反馈结果语句”,用户的满意度如何?都需要经过数据分析,才能判定该功能是否设定的合理。




7、发现VUI和GUI结合的更多可能


VUI和GUI的结合应用也很多,在GUI的基础上增加VUI有助于简化交互,可以做到无直接关系页面的跳转。在特殊场景,VUI和GUI还可以互相补充,弥补一方的缺点。通过将VUI和GUI的结合,用户可以更加便捷地使用产品,而诸如AI、面部识别、手势交互和音频输入等技术的加入,使得未来的产品也充满更多的可能性,也给VUI的设计师带来了挑战。





总结  


人工智能的时代已经到来,VUI也是一个新的领域,未来探索的路还很长,她的使用场景和交互方式还有很多值得探索的地方。人工智能的体验要做到极致,既要结合人的情感属性,又要结合智能设备快速处理命令的优势,做到服务于人,又高于人服务于人的体验,才能算是一个完美的系统。


本文针对小Biu智能语音系统和引申的人工智能方面做了一系列分析,还有很多不足的地方,希望看到这篇文章的同行大佬进行点评补充,一起探讨。

158
Report
|
198
Share
相关推荐
Starbucks app
Recommanded by editor
UI
UI
UI
UI
作品收藏夹
UI
1533
3D扫描仪套系Seal Lite
Homepage recommendation
内容含视频
评论
in to comment
Add emoji
喜欢TA的作品吗?喜欢就快来夸夸TA吧!
推荐素材
You may like
Segway E3 Pro|Own Your City
Homepage recommendation
相关收藏夹
UI
UI
UI
UI
作品收藏夹
UI
1533
学习
学习
学习
学习
作品收藏夹
首页推荐
首页推荐
首页推荐
首页推荐
作品收藏夹
文章
文章
文章
文章
作品收藏夹
文章
文章
文章
文章
作品收藏夹
硬核知识
硬核知识
硬核知识
硬核知识
作品收藏夹
大家都在看
Log in