苏宁易购 I 小Biu智能语音项目总结

松山小野人

上海/设计爱好者/5年前/12302浏览

版权

苏宁易购 I 小Biu智能语音项目总结

松山小野人

小Biu智能语音项目总结以及对人工智能的一些思考

对自己说的话：

当你学到了很多的新知识，就要及时的倾倒出来，进行梳理，一味的学而不输出，时间长了就会被冲淡，最后什么痕迹都不会留下。尤其作为设计师，你输出来的东西，才能真正成为你自己的东西。

小Biu智能语音项目版权归属于苏宁易购。本文阅读时间大概需要15分钟

人工智能一直是这几年的热门，涉及行业很广，各大企业也都在争先恐后的抢市场，绞尽脑汁，研发一切能想到的产品。而在人工智能领域运用最广的可以说是智能语音了，可用于车载、家电、商业设备等等。有幸我们UED团队和工业设计团队属于一个部门，相比别的互联网公司的UED团队，我们能接触到更多的智能产品。我们自研的产品也很多，有魔镜、烟机、音箱、体脂称、冰箱等等。

多款智能设备都搭载了小Biu智能语音系统，本文就针对小Biu智能语音系统做一个总结。

（PS：前段时间也是因为项目需要，测试童鞋就坐在我们部门旁边，天天测试小Biu语音系统，整天被“小Biu小Biu”的声音围绕，我已经被洗脑了~害~）

了解VUI

我们熟悉的有GUI，即图像交互界面（Graphical User Interface）,主要是图形和文本所构成的，用户主要是通过点击和滑动这样的手势来和GUI进行交互的；而VUI，即语音交互界面（Voice User Interface），内容主要由文字构成，用户可以直接使用语音来进行交互，语音系统能够实现自动化的服务并且提供完整的相关流程。VUI需要设计对话的逻辑、语法、应答内容等，内容依赖于语音系统，弱化了二维界面，强化立体空间里通过语言进行交流的过程。VUI和GUI的差异等这里不多说了，网上的文章一大堆，感兴趣的童鞋可以自行查看。

VUI的背后

用过智能音箱的朋友，应该都能感受到VUI带来的方便，一问一答即反馈的交互确实很方便，比如你对小爱音箱发送唤醒指令“小爱同学”，就能和她开始对话，并且执行你的命令（小Biu系列的智能设备语音系统，都是以“小Biu小Biu”唤醒）。透过现象看本质，看似简单的语音对话场景，背后技术实现逻辑远远不止这么简单。

举个栗子

假如你使用小Biu音箱购物，当你发出“我想买XXX”的语音指令时，后端处理该条指令的交互逻辑是有点复杂的。我们这里后端语音语义技术采用百度云端的服务，当百度云端认为这是一条购物Domian的请求时，将其理解为对应的Intent，并填充Slot，然后发给语音购物Bot，Bot控制交互逻辑，Bot对指令处理后传至苏宁云端，苏宁云端对请求进行处理后，返回文本至百度云端Bot，由百度云端进行TTS，最后下发至音箱进行播报反馈给你结果。

hiahia~不急，我们还有流程图，还有名词解释，看下面的流程图，会清楚很多的。总之一句话，就是用户发出指令后，后台要经过一套算法，最终把你想要的结果呈现给你。

名词解释

Domain-某个领域（如：购物、家电控制、百科等）；

Intent-某个领域的意图（如：购物领域下的物流查询等）；

Slot-意图中的各种属性（如“我想买特仑苏牛奶”，其中“特仑苏”、“牛奶”就是属性）；

ASR-Automatic Speech Recognition，指语音识别的能力；

NLP-Natural Language Processing，指自然语言处理的能力；

NLU-Natural Language Understanding,指自然语言理解的能力；

TTS-Text to speech，指将一段文本以语音方式播报的能力。

这里的Bot定义可以分很多种，可以是购物Bot、音乐Bot、天气Bot等等，每一个Bot里面也都有他自己的交互逻辑（这里不做深究）。

小Biu智能语音系统

大概了解了VUI，我们回到小Biu语音系统。

1、唤醒方式

绝大多数的设备都是以唤醒词“Biu小Biu”唤醒语音助手，配有遥控器的设备，还可以按遥控器的语音键进行唤醒设备，比如TV。

2、载体分类

不带屏幕的设备有智能音箱、智能晾衣架等，带屏幕的有TV、烟机、魔镜等。

3、支持功能

1.影视，适用于TV、魔镜等带屏的支持观看影片的设备，语音可以搜索影片，可以进行播放操作，并且在播放中发送语音指令对其进行功能性的操作，比如：暂停、退出等。

2.应用，适用于带屏的设备，可以搜索应用，并且对应用进行安装、卸载等操作。

3.音乐，带屏和不带屏设备均适用，可以搜索音乐，并且在音乐播放中发送语音指令对其进行功能性的操作，比如：下一首、上一首、停止播放等。

4.股票，一般适用于带屏设备，可以查看具体的股票。

5.菜谱，适用于带屏的设备，按照使用场景，更适用于烟机、冰箱那类的设备。可以查看具体的菜谱、做法、使用材料等，还能一键下单购买食料。

6.购物，带屏和不带屏设备均适用，在带屏设备上使用，更能直观的查看商品信息，支持下单购买。

7.查天气，带屏和不带屏设备均适用，可以查看当天和近一周的天气。

8.查日期，带屏和不带屏设备均适用，可以查看当天日期。

9.控制家电，带屏和不带屏设备均适用，能控制家里的智能家电，对于带屏的设备，还能查看当前设备的各种状态和数据。

10.查限行，带屏和不带屏设备均适用，查看城市的限行信息。

列举了一些主要功能，不同的载体实现的功能也有很大的差异化，体验也会很不一样。比如语音购物，带屏的设备会更直观，用户能直接看到商品的样子、价格等各种信息，能提高用户对产品的信任度，要是换成纯语音的设备，恐怕用户要一直自行脑补画面，增加了用户的沟通压力。

举2个交互场景的栗子

4、交互状态

1.待唤醒，是交互流程过程前的状态，语音系统的载体未接受到任何唤醒指令时候，一直处于待唤醒的状态。就像赛跑的时候，“各就位”的状态，时刻准备着接受唤醒的信号。

2.监听中，是交互流程过程中的状态，接收到唤醒指令时，就好比发令枪那一声枪响，设备开始工作，处于监听的状态，接受用户发出的语音指令，同时进行处理分析用户的意图。

3.语音播放，是交互流程过程中或结束的状态，针对用户的语音指令，设备进行回答，以语音的形式和用户对话，存在于任何需要对话或者特殊情况需要反馈给用户信息的场景。

4.图文显示，是交互流程过程中或结束的状态，在带屏的设备，反馈状态除了语音，还有图文，针对如“购物”的场景体验，图文的反馈优于纯语音的反馈。

5.功能执行，是单个交互流程的结束状态，针对用户的指令，执行具体的功能，满足用户的指令意图。比如用户指令是“我要看电影”，最终执行的目的就是进行“播放影片”。

5、反馈形态

1.灯光，灯光反馈形态，主要存在于音箱设备，灯光的使用，让设备添加了一些情感元素，也增加了反馈时候给用户的亲和度，相比纯语音的设备，有灯光反馈的设备，更能直观的表达当前的设备状态，比如“是红色灯带、待机是蓝色灯带、对话中是蓝色灯带闪烁”。

2.语音，语音反馈形态，是语音系统普遍的反馈形态，载体也比较丰富。

3.图文，图文反馈形态，存在于带屏的设备，比如“TV”，更适用于一些如“购物、菜谱等”特殊的使用场景，反馈形态更直观，信息更丰富。

从语音系统到人工智能的体验反思

1、等待体验

等待的阶段主要分：

唤醒阶段：通过指定的唤醒词或者按遥控器语音键，让设备从等待态转换为就绪态。

用户请求及反馈阶段：用户给出语音指令内容以及设备反馈结果满足用户的需求。

用户对于GUI的态度，是响应速度越快越好，加载内容、加载页面的时候，用户都希望秒打开，不希望等待，可是由于技术的壁垒，很难实现0ms的加载速度，为了提高用户体验，会加一些情感化的加载动效，减少用户在等待过程中的急躁心理，而VUI不像GUI，语音的对话，本身就带有一定的情感属性，一味地追求快，会给人一种轻浮及不稳重的感受，太慢则显得很笨或者给用户造成不耐烦的心理。百度人工智能交互设计院，针对各种等待状态反应时间做了测试，得出了各自状态让用户最能接受的等待时间。（PS：这里不做说明，感兴趣的童鞋可以去查看百度人工智能交互设计院相关报告。）

2、识别用户意图体验

用户发出的语音指令是千变化万的，语言的组合也是千变万化的，语种有很多，还有地方方言，在这么复杂的场景下，能够正确识别用户语音指令的意图，在语音系统的体验上显得尤为重要，每次都能识别准确，能说是智能，高频次的识别错误，怕是会被用户吐槽说是“智障”了。

a. 用户具体意图识别

用户发出指令时，中控需要识别并且理解，再分配到指定的技能上，再进行处理反馈给用户，执行命令。所以意图的识别准确性，取决于中控分配意图的能力，需要中控有一个全开放域。

举例一：

“我想买蛋糕”，中控应该理解意图为购物，分配给“购物”技能。

“我想做蛋糕”，中控应该理解意图为百科，分配给“百科”技能。

举例二：

“提醒我明天早上9点有会议”，中控应该理解意图为项目提醒，分配给“项目提醒”技能。

“明天要去杭州参加设计会议，今晚9点提醒我买高铁票”，中控应该理解意图还是为项目提醒，分配给“项目提醒”技能，要是分配给“订票”技能，就错了。

b. 不同的表述方式识别

同一个意图，可以有多种表述方式，并且受当下热门事件、流行元素等影响，不端会有新名词、新语句出来。这时候需要中控不停的学习更新，增加更多的语义覆盖，提高句式、话术、词槽的泛化程度，才能精确识别意图。

举例一：话术

“明天天气怎么样”、“我想查明天天气”、“告诉我明天天气如何”、“明天天气是好是坏”、“明天啥天气”，同样是要查询明天的天气，可以有多种话术，能够准备识别不同话术的同一意图，才能准备播报明天的天气，要是话术泛化程度不够，就会反馈异常。

举例二：词槽

“我想吃肯德基”、“我想吃全家桶”、“我想吃开封菜”、“我要吃KFC”，同样是要吃肯德基，可以用不同词语，词槽泛化程度高，则能准确识别用户意图，反之会反馈异常。

词槽、话术还需要考虑时效性，比如在疫情期间用户想搜索“口罩”，说“N95”、“KF94”，就能快速匹配到“口罩”的相关信息。

c. 模糊话术、歧义话术识别

VUI的输入不可控，表述模糊、语句不同停顿、同音字等都会造成不同的意思，目前语音系统是不能识别语句停顿和判断多音字的，ASR转化的时候就会出现差错，就不能精确识别用户的意图了。

举例一：同音字

“什么食物能致癌”，这里的“致”，也有可能会是“治”。

举例一：不同停顿

“帮我定下周六去杭州的高铁票”，这里的“定下周六”，可以是“定-下周六”，也可以是“定下-周六”。

3、执行结果体验

a. 反馈准确率/容错率

语音交互规范都会提及，反馈给用户的内容是否能够准确匹配需求，是否具备显性确认以提升容错性。

比如“我想听花儿乐队的《泡沫》”，如果搜索结果是邓紫棋的就不对了。如果没有资源，也应该处理成“未找到花儿乐队的泡沫，让我们来听听邓紫棋的”。

举例一：

有些内容有版权问题（比如：音乐版权），给不到指定结果，则需要用另一种方式代替来反馈给用户，弥补用户的落差心理。

举例二：

计算机的逻辑和人的习惯逻辑会有差异，此时反馈的结果可能不是用户想要的。

比如“5月1日晚上23点和5月2日凌晨2点，定第二天6点的闹钟”，大多情况，用户都会说“帮我定明天6点的闹钟”，默认是5月2日，而系统计算逻辑都会认为当天的第二天为明天，分别为5月2日和5月3日。

此时就需要让用户确认，反馈提示“已经为您设置明天早上6点的闹钟，我将会在4个小时后叫醒你”，让用户知道，是否设置结果和用户意图一致，防止用户被坑。

b. 任务的实现

大多数的语音系统，都是有自己的逻辑顺序，完成一个任务，都要按照设定的逻辑走，所以会经常出现引导术语，教用户怎么说、按照什么顺序说。

举例一：

比如用户需要购买火车票，先问出发地和目的地，然后问出发日期，然后确定车次，中间不能改不能乱，才能完成整个任务流程。

用户第一句话：“我想买火车票”，系统回复：“好的，你想从哪里到哪里？”

用户第二句话：“从北京到上海”，系统回复：“您想什么时候出发？”

用户第三句话：“明天下午出发”，系统回复：“为你找到如下车次，请问你想要第几个。”

用户第四句话：“那就第一个吧”，系统回复：“好的，正在为你下单。”

这里每一个槽位都是固定的，颠倒的表述，就会出错，怕是又要被说成“人工智障”了。能满足乱序填充槽位才能算是智能，也提高了VUI的使用体验。

c. 反馈形态

反馈形态包括：语音、文字、图像、灯光。不同的反馈形态给用户的感觉也是不一样的，特定的场景也需要特定的反馈形态，最终目的也都是为了让用户感受更好的体验效果。载体的不同，也决定了反馈形态的差异化。

比如早上用户起床还没睡醒，想问今天的天气，最让用户接受的肯定是语音形态了。此时文字、图像、灯光形态就显得有点弱了。

比如用户在购物，用户更愿意看到商品图，而不只是听声音。

又比如在夜晚，灯光的反馈能给设备增加情感属性，能拉近和用户的距离，给用户带来温暖。

4、情感化体验

影视作品中出现过很多机器人的形象，比如：阿丽塔、瓦力、机器猫、大白等，他们都有自己的个性，与它们互动，充满了期待与想象空间，或许他们比身边的人更懂你，帮你解决一系列生活问题的同时也让你感到温暖。

a.情感丰富度

机器人不只是机器人，需要具备喜怒哀乐的各种情感，才能更符合人与人之间交流的现象。我们开车的时候需要导航，如今各大导航系统，和明星合作，出了一系列情感丰富的导航语音包，情感丰富的导航更被人喜爱，感觉更亲近了，同时风趣的语言，也解决了开车时候的枯燥，我平时也一直用高德导航，设置的是岳云鹏语音包。下面列举几句看看。

“我的天呐，太羡慕你了，岳云鹏亲自为您导航”

“前方经过村庄，请您小心酒缸酱缸郭德纲”

“堵车啦，五环之歌听过没，我给你唱一段吧”

“前方为事故多发地，甭管事故多发，咱眼可别花”

“那么俏皮那么可爱，那么俊俏的我，要和您说拜拜了哦”

是不是很有趣呢？不过实际业务中，语音系统很难做到这样去满足不同人多场景的需求，比如你一直用小爱同学，突然蹦出来一句岳云鹏的声音，会不会吓到用户呢。这里前提用户需要有一个预期管理，乱玩梗，不懂的用户会莫名其妙，也很有可能冒犯用户，又要被骂“人工智障”了。

b.情感表现力

不同载体的语音系统情感表现力都不一样，表达的方式也都不一样。主要有“文字、图片、声音、灯光”等。语音的表达要像人在交流，而不是一个一个的吐字，不同的情感需要不同的声音，需要会笑、会哭，在愤怒的时候，必要情况还会口吐芬芳。载体要是带有显示屏的，还需要表情的管理，能更直观的让用户感受到情感。

c.人设一致性

不同的系统，一旦定义了一个人设，那他的性格就已经定格了，要是突然变风格，可能会让用户感到一脸懵逼，好比“李佳琪”、“李子柒”、“小团团”、“岳云鹏”，他们都有自己的鲜明风格，你和“李子柒”对话，突然像“小团团”那样逗比，估计很多观众都会吓一跳。

d.共情表现

“共情”是人们把自己真实的心灵感受，主动投射到自己所看到的事物上的一种心理现象。人类的共情行为，先感受和观察，然后做出回应。人会感同身受，能体会别人当时的情绪，一起快乐，一起悲伤。作为机器人，能通过各类传感器、采集器，进行视觉识别分析，音轨分析等解析出当前用户的情绪，再去和用户产生共情，这样的系统肯定能打动用户的心。

VUI设计师需要做些什么？

1、用户研究

VUI设计师需要深入了解用户，了解用户和谁在一起，做用户研究之前，我们要先搞清楚，这个利益方的需求是什么，用户诉求是什么，我们的产品能够给用户带来什么？能够给他们解决什么问题？最后我们要确定我们的目标用户，然后进行调研。（具体研究方法，比如制定任务流程、制定用户体验地图、可用性测试等等，这里不做说明，可以查阅其他相关文章）

2、载体使用场景分析

载体的不同，使用场景就会不一样，交互方式也不一样。在VUI应用还未完全成熟的时候，缩小使用范围，找到产品自己适合的交互场景，才能实现更加优质的体验过程。

比如音箱，大多数交互场景，都是在家中，反馈形式一般也都是语音。怎么定义产品，能让用户感觉到和产品的对话，就像和自己的家人一样温暖？

比如商场里的一些智能机器人，由于商场人多，环境嘈杂、噪声也多，远场语音技术就要过硬，怎么消除噪音，精准捕捉用户的对话？针对路过的人，怎么设定一些特殊语境，主动打招呼，来吸引用户？

比如汽车中控，很多时候，用户在行驶中使用系统，这时候就需要更多的注意操作的安全性，什么时候用语音？什么时候使用触摸屏？处理方式，也要尽量简短明确，快速精准的完成用户的指令。

3、设计对话

a.理清对话逻辑

VUI的对话逻辑，如同GUI从点击到触发各个节点的交互逻辑，也需要从查询到回答的流转逻辑，将一个场景的对话流程贯穿起来。

b.设计语法

语法就是用户输入的指令集，设计师需要设计对话的意图，以及尽量考虑用户可能的表达方式，将其中最核心、最常用的表达方式提取为指令集模板。设计的指令集越多越全面，对话覆盖率就会越高。

c.设计应答

语音交互中最主要的应答方式是TTS，就是将设计师写好的应答脚本，通过TTS引擎转化为语音播放出来。应答带给用户最直观的感受，应答的好坏，直接关系到语音产品的体验。鉴于过长的语音内容会增加用户的记忆负载，设计应答时应该尽量简洁。

4、设计产品原型

针对带屏的设备，还得分析界面的展示形态，动态表情管理、图文显示、界面布局等。这时候需要GUI的能力，把VUI和GUI结合在一起考虑，可参考前面TV端购物、查看百科的例子。

5、了解底层技术的优缺点

VUI设计师要熟悉后台系统和终端设备之间的整个通信过程，这样能更深入的理解各个场景的交互行为是怎么样完成的。前面也举过例子，查看语音购物的流程。还得分析系统支持哪些能力，如果不是全开放域的系统，能力就会显得很局限，那么完成一条未知领域的指令，该怎么处理，就得多考虑了。

6、分析数据

分析数据肯定是必要的，对于设定好的功能，比如“设定的从接受指令到反馈结果，让用户等待的时间”，具体用户等待多久合适？比如“设定的反馈结果语句”，用户的满意度如何？都需要经过数据分析，才能判定该功能是否设定的合理。

7、发现VUI和GUI结合的更多可能

VUI和GUI的结合应用也很多，在GUI的基础上增加VUI有助于简化交互，可以做到无直接关系页面的跳转。在特殊场景，VUI和GUI还可以互相补充，弥补一方的缺点。通过将VUI和GUI的结合，用户可以更加便捷地使用产品，而诸如AI、面部识别、手势交互和音频输入等技术的加入，使得未来的产品也充满更多的可能性，也给VUI的设计师带来了挑战。