AI时代,人与机器的沟通方式
随着度晓晓以虚拟形象在百度世界 2020 大会上的首次亮相,引发了人们对人与机器的沟通方式的思考。

图 1 - 度晓晓是百度公司推出的手机虚拟 AI 助手
度晓晓目前具备视觉识别能力,支持最自然的交流方式,更接近人与人的沟通过程,那么未来人机沟通方式又会是怎么样的呢?为了详细探究人机沟通方式的变化和趋势,我们要从最早的人机沟通方式说起。
1 人适应机器
1.1 最早的⼈机沟通⽅式
图灵测试
问:你会唱歌吗?
答:是的。
问:请再次回答,你会唱歌吗?
答:是的。
你多半会想到,与你对话的是一台机器,因为正常人对再次回答会多多少少显得不耐烦。早在 1950 年,艾伦·图灵发表了一篇划时代的论文,预言了创造出具有真正智能的机器的可能性。由于智能这一概念很难确切定义,他提出了著名的图灵测试 —— 如果一台机器能与人类展开对话而不被辨别出其机器身份,那么称这台机器具有智能。可见半个世纪前,人类期望的人机沟通方式就是自然的方式,即人与人对话的方式。
第一台语音交互机器
在人与机器沟通的方式方向上,人类做了很多尝试。1952 年,贝尔实验室开发的 Audrey 语音识别系统是其主要标志。Audrey 约 180cm 高,可以识别阿拉伯数字 0 - 9 的英文发音,对熟人的准确度高达 90%以上。

图 2 - 1952 年贝尔实验室开发的 Audrey 语音识别系统
1962 年,IBM 发明了第⼀台可以⽤语⾳进⾏简单数学计算的机器 Shoebox。即便如此,⼈ 类⾄今还没有发明出使⽤⼈与⼈的沟通⽅式的、通过图灵测试的机器。2018 年 5 ⽉,⾕歌 Duplex ⼈⼯智能语⾳技术也只是部分通过了图灵测试。因此,在半个世纪前,⼈机⽆法使⽤ ⾃然的沟通⽅式的原因是技术的限制,那时候互联⽹还没有出现,语⾳识别、⾃然语⾔处理技 术只是在萌芽阶段。
第⼀个⿏标
正是由于技术的限制,⼈类只能使⽤其他的⽅式与机器沟通。1968 年 12 ⽉ 9 ⽇,美国斯坦 福⼤学博⼠道格拉斯·恩格尔巴特展示了世界上第⼀个⿏标。它的外形是⼀只⼩⽊头盒⼦,其 ⼯作原理是由它底部的⼩球带动枢轴转动,继⽽带动变阻器改变阻值来产⽣位移信号,并将信 号传⾄主机。总的来说,⼈类当时可以使⽤的材料是有限的,技术也只有变阻器等有限的技 术。在这个前提下,⼈类只能适应机器,从⽽创造了⿏标这种相对体验好的⽅式与机器沟通。 我们称这种沟通⽅式为“⼈适应机器”。

图 3 - 世界上第⼀个⿏标 | 引⽤ artimachines.com
1.2 ⼈适应机器的特征
技术的限制
⼈适应机器的根本原因是技术的限制。因为机器作为产品的⼀种形式,它的产⽣包括三⼤要 素:需求、市场和技术。技术是产品的核⼼驱动⼒;需求是产品落地的基础;市场是产品成⻓ 的环境。⼈类使⽤技术打造产品,⽤产品试探市场,满⾜⽤户的需求,让新的产品发挥出商业 价值。50 年前,技术还没有成熟,即便我们的需求、我们的想象⼒、我们期望的是⽤最⾃然 的⽅式沟通,也只能适应机器,使⽤键盘、⿏标等来与机器沟通。

图 4 - 需求、市场和技术
设计创造更好的体验
设计是沟通的桥梁,连接着⽤户的需求和技术的能⼒。虽然有技术的限制,但设计师可以让⼈ 适应机器的体验变得更好。以百度翻译 APP 的取词翻译为例,直到现在 5G 还没有完全普 及,光学字符识别(OCR)技术在全世界 200 多语种的表现也达到不了毫秒级的全⽂精准识 别。⾯临着⽹速等技术的限制,设计师采⽤矩形的取词框与机器沟通,让⽤户瞄准书本中的单 词去翻译。瞄准哪⾥、翻译哪⾥的这⼀⾏为,既降低了技术实现的难度,也让⼈适应机器的过 程不再这么⽣硬,让翻译的体验变得更好。

图 5 - 百度翻译 APP 取词翻译
总的来说,半个世纪前“⼈适应机器”的沟通⽅式是必然,不可否认这种沟通⽅式在下⼀个⾰命 性技术突破前还会⻓期存在。但设计可以帮助我们在这过程中创造更好的体验。
2 机器适应⼈
2.1 机器适应⼈的时代
随着 AI 时代的来临,加速了 5G、⾯部识别等⼀系列新技术的进步,虽然还未完全成熟或普 及,但是机器主动适应⼈的条件似乎已经具备。机器开始主动适应⼈的表达⽅式和⽣活⽅式。

图 6 - ⼀系列新技术的进步
2.2 机器适应⼈的⽅式
对话是⼈与⼈之间最⾃然的沟通⽅式之⼀。当技术达到了⼀定的⽔平,语⾳对话逐步进⼊了⼤ 众的视野,该⽅式不仅提⾼了信息传递的效率,还帮助⽤户解放双⼿和双眼,⽽且帮助对⽂字 识别有障碍的群体更好的使⽤产品。当⼈们逐步适应了对话作为与机器沟通的⽅式时,也对沟 通舒适度有了更⾼的憧憬和需求。
百度地图 APP
借助语⾳技术,百度语⾔助⼿"⼩度"⼤幅提升了⽤户的沟通舒适度。除了对驾⻋这⼀⽤户群体 双⼿的释放之外。当⽤户说出 "⼩度⼩度,回家" 这样简单的指令时。通过算法和数据的积 累,百度地图会根据⽤户习惯,⾃动规划出从当前位置回家的最优路线。甚⾄当⽤户每天在特 定时间打开百度地图时,会预算出当前时段你是否想去这⾥?使沟通更加⾼效。

图 7 - 百度地图 APP
百度翻译 APP
百度翻译 APP 通过⼈⼯智能技术帮助⽤户打破语⾔的界限,⽀持全世界200+语⾔互译,提升 全世界的沟通体验。

图 8 - 百度翻译 APP
不仅如此,百度翻译 APP 还帮助⽤户解决学习、商务、旅游等不同场景下的语⾔问题,⽐ 如:百度翻译同传通过领先⾏业的同传技术与服务,⼤幅降低信息交流成本,驱动企业持续发 展。
百度翻译同传

图 9 - 百度翻译 同传
在 2020 百度全球⼈⼯智能技术⼤会上,百度翻译同传搭建了⼤会不同语种之间沟通的桥梁。 同声传译本是⼀项困难且专业的⼯作。翻译官除了对语⾔有深厚的储备,还需要极强的反应能 ⼒和应变能⼒。注意⼒需要⾼度集中,对脑⼒和体⼒都具有极⾼等要求。同传通过搭载百度语 ⾔⾃研的 SMLTA 声学建模技术,提升识别的准确性。同时,通过对⾳频信号的加强处理, 提升了识别的“鲁棒性(Robustness)”。在该场景下,百度翻译同传做到了全场景多模态, 即时的沉浸式体验。这也进⼀步体现了机器适应⼈的沟通⽅式。
3 ⼈和机器相互适应
3.1 机器更像⼈的诞⽣
当机器开始逐步适应⼈,⼀系列新的问题也被⼤家所关注。⼈类到底因该如何与之相处成为了 ⼤众所热议的话题。1992 年,雷波特与他⼈⼀同创办了波⼠顿动⼒。波⼠顿动⼒每出⼀款机 器⼈都及其引⼈注⽬,甚⾄会掀起⼀阵阵机器⼈要逆天的伦理性⼤讨论。

图 10 - 波斯顿机器⼈引⽤ | Boston Dynamics
2015 年 4 ⽉ 19 ⽇,索菲亚被激活。她以⼥演员奥黛丽·赫本为模型,与以前的各种型号机 器⼈相⽐,她更具与⼈类相似外观和⾏为⽅式。她的发明者汉森说:“它的⽬标就是像任何⼈ 类那样,拥有同样的意识、创造性和其他能⼒。”

图 11 - 索菲亚 | 引⽤ 极客公园
⼈类从开始对于机器的期望是它能够帮助我们带来意想不到的便利,但随着技术的进步,类似 像⼤⽩这样具有温度的机器⼈⾛进我们的视线,它采⽤了更具有温度的⽅式与⼈沟通。

图 12- ⼤⽩ | 引⽤ 超能陆战队
3.2 不同场景下的情感沟通
由此,伴随着技术的发展不断发酵,关于机器更像⼈的讨论也越演越烈。给技术产品赋予⼈类 的性格特征似乎已经成为趋势,被赋予的不同"⼈格"的机器所引发的话题也不尽相同。⽐如仿 真机器⼈带来的恐慌,和⼤⽩的爆红。但事实是:即使有了深度学习的加持,现阶段的机器还 远没有到达真正"智能体"的标准。既然如此,引发恐慌的究竟机器⼈的技术,还是它过强"⼈ 格"所触犯到的⼈类的存在感边界?
原因是多⽅⾯的。⽐如从⼼理学的⻆度,由于在外形设计的层⾯,若机器依旧停留在⼯具的外 形纬度,⼈类下意识本能的判断也就将其归为了⼯具的类别;从发明的⻆度,被⼈类发明的机 器/⼯具,除了本身具备特定的功能之外,还取决于被如何使⽤或如何定义。简单来说,同样 ⼀把剪⼑,可以是⼯具也可以是凶器。计算机或是智能机器也是同样的道理。
因此,将机器"⼈格"化的⽅向,不是赋予机器所谓独⽴的"⼈格";⽽是让机器拥有更有情感、 更⼈格化的设计,让⼈类和机器能够产⽣情感上的沟通交流甚⾄共鸣,能够更好的相互适应。
多样化场景
正如上⽂提到的,⽤语⾳回复的⽅式,赋予机器情绪和性格只是⼈类和机器沟通的开始。现实 的情况是:⾃然语⾔处理、知识图谱、图像识别、⼈脸识别等越来越多的细分技术早已被运⽤ 到不同产品中,为⼈类解决不同场景下的问题。只是随着需求的增多,被直接展示的越来越多 罢了。由此,在不同产品的使⽤场景下,我们需要给予其更精准的“⼈格”定位,营造更恰当的 沟通场景。
所以,作为翻译技术赋能的学习类产品。结合产品功能和⽤户需求,在设⽴ IP 形象时,百度 翻译 APP 将其"⼈格"定位为"智能助⼿"。

图 13 - 百度翻译 APP IP 形象 DODO
在保留其机器属性的同时,强调陪伴和可依赖的沟通⽅式。强化情感温度,塑造区别于其他冰 冷机器的愉悦感。

图 14 - 百度翻译 APP IP 形象 DODO
除此之外,顺应不同场景的情感沟通⽅案,UNIT 的个性化定制功能则满⾜了⼈类在⾏为⽔平 层⾯的多⽅⾯诉求。

图 15 - 百度翻译 UNIT 智能
个性化反馈
其实,⼈与机器沟通边界探索与机器本身情绪的反应、分析模型的准确性是直接关联的。且在 现有的技术中,AI 对情绪的情感分析还停留在封闭场景中的阶段。通俗来说,它也许能理解 你的表情、语⾳,但猜不到你表情背后的内⼼活动到底是什么。梅罗维茨在《消失的地域》中 曾提出“新媒介-新场景-新⾏为”的关系模型,认为新媒体的应⽤可能重建⼤范围的场景和⾏ 为,甚⾄⼈类的社交⻆⾊与规则也随之产⽣影响。确实,线上线下、虚拟现实的场景重叠,个 体⼈类也已开始追求更具有个性化的细致表达。
例如 Emoji。表情包作为信息时代的传播沟通符号,⽕遍全球。在 ios12 中,借助⼈脸识别技 术,苹果公司推出了可定制的 Memoji。

图 16 - Apple Memoji|引⽤ Jeremy Horwitz
度晓晓的诞⽣也是如此。基于语⾳、图像、语⾔等技术的⽀持赋能,度晓晓具备答疑解惑、情 感陪伴等能⼒,可以帮⽤户解决⽣活中的各种问题。在沟通⽅式上,度晓晓也不再局限于语⾳ 的互动⽅式,还加⼊了视频聊天、触碰闲聊等功能。

图 17 - 百度⼿机虚拟AI助⼿度晓晓
更重要的是,度晓晓还会随着⽤户的使⽤⽽形成不同的性格,是⼀个典型的养成型助理。且随 着⽤数据的积累,最终能够实现千⼈千⾯的效果,每个⼈的度晓晓都会因各⾃主⼈⽽不⼀样。

图 18 - 百度⼿机虚拟AI助⼿度晓晓
3.3 未来
⾄此,关于机器与⼈类沟通的⽅式讨论似乎还没有⼀个确切的答案。 未来的机器到底是否会真实的感情? 我们⽆法论证。但可以肯定随着⼈⼯智能时代的到来, 机器已经在改变⼈类的⽣活,且引发了⼈类不同的情感需求和反应。 脑机接⼝技术的爆发,神经形态芯⽚的⽇趋成熟。科技的不断进步,似乎为⼈和机器的沟通⽅ 式带来⽆限的可能。也许未来的某天,机器能够完全使⽤⼈类的沟通⽅式与我们沟通,甚⾄不 被察觉。 那么对你⽽⾔,⼈机沟通⽅式的边界在哪?未来可能⼜会诞⽣哪些技术,为⼈机沟通带来意想 不到的可能?欢迎⼤家在评论区与我们互动,写下你的看法。
作者
周⼦轩、李俞锋、⽯静雯
参考
《百度百科:度晓晓》
《百度百科:图灵测试》
《A Brief History of ASR: Automatic Speech Recognition》
《⿏标诞⽣49周年!世界上第⼀个⿏标就⻓这样》
《AI与情感》
《未来搜索还能这样玩!养成类虚拟助理“度晓晓”亮相百度世界2020》














































































