7月5日下午,阿里巴巴人工智能实验室发布了一款名为“天猫精灵X1”的智能音箱,这也是阿里巴巴推出的首款消费级AI产品。
作为后来者,天猫精灵前面有很多“前辈”。无论是国外的亚马逊、谷歌、苹果、微软,还是国内的京东、科大讯飞、联想等,都推出了自己的智能音箱。
此前,有消息报道了这款人工智能音箱的定价和基本硬件参数。阿里巴巴人工智能实验室负责人陈丽娟告诉记者,除了市场上常见的内容播放、提醒设置、闹钟天气等功能外,这款音箱在购物场景方面也将领先于行业平均水平。例如,售价179.99美元的亚马逊Echo,购物仍然是以添加购物车为主,而阿里巴巴的“天猫精灵X1”音箱则可以完成从追踪购买记录、选择订单、到最终付款的整个流程。
这主要得益于其内置的第一代中文人机通讯系统。这是阿里巴巴首次正式发布智能音箱产品和中文人机通讯系统。这款音箱的诞生也代表了阿里巴巴对语音交互的重视,体现了其抢占物联网入口的尝试。
马云在评价天猫精灵时认为,这个产品的气质很像2003年或2004年的淘宝,充满了探索和发现的乐趣。当时淘宝刚成立,消费者买不到很多东西,但可以找到很多有趣的东西。
天猫精灵刚刚踏入人机交互的新世界,与淘宝刚创立时的情况一模一样。陈丽娟告诉凤凰科技,未来,天猫精灵的功能和内容将呈指数级增长,在未知的世界中仍然有很多乐趣可以探索。
例如, Echo 刚推出时,功能非常少。然而,随着亚马逊开放该平台的接口,数以万计的开发者加入进来,并基于其开发了各种功能和应用程序。
我们也希望通过向第三方开发者开放,能够获得更丰富的内容。
不难看出,阿里巴巴在运营模式上充分让利于了开发者。据了解,开发者平台主要针对四类开发者,包括内容开发者、应用开发者、智能家居开发者和硬件制造商。开发者可以创造技能为更多语音用户提供服务,或者将他们的设备连接到云服务以获得语音交互能力。开发者可获得全部利润,推广期间平台不参与分成。据报道,阿里巴巴还将推出相关的阿里巴巴AI创新开发者计划。
淘宝上有上千种产品。语音交互产品如何选择消费者想要的产品?陈丽娟表示,这款产品具有“决策力”,会学习消费者的购物习惯,了解用户画像。然后提出兴趣推荐。阿里巴巴在电商领域长期积累的技术优势可以直接运用到语音交互场景。
中美两国的家居环境差异很大,直接把亚马逊的Echo和苹果的产品搬到中国市场可能不太踏实。美国人使用智能音箱最常见的场景是在厨房,做饭时需要设置倒计时。在国内市场,智能硬件设备千差万别,中国用户需要一款对中文语音交互友好的助手级“全能产品”。
拆解语音交互时,可以分为语音识别、语音合成、自然语言处理。每个大块可以分为更详细的处理步骤。至于国内语音行业的公司,大多坚持语音输入方式(如科大讯飞)或语音搜索。语音交互真正的商业用途仍然非常有限。除了产品层面,自然语音处理技术(NLP)仍然是人工智能行业最具挑战性的部分。
阿里巴巴正是看中了这样的市场机会和行业趋势。
阿里巴巴人工智能实验室负责人陈丽娟是淘宝最早的产品经理之一。按照阿里巴巴一贯的做法,这款人工智能音箱也采用了“淘宝模式”,对开发者足够友好,开放API接口,连接各种智能设备和软件App。这一点与苹果完全不同。出于安全考虑,苹果要求所有连接到该平台的设备都必须配备特殊的 MFi 芯片,这无意中增加了硬件初创公司接入苹果设备的成本。
据记者了解,阿里巴巴生态环境的支持将成为这款音箱的核心优势。在软件层面,阿里巴巴音箱支持阿里文娱体系下的内容,比如优酷的视频内容转录;目前第三方APP正在逐步适配,比如健身软件Keep、喜马拉雅FM等。硬件方面,接入阿里巴巴智慧万物互联,目前正在讨论的包括古北科技、涂鸦科技等;品类总数超过100个,阿里大生态环境的支持将成为这款音箱的核心优势。
阿里巴巴鼓励用户创建自己的“语音公众号”,更加个性化。在辅助App中,用户可以录制自己的音频文件并直接在后台播放。未来,他们也可能会尝试付费模式。鼓励用户充分构建自己的语音信息,并将其应用于特定场景。
虽然这款产品的名称列在“天猫”之下,但足以说明阿里巴巴对语音交互的重视。在这场几乎所有互联网公司都入局的技术战争中,阿里巴巴不想落后。
阿里巴巴的技术团队中流传着一句话:“阿里巴巴的业务盖过了技术”。不管正确与否,这至少代表了阿里巴巴的技术自信。
阿里巴巴的语音识别技术早已存在,但一直没有对外公布。最早的应用是在客户服务系统中,因为客户服务是接触语音最多的部门,每天都有客户打进来。在客服质检、抽查过程中,人工质检效率低下,因此需要语音技术进行识别并转换为文字版本。这是语音技术的第一个应用场景。
天猫淘宝App已嵌入语音搜索功能,神马搜索也采用了语音搜索技术。虽然识别准确率还有待提高,但这些都表明阿里巴巴的语音交互产品是多年积累的技术,可以应用于各种产品和场景。
陈丽娟在接受采访时强调,阿里巴巴使用的供应商仅采用了其六麦克风阵列架构设计,而语音交互是阿里巴巴的核心技术之一。在语料采集方面,我们使用了阿里巴巴生态中各个产品的语料。淘宝拥有4.5亿月活跃用户。如果只有1%的人使用语音搜索,那么可训练的语料库就非常可观;一些语料库也是众包的。如何购买。
未来,除了这款音箱之外,语音交互可能会更多地应用于阿里巴巴生态系统中的购物充值、车载操作系统、TTS语音转换(Text to)等场景。
在天猫精灵X1发布的同一天,百度也宣布了基于自然语言处理的语音系统,与阿里巴巴的语音交互系统阿里正面竞争。
在评价竞争对手时,陈丽娟说,“今天我们的天猫精灵给大家都可以用了,但是你买过这个东西吗?差距不仅仅在于技术层面,我们必须走这条路,如果一切顺利的话。” ,我们还会有更多这样的伙伴和我们一起玩。”这更直接,意味着虽然李彦宏已经在五环路上驾驶着载人“无人驾驶汽车”,但距离完全商业化的产品还需要一段时间。
对于阿里巴巴来说,这或许就是阿里巴巴尝试AI产品化的深层意义,而天猫精灵只是呈现其“解决方案”的一个载体。它通过推出有形的产品来展示其整套技术解决方案能力,为阿里巴巴提供整套技术解决方案。赢得AI消费场景的“一席之地”。
阿里巴巴智能音箱是阿里巴巴人工智能实验室推出的首款商用产品,是语音交互能力的集中体现。
一开始,阿里巴巴并不想做语音硬件产品,因为硬件产品的供应链很长。但后来团队发现一款智能音箱涉及的关键环节太多,于是阿里巴巴放弃了全代工模式,转向自主研发。整个研发周期长达一年。最大的困难是每个环节都是单线的。
例如,麦克风阵列需要密封。该产品的第一个版本密封性较差。轻微的漏气会影响ASR(自动语音识别)。不准确的ASR会进一步影响NLP(自然语言处理),从而影响全局。这是线性增长放大的蝴蝶效应。
阿里巴巴人工智能实验室成立于2016年,负责阿里巴巴集团旗下消费级人工智能产品的研发。据悉,天猫精灵X1和天猫精灵由阿里巴巴科学家和工程师团队研发。目前,阿里巴巴人工智能实验室正在申请声纹识别、声纹购物、NLP中文对话引擎等核心技术的专利。
在组织架构上,阿里巴巴人工智能实验室的组织分工也更加清晰。 iDST成立于2013年左右,是一家人工智能基础技术研究机构,也是2016年成立的人工智能实验室(AI Labs)的前身。其研究成果源自iDST的技术积累,并应用于阿里巴巴的各个产品线。
在一个大的框架中,实验室分为终端实验室、硬件实验室和代码实验室,并不是完全按照产品线来划分的。就人工智能领域非常重要的算力而言,在不同的实验室,算力分为云计算和终端算力。
AI实验室似乎更多地从事底层技术研究。阿里巴巴没有太多硬件传统,更多定位为一家大数据驱动的公司。在解释阿里巴巴为什么做硬件时,陈丽娟这样表达:“我们不想把它留在实验室里。AI应该是一种具体的服务,应该给用户带来新的体验。即使是第一个版本的购物体验淘宝虽然很差,但与线下购物相比,它仍然给用户带来了不同的感觉,今天的人工智能到底应该是一个技术产品还是一个产品技术,这是一个问题。”