AI 2.0 时代来临,智能音箱巩固语音入口地位

一、人工智能跃迁 2.0 阶段,智能音箱催熟语音 AI 新入口

(一)市场面语音类产品热度提升,政策面 AI 被密集提及

1、语音类 AI 产品突破市场,用户体验良好带动销量大增

近日,来自 AppleInsider、KGI 等多处消息显示苹果公司正在筹划推出智能音箱类产 品,其中或将植入 Siri 语音助手,并有望在 WWDC 苹果大会上发布。全球消费者电子龙 头公司的加入,让语音类人工智能(Artificial Intelligence,AI)产品再次吸引了业界和消 费者的浓厚兴趣。

一方面,人工智能受多个有影响力影响力的事件推动早已成为关注点。2016 年谷歌 AlphaGo 大比分战胜人类围棋高手李世石,2017 年初腾讯围棋机器人绝艺在 UEC 杯世界 计算机围棋大赛等比赛中战绩突出,近期百度小度机器人在《最强大脑》节目里击败人类 顶尖选手。这些事件表明 AI 技术发展越来越成熟,特别是深度学习技术不断实现突破。

另一方面,从产品化角度看,语音类 AI 产品最为接近实用,性能表现能够基本满足 用户需求。最有代表性的是 Amazon 在 2014 年 11 月发布的 Echo 智能音箱,以及在后期 陆续发布入门级智能音箱 Echo Dot 和便携式蓝牙智能音箱 Echo Tap。消费者可通过内置 语音助手 Alexa 进行智能设备控制、多媒体操作、信息获取、日程提醒等服务,Echo 还 可提供第三方接口以实现功能扩展。根据 CIRP 和 RBC Capital Market 等公司的估计,截 止到 2017 年 2 月,Echo 系列产品累计销售量接近 1000 万台,销售额达到 8~10 亿美元。 客户体验方面,Echo 系列产品一改早期 AI 产品“尝鲜胜过实用”的表现,收获了良好的 用户口碑。其官网已积累了 5 万余条用户评论,评分达 4.4 星。

销量激增和口碑优秀的背后折射出 Echo 这一类语音交互类产品正迅速从早期用户的 小众圈子进入大众市场。受此影响,Google、京东等也陆续推出 Google Home、叮咚音箱 等类似产品。若苹果推出智能音箱,则将成为另一个重要玩家。美国调查公司 VoiceLabs 在 2017 年初发布的《2017 年语音报告》预测 2017 年将有 2450 万台以语音为主要交互方 式的智能硬件产品发货,市场总量将达到 3300 万台,市场规模超过 200 亿美元。

QQ20170523-113153@2x

2、两会首提人工智能,科技规划紧随其后

2017 年 3 月 5 日国务院总理李克强在政府工作报告中首次提到要加快人工智能等技 术研发和转化,做大做强产业集群。实际上,最近一年来政府对人工智能的关注明显提升, 相关政策的推进也有所加快:2016 年 7 月,国务院在《“十三五”国家科技创新规划》 中提出重点发展新一代信息技术,对人工智能和智能交互做出重点规划;2017 年 2 月 15 日,科技部表示在“科技创新 2030—重大项目”中新增“人工智能 2.0”项目,并已进入 实施方案的最终论证阶段;2017 年 3 月 11 日,科技部部长万钢还在表示,科技部正和相 关方面共同起草促进中国人工智能创新发展规划,此规划旨在推动人工智能在经济建设、 社会民生、环保事业、国家安全等方面应用。

我们认为,政府工作报告首次提及 AI,表明其已升级为国家战略,相关规划的具体 设计和配套政策的落地也将助力 AI 产业深化发展。国家陆续出台的多项政策在政策面对 人工智能产业的发展起到积极的助推和引导作用。

QQ20170523-113235@2x

我们认为,人工智能领域受益于深度学习等技术的推动近年来发展迅速,尤其是率先在语音、图像等领域获得了长足发展。因此,语音交互类产品已具备较高的成熟度和 较好的用户体验,在整个 AI 领域受到政策鼓励的良好环境下,语音类人工智能的商用化 逐渐获得市场认可,规模有望进一步扩大。

(二)AI 2.0 概念成型,语音入口地位显现

1、AI 2.0 时代来临
目前多个研究认为,人工智能已基本发展到 2.0 阶段,应用领域深入到机器人、安防、

金融、医疗、家居等多个垂直行业。总的来说,AI 2.0 的基本含义是指人工智能在内部新 算法模型和高性能硬件发展的支持下,应对外部信息环境及社会需求的快速变动,从单个 技术解决单一场景的“1.0”阶段跨越到不同产业融合式发展的新阶段。

QQ20170523-113423@2x

AI 1.0 向 2.0 转型升级具有五大表现特征: (1)学习驱动方式升级:从传统知识表达方式、单纯大数据驱动方式,转向大数据

驱动和知识指导相结合的方式,可自动进行机器学习,其应用范围更加广泛;

(2)数据处理方式升级:从分类型处理多媒体数据 (如视觉、听觉、文字等),迈 向跨媒体认知、学习和推理的新水平;

(3)计算形态升级:从直接追求“智能机器”和高水平的人机协同融合,走向渐进 型混合增强智能的新计算形态;

(4)平台生成方式升级:从聚焦研究“个体智能”,走向基于互联网络的群体智能, 形成在网上激发组织群体智能的技术与平台;

(5)研究理念升级:从机器人主导,转向更加广阔的智能自主系统,从而促进改造 各种机械、装备和产品,走上泛智能化之路。

2、语音成为 AI 2.0 产业新入口

我们定义“语音 AI”如下:智能系统通过机器感知技术实现声音采集、语音识别、 语义理解等信息处理,利用自然语言理解等技术来进行分析,从而实现人机对话、智能判 析和决策的一整套计算过程。

语音 AI 需要将声学、语音识别、语义、搜索、内容等多种领域技术相融合,以实现 自然的人机交互。比照互联网、移动互联网的技术层次可以对 AI 2.0 系统进行分析:

(1)底层技术:互联网时期承载信息的技术是网页,网页之间依靠超链接和图形交 互等方式进行内容的组织;移动互联网时代的内容则在各个应用(App)内,数据由应用 运营商提供和组织。而在 AI 2.0 系统中,底层是借助机器学习、深度学习等技术,对来源 于众多智能设备的大数据进行训练、处理,以模型的形式进行组织。

(2)上层应用:互联网时代的应用以网站形式呈现,移动互联网时代则主要是 App (具体分为原生 App 和 Web App 两大类)。而在 AI 2.0 系统中,应用则具化为机器人、 智能穿戴设备、智能家居等智能设备和基于这些设备之上的服务。

(3)连接两者的入口:互联网时代网站众多,人们获取信息典型的入口是搜索引擎; 移动互联网时代要么通过应用市场获取 App,要么通过重点 App 获取内容,要么通过二 维码等新形态的入口进行信息访问。而在 AI 2.0 系统中,受到智能终端的物理形态限制, 传统的用户界面和围绕鼠标、键盘、触摸屏等的交互方式不再适用,而更直观自然、易于 学习的语音交互则成为新系统的重要入口。因此,语音 AI 将会是 AI 2.0 生态的入口级技 术,占据其核心地位。

QQ20170523-113515@2x

语音作为入口方式已经在诸多 AI 产品形态中存在。(1)在智能家电家居方面:2017

年中国家电及消费电子博览会(AWE)“语音的交互与控制”主题中,思必驰、海知智 能、云知声等语音方案商以及海尔、美的等家电企业发布以语音交互为核心的智能家居解 决方案;(2)在可穿戴设备方面:出门问问推出的中文智能手表操作系统 Ticwear 和中 文全交互智能手表 Ticwatch、谷歌推出的 Google Glass X 智能眼镜等均具备基于语音的操 作与交互能力;(3)在机器人方面:语音作为人机交互最为自然的沟通方式,在机器人 应用上也非常广泛,例如 NAO 等实体机器人具备面部探测与识别、语音合成、自动语音 识别等高级功能。

QQ20170523-113546@2x

我们认为,语音能够发展成为 AI 2.0 的入口主要基于以下原因:(1)智能手机的语 音助手产品为用户提供了体验语音交互的基础,Siri、小冰、Google Now 等终端产品普遍 提供的语音助手将语音交互引入日常生活,帮助用户接触到这样一种新技术。(2)机器 学习的优化使得语音输入准确度不断提高,机器学习可以大规模地利用数据来生成可以理 解语音和自然语言的模型,并在继续提升。例如在 2016 年 11 月 23 日发布会上,科大讯 飞表示其语音输入识别成功率达到了 97%。(3)语音对硬件支撑要求较低,语音是绝大 多数交互方式中能耗低、效率高、表达方式直接的一种途径,易于在不同智能平台上搭建。 (4)科技企业均希望在 AI 2.0 时代占据入口,积极布局语音 AI 产业,苹果、Google、微 软、百度、Amazon、Facebook、科大讯飞等公司在语音领域都存在丰富的产品和大量的 研发投入。

综合以上,我们认为由于语音 AI 成为 AI 2.0 领域新入口,深入了解和分析语音 AI 的技术发展现状和未来趋势、行业竞争格局和主要解决方案等将对该领域的投资布局起 到重要作用。

二、支撑技术日趋成熟,产品服务创新有迹可循

语音 AI 技术包括三个要素:算法、计算能力和数据。(1)算法方面,按照“机器 感知—人机理解—智能判断”这一典型语音 AI 作业流程划分,涉及的基础支撑技术主要 包含语音识别、声纹识别、自然语言处理、深度学习等;(2)计算能力方面,主要涉及 用于计算加速的 GPU 芯片和提升语音预处理效果的麦克风阵列等硬件;(3)数据方面, 则和业务相关,主要分为通用型(如人机对话等)和专用型(如工作任务、特定信息查询、 操作指令等)等。

我们将对算法层面的支撑技术展开详细讨论,并对硬件支持进行简单介绍,数据处理 问题将在后续报告中深入讨论。

QQ20170523-113628@2x

(一)语音识别技术高度成熟,传统科技公司优势明显

语音识别(Automatic Speech Recognition,ASR)是将人类的声音信号转化为文字或 者指令的过程,是大多数语音交互的第一道门槛,只有首先听对用户说的话才能进行后续 的理解和决策。一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法 等模块。而在具体实现上,一般的需要先准备特征模型库,在识别时对采集到的语音信号 提取待检测特征,然后将得到的语音特征参数与模型库进行比对。由声音模式匹配模块对 该段语音进行识别,从而识别出语音内容。

QQ20170523-113658@2x

早在 1952 年 AT&T 实验室研制出第一个特定人语音增强系统 Audry,可识别十个英文数 字系统。ASR 技术历经 60 多年的发展历史,不断的技术积累为语音交互奠定了良好基础。

QQ20170523-113728@2x

2016 年以来,语音识别领域取得多个实质性突破(如下表),识别精度得到大幅提 升,产品普适性也明显改善。其中,对非特定人语音的识别精度进展可观。以科大讯飞为 例,其 ASR 产品识别率提升至 97%,已经能够满足通常应用的要求。此外,随着大规模 集成电路技术的发展,语音识别专用芯片已达到批量化生产的水平,在速度、功耗等方面 有利于相关产品的普及。

QQ20170523-113800@2x

从市场格局来看,传统的科技公司占据 ASR 市场绝对份额:2015 年,全球市场中Nuance、谷歌、苹果、微软占据绝对市场份额,国内市场中科大讯飞和百度占据约 73% 的份额。

QQ20170523-113845@2x

我们认为,未来 ASR 技术的突破方向是结合特定应用领域进行拓展。目前成熟的底 层 ASR 方案识别准确度已经超过 95%,后续提升的边际成本越来越高。因此,随着时间 推移,国内外底层技术差距有望缩小。而由于初创公司的投入与效果的提升远不成正比, 我们认为未来的 ASR 的发展方向是特定领域内技术向产品的转化,尤其是结合行业应用 和大量训练资源进行应用层的拓展。行业内巨头凭借多领域布局或将继续占据先发优势。

(二)声纹识别助力身份认证,安防与移动支付场景成看点

1、VPR 技术原理、应用和实现路径
声纹识别技术(Voiceprint Recognition,VPR)是通过语音信号提取发声人的身份的

相关特征,并通过这些特征进行模式匹配,从而识别出发声人身份的技术。声纹是一种承 载语音频谱的音频信息,不同生物个体的发音器官均有其特殊性,发出的语音、语调等信 号是有区别的,因此声纹识别技术可以实现身份信息的识别,并在现实生活中得到广泛应 用。

声纹识别作为生物识别技术的一种,受益于消费者电子技术创新的发展趋势。生物识 别技术进入消费者电子产品的标志事件是 2013 年 iPhone 5S 采用指纹识别技术。随后,虹 膜、人脸、声纹等其他的生物识别技术也开始获得长足的发展。

QQ20170523-113846@2x

VPR 技术原理:VPR 的实现是先对收到的语音信息提取特征做预处理,然后进行语 音训练和语音识别两个阶段处理。语音训练是对提取出的语音信息特征进行学习训练,创 建全面的声纹信息模板或语音信息库。识别部分则是根据信息模板或信息库对语音特征进 行模式匹配计算,由此判断该语音是否为已知模板或语音库中的特征信息,从而得出识别 结果。

QQ20170523-114059@2x

VPR 技术主要使用动态检测的方法。动态检测的方法是在静态检测的原理方法之上 增加语音激活检测(Voice Activity Detect,VAD)、降噪、去混响等算法。VAD 的目的 是检测人声开始与结束的时间点,将对应音频截取出来以供分析,避免无效的录音部分带 来的额外时间开销;降噪和去混响是排除环境干扰,进一步提高识别正确率。

QQ20170523-114124@2x

声纹识别的使用过程也相应分为注册和测试识别两个环节。(1)声纹注册:对用户 的语言信息进行端点检测、去噪、提取声纹特征,即进行声纹注册,由此得到一个用户的 声纹模型。一般需要用户朗读特定文字短语,文字的选择对后续测试的可靠性有一定影响, 注册文字最好包含不同音素信息。(2)识别测试:对说话人的语音信息进行端点检测、 去噪、提取特征点后进行声纹模型匹配,从而进行身份识别,判断用户身份。

声纹识别还可以分为闭集和开集两种情况。前者是判断说话者和现有数据库中谁的声 音最接近(“是谁的声音”),后者是判断说话者是否为某一个特定用户(“是不是某人 的声音”)。

QQ20170523-114153@2x

2、安全控制应用广泛,移动支付成看点
VPR 在政府、铁路、电力、安全等特殊部门中依然具有较好的实用价值。根据美国

联邦调查局对近 2000 例与声纹相关的案件进行的统计,利用声纹作为证据时只有 0.31% 的错误率。同样声纹鉴别已是国内公安部的证据鉴定标准之一,这说明某些环境下声纹可 以用来作为有效的身份鉴别方式。

产业界一些领先企业开始在移动支付领域采用“声纹+人脸识别”的融合方式开展产 品化工作。2015 年,支付宝和百度钱包相继上线声纹支付功能。科大讯飞依托声纹识别 和人脸识别技术构建了统一生物认证系统,并联合中国银联、徽商银行共同推出“声纹+ 人脸”融合认证个人转账应用。声纹识别一个重要的的优点是可以将语音操作和身份认 证融合在同一个环节中,即用户发出语音指令即可同时进行声纹识别和语义理解,因此 我们预计未来配合人脸识别的声纹认证服务将更多涌现。

QQ20170523-114229@2x

(三)自然语言处理仍存技术难点,机器翻译或为突破口

1、自然语言处理是语音 AI 的重要核心
自然语言处理(Natural Language Processing,NLP)是一门融语言学、计算机科学、

数学于一体的科学。NLP 可分为自然语言理解和自然语言生成。前者是计算机能理解自 然语言文本的意义,后者是计算机能以自然语言文本来表达给定的意思。NLP 是语音 AI 领域中的核心部分,但当前面临的技术挑战难度较大,基于统计技术的传统方法并未完全 解决语言理解的难点。

人机对话是 NLP 技术最为典型的应用之一。人机对话系统的基本结构包括三个部分: 语言理解、语言生成和对话管理。语言理解和生成分别是指理解用户的语言输入和产生系 统的语言输出。这两部分直接影响对话系统的性能,成为 NLP 中其他应用不可缺少的部 分。对话管理则可用于区分对话系统和问答系统,是指从语言理解部分获取输入信息,维 护对话过程中的系统内部状态(如上下文、指代词等),并基于状态生成对话策略,为产 生对话言语提供依据。对话管理的评价指标主要是要控制对话流程的自然程度和用户体验。

QQ20170523-114338@2x

2、机器翻译技术发展迅速,互联网公司占主导优势
NLP 领域一个较成熟的方向是机器翻译(Machine Translation)。一种方案是采用神

经机器翻译模型,是一种通用的计算装置,适合处理“序列到序列”的问题。所谓“序列” 是指机器翻译中源语言的句子和对应的目标语言的对应关系。

  机器翻译的发展主要经历以下四个阶段,如下图所示。

QQ20170523-114408@2x

影响机器翻译水平的方面中双语语料库的构建很关键。大型互联网公司在这一领域积 累深厚,已占据主导优势。例如科大讯飞在 2016 年底的年度发布会上演示的讯飞听见系 统在实时转写的同时,能同步翻译成英语、日语、韩语、维语等。

除了机器翻译应用,在新的消费者电子产品上 NLP 主流应用以智能语音助手为主, 如 IBM Watson、苹果 Siri、Google Assistant、微软小冰和小娜、百度度秘等。人们对此已 经比较熟悉,不再过多论述。目前,由于技术成熟度有限,NLP 应用整体上还处于一个 早期阶段,只能理解一些简单的句子,满足用户初级的沟通与交互需求。

(四)深度学习多点提升语音 AI 性能,数据将成发展关键

深度学习(Deep Learning,DL)本质是训练深层结构模型的方法。DL 是通过多层人 工神经网络来对数据之间的复杂关系进行建模的算法。其特点在于随着网络层数的提高和 训练难度加大,利用少量有标签样本和大量无标签样本依然可以进行有效学习。卷积神经 网络(Convolutional Neural Network,CNN)是流行的深度学习方案,其层级发展越来越 深,业界已经从最初的 8 层发展到 152 层的技术方案。深度学习不只可以处理语音领域, 但是对语音 AI 的发展成熟起到重要的助推作用。

QQ20170523-114440@2x

DL 依靠其模型强大的拟合能力、高密度的计算能力、海量的训练数据获得良好的效 果,渗透到许多领域。其对语音 AI 的影响主要体现在 ASR 性能提升、VPR 训练、NLP 语义表示和运算等方面。

1、DL 可显著提升 ASR 系统性能
2006 年 Hinton 提出深度置信网络,掀起深度学习的热潮,而后与他的学生将深度神

经网络应用于语音的声学建模,在小词汇量连续语音识别数据库 TIMIT(即德州仪器、麻 省理工学院和斯坦福研究院合作构建的声学-音素连续语音语料库)上获得成功。从 2010 年开始,微软的俞栋、邓力等学者首先尝试将 DL 引入到语音识别,DL 逐渐成为该领域 的主流研究方向。

随着深度学习的兴起,使用时间长达近 30 年的语音识别声学模型 HMM(隐马尔科 夫模型)逐渐被 DNN(深度神经网络)所替代,模型精度获得长足发展,带来 ASR 建模 单元、模型结构、建模流程等维度的改善。

QQ20170523-114518@2x

在 DL 的支持下,语音识别的准确率和通用性的本质就在于数据量多少、算法的优劣 和计算力的高低。数据量取决于搜索量和使用量的规模,算法的优劣取决于顶级人才的作 用,计算力的水平高低取决于专业硬件的发展水平。

2、DL 开始延伸到 VPR、NLP 领域,数据成为关键因素
深度学习也开始被引入到 VPR 领域,但和 ASR 不同的是 VPR 技术方案中传统算法和模型还占有较大的比重。

DL 在实时 VPR 中的重大突破难关是数据。深度学习是基于数据驱动的模型,需要庞 大的基于真实场景的数据,并对数据的精确标注有较高要求。例如,在建立声纹识别训练 库时,至少要保证性别比例分布为 50%±5%,并包含有不同年龄段、不同地域、不同口音、 不同职业的训练样本。数据本身成为 DL 在突破声纹识别的关键因素。

DL 对 NLP 的合成语义到关注、记忆和问答均会有重大促进作用。NLP 中可以人为 将概念和语句编码为向量,并且可以使用大量的向量作为记忆元素,算法的首要任务则是 记住由这些向量构成的状态,神经网络学习中的深层网络在往下运算的过程中会在每个决 策点确定此前哪个记忆状态是最相关的,通过搜索能找到问题的最佳答案,DL 最终实现 用文字回答问题。

(五)基础芯片硬件、麦克风阵列:提供计算和远场支持

1、芯片,由通用到专用的发展
简单的看,AI 对计算能力的需求就是对计算硬件的需求。随着数据量的扩大、云计

算与深度学习的发展深入,硬件方面的计算能力随之不断升级换代。GPU、FPGA 以及定 制 ASIC 等对人工智能的推动作用明显。

CPU、GPU、FPGA 和 ASIC 对比分析:

CPU(Central Processing Unit,中央处理器)作为通用处理器,兼顾计算和控制,70% 的晶体管用于构建 Cache(高速缓冲存储器)和一部分控制单元,用于处理复杂逻辑和提 高指令的执行效率,所以导致计算通用性强,可以处理的计算复杂度高,但计算性能一般。

直接提高 CPU 计算性能方向主要为:增加 CPU 核数、提高 CPU 频率、修改 CPU 架构增 加计算单元 FMA(fused multiply-add)个数。

QQ20170523-114607@2x

GPU(Graphic Processing Unit,图形处理器)主要擅长做类似图像处理的并行计算, 图形处理计算的特征表现为对缺少相关性的数据进行高密度的计算,GPU 提供大量的计 算单元(多达几千个计算单元)和大量的高速内存,可以同时对很多像素进行并行处理。 相对于 CPU 由专为顺序串行处理而优化的几个核心组成,GPU 则拥有一个由数以千计的 更小、更高效的核心(专为同时处理多重任务而设计)组成的大规模并行计算架构。

FPGA(Field-Programmable Gate Array,现场可编程门阵列)作为一种高性能、低功 耗的可编程芯片,可根据客户定制来做针对性的算法设计。由于 FPGA 的算法是定制的, 所以没有 CPU 和 GPU 的取指令和指令译码过程,数据流直接根据定制的算法进行固定操 作,计算单元在每个时钟周期上都可以执行,所以可以充分发挥浮点计算能力,计算效率 高于 CPU 和 GPU。

ASIC(Application Specific Integrated Circuits,专用集成电路)是指应特定用户要求 或特定电子系统的需要而设计、制造的专用集成电路,最大特点是计算能力和效率都可以 根据算法需要进行定制。ASIC 与通用芯片相比,具有体积小、功耗低、计算性能高、计 算效率高等优点,而最大的缺点就是由于算法是固定的,一旦算法改变将会无法使用。

QQ20170523-114641@2x

近期国内企业在语音芯片理论研究和应用研发方面值得关注。芯片理论方面,深鉴科

技使用长短期记忆网络(Long Short-Term Memory,LSTM)进行语音识别的场景,结合 深度压缩、专用编译器以及 ESE(Efficient Speech Recognition)专用处理器架构,在中等 的 FPGA 上实现高性能低功耗的效果。应用研发方面,浪潮集团分别与英特尔和英伟达成 立联合并行计算实验室,合作开发优化基于 MIC 和 GPU 的并行应用。北京智能管家科技 有限公司(ROOBO)推出基于 ASIC 架构的 DNN 语音识别智能芯片 CI1006,在自产的 机器人系统上得到运用。

2、麦克风阵列实现远场智能语音 语音交互产品的发展提升了多环境下语音采集的要求。麦克风阵列就是主要解决远距

离和复杂场景下语音采集与识别的问题。麦克风阵列技术包括语音增强和声源定位,其在 视频会议、智能机器人、助听器、智能家电、通信、智能玩具、车载等领域均有很好的应 用。

QQ20170523-114741@2x

国内创业公司思必驰于 2015 年底推出“环形 6+1 远场”麦克风阵列,也是目前国内 唯一一款 6+1 环麦,是亚马逊 Echo 核心功能的“中国版”技术。目前该技术方案被广泛 运用在机器人和音箱等智能家居产品中。该阵列周围 6 个麦克风呈环形 360°排列,中间 置 1 个麦克风辅助拾音,能够有效地在家居环境下进行抗噪处理及语音识别;远场 5 米交 互识别率达 92%以上;能准确捕获说话人位置,进行敏锐的声源定位精准度控制在±10° 以内。

QQ20170523-114815@2x

三、科技企业积极布局,共同推动产业链成熟

语音 AI 产业链主要分为上游的基础技术层、中游的基础应用层和下游的方案产品集 成层。上、中游主要参与者是擅长基础技术研发的科研院所、技术与资金实力比较雄厚的 传统巨头厂商(如亚马逊、谷歌、百度等),包括英伟达、英特尔等芯片厂商。下游主要 参与者包括智能语音助手软件服务商和嵌入智能语音系统的硬件服务商等,国内如云知声、 思必驰等研发实力较强的创业公司也通过与实力较强的企业合作参与其中。

QQ20170523-114846@2x

QQ20170523-113154@2x

(一)Google:底层技术积累深厚,持续发力布局全产业链
公司于 2011 年正式成立 AI 部门,目前包括 Google 搜索、Google Now、Gmail 等 100余个团队使用机器学习技术,并往其开源 Android 手机系统中注入大量机器学习功能(如 用卷积神经网络开发 Android 手机语音识别系统)。目前产品和服务主要依靠 AI 技术驱动, 如使用深度学习技术改善搜索引擎、识别 Android 手机指令、鉴别其 Google+社交网络的 图像等。

掀起 AI 并购狂潮,持续发力语音 AI 领域。“内生+外延”双轮驱动成为科技龙头企 业布局 AI 的一般战略。谷歌在成立专门的 AI 研究团队以维持自身在先天基础技术和产 品集成优势的同时,也积极并购或参股 AI 初创公司,以期搭建完整的 AI 生态链。

公司 2016 年 9 月收购的 Speaktoit 是专注于语音交互功能和自然语言学习,为有语音 识别功能的应用 app 提供云端应用接口编程。2017 年 1 月收购的 Limes Audio 在音频信号 处理方面经验丰富,技术可用于减少因物理空间条件不足所导致的音效不佳问题。底层语 音 AI 技术不断积累,用户使用场景进行重点覆盖。在语音 AI 布局方面,谷歌的布局分 成三个方面。第一是做好底层技术积累,研发先进的深度学习算法,增强语音识别能力, 对于信息处理和用户服务产生更好反馈;第二是覆盖用户生活使用场景,抓取到更多信息; 第三是将技术转化为商业应用,以 Google Home 作为家居系统入口,着力打造智能家居 生态产业链。

QQ20170523-115225@2x

开源第二代深度学习系统,设计专用集成芯片。2015 年 11 月,谷歌宣布开源第二代 深度学习系统 TensorFlow。TensorFlow 可模仿人类大脑工作的方式并识别出模式,在数据 输入和输出方面都有较好的精度和速度,被广泛应用于语音识别、图像识别等领域。2016 年 5 月,谷歌发布专为 TensorFlow 设计的专用集成芯片,命名为张量处理单元 TPU(Tensor Processing Unit),大幅度提升深度学习系统运行效率。2017 年 2 月 15 日第一届 TensorFlow 开发者峰会上,TensorFlow 1.0 版本正式推出,加强了 Python API 的稳定性,使得加入新 特征变得更加容易,更适合商业化使用。

QQ20170523-115303@2x

推出智能音箱 Google Home,标志谷歌语音 AI 商业应用落地。2016 年 5 月召开的 Google I/O 开发者大会上,谷歌推出语音智能助手 Google Assistant 与智能音箱 Google Home,利用虚拟助理融合智能家居,加速推进智能生态建设。之后能与 Google Home 兼 容的家庭智能设备继续增多。2017 年 1 月 25 日,Google 宣布与 Belkin 的 Wemo 系列智 能插头和照明开关和 Honeywell 智能恒温器展开合作。Google Home 用户只需打开 App, 就可以在控制菜单中将这些设备连接到智能音箱上。更进一步的是谷歌在 MWC2017 展会 上宣布,Android 6.0 以上版本获取 Google Assistant 无需系统更新,谷歌会通过 Play 服务 为符合运行条件的设备自动添加 Google Assistant 服务。

Wavenet 语音合成方法开创全新思路。2016 年 9 月,谷歌发布由零开始创造整个音 频波形输出的语音合成方法 Wavenet,通过利用真实的人类声音剪辑和相应语言、语音特 征来训练其卷积神经网络,让其能够辨别语音和语音模式,输出音频更接近人声。

(二)Amazon:以 Alexa+Echo 为核心,构建智能生态系统

市场优势明显,智能音箱 Echo 抢占先机。亚马逊作为全球大规模跨国电商,拥有海 量 C 端市场用户。2006 年后,公司借助 AWS 在云市场的领先地位为 AI 产业发展积累基 础数据量。2014 年 11 月,亚马逊智能音箱 Echo 与个性化语音助手 Alexa 诞生,并在随 后的两年时间内得到消费者的高度认可。尽管 Amazon 推出 Echo 时,它只是一个内置几 个语音命令的智能扬声器,但随着用户习惯培养以及近两年语音技术的不断精进,已经发 展成为一个丰富的智能生态系统。

QQ20170523-113155@2x

加强 Alexa 第三方合作,步入相关智能设备领域。目前搭载 Alexa 的硬件品类已经超 过 7000 种。产品品类从电器、手机到机器人、汽车信息娱乐系统等多个领域,品牌涵盖 了 LG、华为、GE、福特、大众、联想、优必选等。2017 年 1 月,Amazon与华为达成合 作,在面向美国发售的 Mate 9 上搭载语音助手 Alexa,同时与摩托罗拉合作开发 Moto Mods。 Moto Mods 是与 Moto Z 手机配合使用的可拆卸模块,可为手机增加音箱、投影仪等功能。 2017 年 2 月,高通宣布旗下公司将帮助高通蓝牙音频系统芯片 SoC 实现内置 Alexa 唤醒 支持,Amazon 顺利进入智能耳机领域。

后续借力 AWS 云服务,开源 DSSTNE。2016 年底亚马逊 re:Invent 大会上,AWS(亚 马逊公司旗下云计算服务平台)正式推出自己的 AI 产品线:Amazon Lex、Amazon Polly 以及 Amazon Rekognition,分别可用于自然人机交互、语音转换以及图像识别等服务。此 外,2016 年 5 月亚马逊开源了针对深度学习的模型库 DSSTNE。通过改善搜索、定制化 产品推荐以及语音识别、增加有质量的产品评价,公司内部利用机器学习改善端到端的用 户体验。
(三)科大讯飞:全面布局智能语音产业链

科大讯飞作为国内智能语音产业领导者,实行全产业链发展战略,从上游的语音硬件 芯片、麦克风阵列,到中游基础应用层的语音合成、语音识别和语音拓展等技术,再到下 游的服务方案和产品均有完整布局。

QQ20170523-113156@2x

成功自主研发语音芯片和麦克风阵列。语音芯片研发方面,科大讯飞已成功研发出基 于自身核心技术高度集成中英文语音合成芯片系列,在业内具有较好的语音合成体验。根 据科大讯飞研究院魏斯介绍,在深度学习平台架构上,科大讯飞使用 GPU 作为主要的运 算部件,并结合算法的特点,进行大量的并行化工作。例如,在分块模型更新基础之上设 计融合弹性平均随机梯度下降(EASGD)算法的并行计算框架,在 64 位 GPU 上实现了 近线性的加速比,大大提升训练效率,加快深度学习相关应用的研究进程。
科大讯飞麦克风阵列主要有二麦、四麦、六麦三类,主要应用场景有机器人、智能家居、智能硬件等,功能聚焦于智能硬件远场拾音的实现。

QQ20170523-115612@2x

语音合成和语音识别等基础应用技术遥遥领先。(1)语音合成:公司成功研发全新 的基于深度学习的语音合成系统,合成语音的自然度和表现力得到显著提升,在国际最高 水平的语音合成比赛 Blizzard Challenge 中再次夺冠,且七项指标全部全球第一。(2)语音识别:针对人与人之间自由交谈、会议演讲等场景,语音实时转写通用正确率很高,能 够在实际应用场景中达到实用门槛的中文语音转写。2016 年 9 月,科大讯飞参加由 Google 承办的第四届 CHiME Challenge 国际多通道语音分离和识别大赛获取全部三项赛事第一 名,说明其语音识别以及麦克风阵列处理技术处于国际顶尖水平。

讯飞输入法月覆盖率超 40%,叮咚音箱成家庭服务入口。公司积极发展移动端消费 者产品,如讯飞输入法、录音宝、灵犀语音助手。截止到 2017 年 1 月,讯飞输入法总用 户超过 4.3 亿,活跃用户超过 1.1 亿,输入法语音输入的月覆盖率超过 40%,支持方言已 达 19 种,语音输入的用户体验和口碑在同类产品中保持领先。定位于家庭智控中心的叮 咚音箱销量持续增长,2016 年全年销量近 10 万台。公司已经与 JBL 等多家知名音箱品牌 厂商推出合作产品,并正式启动开放平台战略,与京东 JIMI 智能客服、中通快递、e 袋 洗、有道云笔记、百度地图、得到、中国天气通、万年历等企业实现合作,满足家庭场景 下生活服务多样化需求,共同打造智能语音的家庭服务入口。

QQ20170523-115644@2x

(四)Apple:以 Siri 为入口,拓展智能设备应用

苹果对于自身在人工智能领域的定位是设备智能技术研发商和产品提供商,即将人工 智能技术纳入到硬件,利用如 Siri 语音以及 iOS 10 中的图片自动识别分类机制,拓展语 音、图像识别方面的应用。Siri 于 2011 年和 iPhone 4S 同时推出,客户体验经历了一个逐 步攀升的过程。经过较长的语音技术探索,在 2016 年苹果开发者大会上,iOS 10 搭载的 Siri 开放新功能 API 和 SDK,支持 Siri 控制第三方应用,如使用 Siri 叫滴滴专车、为 QQ 好友发送消息等。相较谷歌助手仅支持 5 种语言,亚马逊语音助手 Alexa 仅支持英语和德 语,Siri 支持语言的种类高达 24 种,可以更好地本地化、融入用户生活。今年 3 月,苹果表示 iOS 10.3 版本中语音助手 Siri 将支持上海话,这是继粤语和台湾国语之后的另一种 中文方言上线。

以智能耳机完善布局,智能家居或紧随其后。2016 年 9 月秋季发布会上苹果发布了 智能耳机 AirPods,支持和 Siri 的结合。(1)AirPods 和 iPhone 配对之后,用户轻点两下 AirPods 即可激活 Siri。(2)在打电话或与 Siri 交谈时,采用波束成形技术的双麦克风可 过滤背景噪音。相信随着 AirPods 的上线,未来 Siri 将会更多地参与到用户日常活动中, 对于苹果在 AI 领域的布局产生重大影响。据 Bloomberg 报导,苹果正打造与亚马逊 Echo 类似模式的智能家居设备,目前进入样品测试阶段,有望切入智能家居方面。

QQ20170523-115735@2x

(五)Microsoft:“小冰”、“小娜”与合作方切入多个领域
2014 年 5 月,微软首次发布人工智能伴侣虚拟机器人“微软小冰”,经过两年的技

术改进与调试,第四代微软小冰于 2016 年 8 月 5 日发布。

2016 年 12 月 9 日,微软(亚洲)互联网工程院宣布与腾讯达成合作,小冰进入腾讯 QQ,让手机 QQ 聊天功能“厘米秀”拥有智能沟通的能力,与 QQ 平台上获得首批 AI 体验资格的用户进行智能互动。3 月 14 日,合作又进一步深入,小冰可被用户邀请至 QQ 群聊。小冰拥有实时情感决策对话引擎,可以与群用户进行实时对话,支持语音和图像多 感官交流。除聊天功能外,QQ 群聊小冰还开放了测天气、猜成语、占星术、对诗等群游 戏和群管理技能。

“微软小娜”语音助手或成微软合作企业首选。2014 年 7 月,微软召开 Windows Phone 8.1 Update 中国区发布会,正式发布 Cortana 中文版“微软小娜”。在过去几十年里,微 软一直是企业软件的主要提供商。日产和大众等公司将微软技术嵌入自己生产的汽车中, 如日产将微软语音助手 Cortana 嵌入了下一代汽车的仪表板。同时,Harman Kardon 宣布 在 2017 年推出集成 Cortana 语音助手的智能蓝牙音箱,与亚马逊 Echo、Google Home 在 智能音箱市场展开角逐。

(六)Nuance:语音识别传统巨头,车载与医疗语音前景看好

Nuance 是专注语音识别底层技术巨头之一。2012 年,Nuance 从底层语音技术输出商 转型为企业解决方案服务商,成立四大业务部门,包括医疗业务部、企业业务部、移动设 备业务部和图像业务部。凭借多年在银行、医疗、汽车等行业的服务经验,Nuance 开始 布局语音 AI 领域,试图率先建立行业壁垒。

QQ20170523-115804@2x

推出物联网开发平台 Nuance Mix,提供智能物联网家居体验。2015 年末,Nuance 推出专门针对移动和消费电子产品的开发平台 Nuance Mix。Nuance Mix 可以帮助设备制 造商和开发人员快速创建自定义语音和自然语言处理接口,加速包括智能家居、游戏、机 器人等行业在内的发展。同时,Nuance Mix 可以作为中间件对智能手机和物联网产品实 施控制,并直接与设备本身交互。2017 年 1 月,在国际消费电子展上,Nuance 通过融合 Nuance Mix 平台的 Greenwave Systems AXON Platform、家居安全系统集成、ROOBO Jelly OS 等实现了对话型智能家居系统。现场有将物联网的连接范围延伸到互联汽车中的演示。

为声龙驾驶语音平台引入对话型智能汽车助手。2012 年 9 月,Nuance 发布车载自然 语言语音平台 Dragon Drive(声龙驾驶),使用 Nuance Dragon Dictation(声龙听写)和 Dragon Go 解决方案的核心技术,为用户提供无缝互联汽车体验。2016 年 1 月 14 日,Nuance 宣布为声龙驾驶添加人工智能,推出 Dragon Drive Automotive Assistant(声龙驾驶汽车助 手)。汽车助手能够通过 Nuance 声纹验证技术识别乘客身份,与车内的多名乘客(而不仅 仅是驾驶员)进行对话。2016 年 10 月 18 日,公司宣布为声龙驾驶推出 Contextual Reasoning Framework(情境化推理框架),利用 AI 在导航、用餐、加油、兴趣点等方面提供情境化、 个性化推荐。目前,声龙驾驶技术已被福特、宝马、丰田、戴姆勒等众多世界领先汽车制 造商所采用。

QQ20170523-115838@2x

利用深度学习提升公司核心语音识别能力,布局 AI 医疗。2017 年 2 月,在医疗信息 与管理系统学会 2017 年会议上,Nuance 公布的报告称,通过启用 AI 产品,临床医生可 以节省 45%整理文档的时间,并可以将文档质量提高 36%。在此之前,Nuance 推出 Dragon Medical One 临床语音云平台,该平台在语音识别技术基础上加入了深度学习系统,有效 降低了临床医生口述转化为文档的误差,减少了医护人员的行政负担。同时,Nuance 的 虚拟医疗助手 Florence,可以听取并理解人类言语,并为重复活动提供帮助,例如药物, 实验室或成像的订单。数据统计称,医生每年使用 Nuance 的临床语音识别技术产品记录 近一亿病人的数据。

与 ROOBO 达成战略合作,布局智能机器人市场。2016 年 11 月,Nuance 宣布与中国人 工智能机器人系统公司 ROOBO 达成战略合作,将 Nuance Mix 等服务与机器人系统整合,向 全球机器人、智能硬件设备和开发者提供多语言语音识别和 NLU 高级开放平台接口。

(七)百度:整合打造 AIG,度秘应用空间广阔

百度作为 BAT 中最早进军人工智能的互联网公司,已将 AI 作为未来最重要的核心战 略,先后成立深度学习研究院(Institute of Deep Learning,IDL)、硅谷人工智能实验室、 百度北美研究中心、AI 技术平台体系(AIG)等。

2010 年,百度已经开始进行智能语音技术研发,并于同年 10 月推出语音搜索服务。 2014 年末,在百度任职的吴恩达团队发明了“Deep Speech”语音识别系统,可以在嘈杂 环境下实现将近 81%的辨识准确率。该系统采用深度学习算法取代了原有模型,在递归神 经网络或者模拟神经元阵列中进行训练,让语音识别系统更加简单。2015 年 11 月,百度 推出 Deep Speech 2.0 深度语言识别技术,用于提高在嘈杂环境下语音识别的准确率。2016 年,百度公布深层卷积神经网络技术 Deep CNN 算法模型,此模型有望成为 Deep Speech 3.0 核心组成部分,并率先应用到百度语音搜索中。

全力推进云计算中心与开源深度学习平台,助力“百度大脑”项目。百度拥有强大 的数据获取能力和数据挖掘能力,在国内拥有十几座云计算中心,为满足人工智能在计算 和存储上的高要求,已投入使用 4 万兆交换机,并在探索 10 万兆交换机。在此基础上, 2016 年 9 月,百度向外界全面展示百度人工智能成果“百度大脑”,包含语音、图像等 技术,并宣布对广大开发者、创业者及传统企业开放其核心能力和底层技术。同时,百度 开源 Paddle-Paddle 云端托管分布式深度学习平台,对于序列输入、稀疏输入和大规模数 据的模型训练支持良好,支持 GPU 运算,仅需少量代码就能训练深度学习模型,大幅降 低用户使用深度学习技术的成本。

QQ20170523-115914@2x

2015 年 9 月,百度发布声控人工智能个人助理“度秘”,在广泛索引服务信息的基 础上,依托百度智能交互技术,为用户提供优质服务。2015 年 12 月,度秘与华为荣耀“精 灵键”深度集成,为华为手机用户提供秘书化服务。目前,度秘可以在餐饮、电影、宠物 等场景提供秘书化服务,还将延伸到代驾、教育、医疗、金融等行业中。

2016 年 11 月 22 日,百度宣布在其语音开放平台上线三周年之际,将四项技术免费 开放给用户和开发者共享,包括情感合成、远场方案、唤醒二次技术和长语音方案。

QQ20170523-115949@2x

(八)腾讯:借腾讯云布局语音 AI,专注 ASR 和 NLP

2015 年 8 月,腾讯设立 TICS(智能计算和搜索)实验室,专注搜索、自然语言处理、 数据挖掘和人工智能等方面。2015 年 11 月,成立 WHAT 实验室,即微信—香港科技大 学人工智能联合实验室。2016 年 4 月,腾讯成立 AI 实验室,基于业务整合目标研究计算 机视觉、语音识别、自然语言处理和机器学习等研究领域,和内容 AI、社交 AI、游戏 AI、 工具类 AI 等研究方向。

QQ20170523-120020@2x

微信的语音文字转换、声纹识别等功能初具语音 AI 能力。2016 年 5 月,腾讯云联合微信 AI 团队正式上线智能语音服务,全面进入语音 AI 领域。在语音识别、语音合成、 声纹识别等功能上,腾讯云为行业提供了一款垂直领域定制化的语音产品,其专业高效的 语音大脑,满足了用户多样场景需求。通过亿万级别业务的并发验证,腾讯云智能语音识 别技术在通用领域中准确率达 95%,并可基于不同领域的行业属性,为其定制化语音识别 模型,快速解决各项业务难题。

QQ20170523-120109@2x

(九)IBM、Intel、阿里巴巴等纷纷布局语音 AI 领域

1、IBM:Watson 不断完善,整体表现良好
公司主打产品 Watson 不断完善更新,应用领域进一步扩大。IBM 自 2006 年开始研

发 Watson,并在《危险地带》智力抢答游戏中一战成名。在后期 Watson 逐步转型为认知 商业计算平台,并应用于医疗、金融等领域。2014 年 1 月,IBM宣 布 组 建 “ Watson Group”,旨在进一步开发、商用及增强 Watson 及其他认知技术。2016 年 3 月,IBM 与科大讯飞正式建立战略合作,致力于在认知计算算法、云平台架构等层面合作。2017 年 3 月,IBM 宣布在语音识别领域取得重大进展:Watson 的语音识别系统错词率降至 5.5%。

2、Intel:携手科大讯飞,精研语音 AI 芯片

2016 年 10 月,Intel 与科大讯飞宣布合作共同研发 AI 芯片,该芯片将麦克风阵列、 远场语音识别等功能集成到 SoC 当中,形成完整的远场语音交互链条,面对来自国内初 创公司技术的压力,此举进一步增强科大讯飞在麦克风阵列技术和方案方面实力,摆脱国 内合作 ARM 厂商的技术限制,同时自身也进入智能语音交互市场提供底层硬件。

3、阿里:智能语音助力电商发展

2015 年 7 月,阿里发布人工智能购物助理虚拟机器人“阿里小蜜”。2015 年双十一 期间,蚂蚁金服 95%的远程客户服务已经由大数据智能机器人完成,并同时实现了 100% 的自动语音识别。2016 年 8 月,阿里云宣布推出人工智能系统—ET。ET 基于阿里云强大 的计算能力,正在向多个领域不断进化,目前已具备智能语音交互、图像/视频识别、交 通预测、情感分析等技能。

推荐文章

沪公网安备 31010702002009号