总部电话
+86 755-28095893
的传递,一次完整的语音交互要经历ASR→NLP→Skill→TTS的流程。
语音合成(Text-To-Speech):简称TTS,是把文本转化成语音的过程。
智能语音交互系统作为人工智能最为典型的应用之一,可以将其技术拆分为如上图部分。
在实际的应用场景中,对智能语音交互系统将提出特定的需求,本报告集中于家庭大屏场景下的交互分析。
值得注意的是,不同公司在智能语音技术的优势各有不同。其中,以行业龙头科大讯飞为代表,基于其深耕行业20载,在语音识别,声纹识别,语种识别有着较大的优势。
据统计多个方面数据显示:2017年全球智能语音美元,同比增长30%。随着移动网络,智能家居,汽车,医疗等领域的应用带动智能语音产业规模持续迅速增加,预计2019年全球智能语音市场规模将突破170亿美元。
在全球智能语音市场占有率占比中,Nuance全球市场占有率排名第一,市占率达到31.6%;其次为谷歌,市场占有率为28.4%;排名第三的是苹果,市占率为15.4%;其后为微软以及科大讯飞分别占有8.1%以及4.5%的市场份额。
在人工智能和物联网技术的发展带领下,智能家居蓬勃兴起,互联网巨头及新兴勇于探索商业模式的公司从硬件、技术、系统解决方案等不同角度进行布局,智能家居系统初步显现。
预计2019年,中国智能家具市场规模将超1900亿,虽增长规模有所放缓,但市场规模将保持稳定增长,2020年将突破2000亿元。
数据显示:目前为止,中国智能语音市场,科大讯飞市场占有率排名第一,市占率达到44%;其次为百度,市场占有率为28%;排名第三的是的苹果,市占率为7%;其后为Nuance以及小i机器人占有均为3.0%的市场占有率(前瞻产业研究)。
中国电视机出货量在经历2011年到2016年的持续正向增长后,2017年⾸次出现负增长,这⼀情况将在 2018年有所好转。
同时,互联⽹电视机出货量占⽐连年稳定攀升,预计2018年将达到88%,全年出货量近 4000万台。2018年上半年,受世界杯效应影响,销量同⽐增长3.6%,但受降价影响,整体营业额下降2%,综合测算全年销量同⽐增长3%。
以电视机为代表的大屏设备在智能家居中扮演着举足轻重的作用,作为智能家居最为主要的交互方式——语音交互,智能语音交互系统有着非常大的市场规模和发展的潜在能力,本报告聚焦于基于大屏的智能语音交互系统进行分析。
相较于移动端的场景不同,大屏设备的主要使用场景在室内,集中于家庭。目标客户和使用场景的独特性,使得智能语音应用在该场景的使用具有特殊性。
例如用户在近景中,我要看语文。这里“看”理解成学还是点播,意味着完全不同的跳转页面。这对于语义理解提出了较高的要求。
大屏设备作为智能家居概念的重要组成部分,也是语音交互的重要入口必然成为市场必争的重要领域。
当我们转向用户思考IOT时代万物互联,意味着你身边的任何设备都是联网的,你可以在任何地方、任何时间和任何设备交互(IOT的4A原则),所以IOT将大大消弱了手机当前的交互中心地位。
当云端开始普及之后,未来计算平台的前台,是一系列形态、功能各异的智能硬件,这些硬件或大或小,有屏或无屏,近场或远场,位置固定或随身移动。虽然千差万别,用户却希望在任何一台设备上的交互状态可以云端同步至别的设备,用户可能随时在设备间切换,但希望交互进程和数据流不被中断、持续向前(集群智能)。
那么,什么样的交互能够支撑这种切换需求、适配各类设备而又保证体验的一致性呢?
小爱同学是小米科技于2017年7月26日推出的智能语音交互系统,适用于智能音响及其他智能设备,建构于小爱开放平台上,能够最终靠连接进入米家物联网系统控制所有的米家智能设备。
小度电视伴侣是百度旗下的一款智能硬件产品,内置DuerOS系统。从产品的概念来看,其以 Soundbar 的形态融入高性能 4K 机顶盒、智能音箱的功能,其三合一的创新产品形态,为客厅影音场景带来了简洁的一体性解决方案。
依托全语音交互大屏吸引,小度电视伴侣可实现利用语音打开设置中的蓝牙开关、调整图像设置等等。如“打开WiFi”“打开设置”等等,或者根据界面显示的内容,用语音命令指定播放视频内容,如“播放第三个”“这个人是谁”等等。此外,小度电视伴侣还能够最终靠语音控制多款智能设备,如“打开落地灯”“打开空调”等等。
讯飞语点是由科大讯飞推出的智能语音交互系统, 在2015年,科大讯飞重新定义了万物互联时代的人机交互标准,发布了对AI产业具有里程碑意义的人机交互界面——AIUI。
2016年,围绕科大讯飞人工智能开放平台的使用人次与创业团队成倍增长。截至2017年1月,讯飞开放平台在线亿,以科大讯飞为中心的AI产业生态持续构建。
本报告针对基于家庭大屏的智能语音交互系统的竞品分析,故家庭大屏用户为本报告产品的目标用户。
现阶段,主流大屏视频接入大致上可以分为DTV,IPTV和OTT三种类型,截⾄2018年Q2,DTV、OTT的中国城镇家庭⼤屏保有量均超过2亿户,IPTV⽅⾯保有量达到1.42亿。其中,中国移动魔百和在⼴东省有约1000万的⽤户成功转为IPTV⽤户,移动OTT盒⼦并⼊IPTV阵营有几率会成为趋势,那么有望在短期内使IPTV总⽤户也跃升⾄2亿户。
受限于数据和资料,本报告对不一样的大屏终端用户不作区分,以所有大屏用户作为目标用户作为分析对象。
与传统的AI产品以年轻人、高学历、男性为主要目标用户不同;基于大屏的智能语音交互系统用户分布更为平均和广泛,这种特点对具体场景的需求设计提出的新的要求。
目标用户群体画像不有代表性,使得产品在设计和开发时需要更加多的关注于场景而不是用户,从该场景下的通用需求出发对产品做设计和迭代。
本报告基于智能语音交互系统使用场景,在大屏语音交互外结合了车载语音交互系统评价的标准,制定出对于大屏语音交互的性能评价体系。
智能语音交互系统的性能需满足以下指标要求,其中唤醒率和误唤醒率应针对支持语音唤醒功能的语音交互系统。
该指标用于评价语音交互系统输出的人类可是别的文本信息正确率。对于中文普通话语音交互系统,该项指标的评价分类如表1。
若语音交互系统在既定的识别轮数内完成了语音识别任务,则此次语音识别成功。语音识别成功与否应该兼顾语音交互系统动作的可靠性问题。
若语音交互系统共进行了R次特定的语音识别任务,其中SR次识别成功,FR次识别出现误操作(包括但不限于 未在既定的识别轮数内完成,未完成识别前提前退出,识别无响应)。则:
该指标用于评价语音交互系统对语音识别任务的响应速度,离线语音交互系统的平均响应时间应≤2S;在线语音交互系统的评价响应时间应≤3S。
该指标用于评价语音交互系统在有背景噪音情况下,对语音唤醒操作的正确响应情况。
该指标用于评价语音交互系统在有背景噪音的情况下,对语音唤醒操作的错误响应情况。
ABX,普通用户评测(主观)。让用户来视听两个TTS系统,作对比,评测出声音的自然度。
比如智能客服,如果这个Session最终是以接入人工操作为结束的,那基本就说明机器的回答有问题,或者重复提供给用户相同答案等。
比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等(可能和打断,One-shot等功能相关)。
CPS(Conversations Per Session,平均单次对话轮数)。有必要注意一下的是此指标为微软小冰最早期提出的指标,并且是小冰内部的(唯一)最重要指标。
要有一定的相关性,但又不能是非常相似的话;话题终结者。如果机器说过这句话之后,通常用户都不会继续接了,那这句线)任务型
留存率:虽然是传统的指标,但能发现用户有没形成这样的使用习惯;留存的计算还可以精确到每个功能,然后进一步根据功能区做归类,看看用户对哪类任务的接受程度较高,还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程;到后面积累的特征多了,评价机制建立起来了,就可以上强化学习;比如之前百度高考,教考生填报志愿,就是这么弄的。
或者触发啥东西来达成目标,所以能计算多少人进入了这个对话单元,其中有多少人最后调了接口。
相关的还有(每个任务)平均slot填入轮数或填充完整度。即完成一个任务,平均要多少轮,平均填写了百分之多少的槽位slot。3)
整体来说,行业一般PR宣传时,会更多的提CPS,其他指标看起来可能相对太琐碎或不够高大上。
但是,实际工作中,可能CPS更多是面向闲聊型对话系统;而其他的场景,可能更应该从“效果”出发。比如,如果小孩子哭了,机器人能够“哭声安慰”,没必要对话那么多轮次,反而应该越少越好。
目前对于这类问题,一般是使用人工评估的方式来进行。这里的语料,通常不是单个句子,而是分为单轮的问答对或多轮的一个session。
1分或2分:完全答非所问,以及含有不友好内容或不适合语音播报的特殊内容;
可以看出智能语音交互系统不仅仅局限于对智能家居设备的语言控制,不同厂家的语言交互产品都进行了大量的功能开发,包括但不限于生活管理服务、游戏、生活百科、增值服务。如
根据影响用户选择语音助手线上调查问卷的结构,语音识别准确度,操作便捷,输入速度快,功能多样,词库丰富等因素,对比分析部分产品体验细节。
本报告针对语音交互系统中常用的业务场景进行了测试,通过对具体功能的体验对比进一步了解。
基于上述功能体验,讯飞语点在语音合成失真度和反应时间上具有一定的优势,这主要得益于科大讯飞在语音技术上的技术积累。
小度在语音交互时,更加侧重音乐搜索功能。在“刘德华的无间道”和黄梅戏的交互中,小度均直接跳转进QQ语音界面。
在开放式聊天中,小度的体验感较差。没办法理解用户意图时,采用了相同的语音反馈使得用户的使用欲望降低。小爱同学针对开发式问题,有不一样的反馈。
智能语音交互系统依然存在着发展空间,竞争进入了白热化阶段。以本报告的三款产品为例,讯飞语点,小爱同学和小度分别拥有自身的发展优势。但值得一提的是,暂时未出现一款绝对领先的产品。各款产品都有自己优势和劣势,特别地在某些特定的场景中体验分化极大。
现阶段,语音交互系统中语音识别环节暂无很大的差距。尽管在地方性语言识别上科大讯飞拥有着较大优势,由于其使用场景较为单一且目标用户数量有限,难以形成产品优势。
在NLP阶段,由于各款产品技术背景的差异,使得其在不同场景下存在独特的优势。例如:讯飞语点的方言识别,小爱的米家产品控制,小度的语音检索。但在识别语音意图时,与真实的对话依然才存在着较大差距。
搭载于大屏上的智能语音交互系统,由于其场景较为复杂,仍然需要一段时间进行发展和完善。
的技术的持续不断的发展和普及下,将会拥有慢慢的变大的发挥空间和巨大的市场需求,智能语音交互系统也将会从闭环问答式的产品逐步走向开环交流式的智能产品。
作为一款智能产品,智能语音交互系统将逐渐实现情感化的功能,从一个智能系统到拥有情感需求的智能机器人。能想象的是,智能语音交互系统将会成为AI发展的一个重要体现,并在未来的生活中扮演着逐渐重要的作用。
的前景虽好,但是不是适合自己企业发展将不得不认真思考,这也在强逼着现有的
与应用视频主讲:易老师,华清远见金牌讲师。视频简介:主讲:易老师,华清远见金牌讲师。课程内容:1
在经过2015年的成长,背后的市场潜力显得格外诱人。研究统计,至2020年,涵盖建材、新能源、家电产品
在我国现阶段还处于起步阶段,虽然被众人了解和看好,但是却并未打开市场。
手机革命是12年前由iPhone发起的,自那以来,一直不乏虚假的曙光。平板电脑销量飙升,但自2014年以来一直在下降。虚拟现实VR、AR也是令人失望。
以及未来发展的新趋势四个方面做论述,撰写了本篇报告。 报告目录 Part 1.中国
以及未来发展趋势 /
第20课2节AD20+VESC6-4实战教程:更改Type-C封装#Altium实战教程