021-31261732
       56685636 
Press News
Services customer service
National Service Hotline 021-31261732 185 6666 1775
News Press

广发证券发展研究中心表示,研究服务机器人产业的框架为:应用场景+核心技术+产业链整合就会形成完整的产业,继而推导出作为消费品的价格、成本、渠道、模式等变量。

 

从技术的角度来看,服务机器人的多场景属性决定了其交互方式的多元化,智能型服务机器人涉及到语音、语义分析、情感分析、动作捕捉等多个维度的交互。

 

今天我们单就讨论已达到商用门槛的交互模块:语音识别。伴随计算能力的提升,自动语音识别(ASR)识别能力越来越强。目前不少企业的语音识别错误率已经达到了实用门槛。而在语义理解方面,词法和句法基本解决,语义目前仅是浅层处理,自然语言处理仍然困难重重,未来有望伴随深度学习算法得以突破。除了语音交互方式外,图像识别算法突破也将会对语音语义交互领域形成补充。

 

1智能语音技术已经达到商用门槛

 

语音语义发展历经三阶段,规则阶段进展甚微,统计阶段第一次爆发,深度学习是第二次爆发。20世纪50年代到70年代,在语音识别领域由规则主导,瓶颈无法破除发展缓慢,IBM几百个词70%的识别度;20世纪70年代到20世纪末,发展迅速,统计与规则角力,并逐步解决语音识别、词性分析、句法分析问题;21世纪初,由于计算能力增强语音技术有了重大突破,2006年至今,深度学习继续在语音识别领域完善

 

自动语音识别(ASR)从规则到统计再到深度学习,识别能力越来越强。自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别的总体过程是:语音输入,然后前处理得到数字信号,再进行声学特征的提取,进行模式匹配,处理后得到结果。技术流程是:先对静音切除,再进行声学特征提取,然后对其进行分帧,得到多维向量表达的若干帧,再把帧识别为状态(难点),每三个状态合组合为1个音素,再把因素组合为单词。

 

自动语音识别错误率目前已达到商用门槛。国际上公认衡量自动语音水平的参数为语音识别错误率(WER),人类的语音识别错误率为4%,目前商用语音系统的WER15%左右,达到了实用门槛。国际上占据全球市场60%份额的第一大语音公司Nuance为包括苹果在内的财富100强公司的三分之二的公司提供语音技术服务,其WER10%左右。Google依靠强大的深度学习,在2015年率先将WER降低至8%。国内语音实力最强的科大讯飞也达到了15%的使用门槛,针对会议演讲等场景达到5%以上的识别率,特别在针对中文部分方言也达到了实用门槛。

 

2语义理解仍需时日,静待深度学习算法突破

 

自然语言处理(NLP):词法和句法基本解决,语义目前仅是浅层处理。NLP分析技术大致分为三个层面:词法分析、句法分析和语义分析。

 

1)词法分析

词法分析包括分词、词性标注、命名实体识别和词义消歧。分词和词性标注好理解。命名实体识别的任务是识别句子中的人名、地名和机构名称等等命名实体。每一个命名实体都是由一个或多个词语构成的。词义消歧是要根据句子上下文语境来判断出每一个或某些词语的真实意思。

 

2)句法分析

句法分析是将输入句子从序列形式变成树状结构,从而可以捕捉到句子内部词语之间的搭配或者修饰关系,这一步是NLP中关键的一步。目前研究界存在两种主流的句法分析方法:短语结构句法体系,依存结构句法体系。其中依存关系句法体系现在已经成为研究句法分析的热点。依存语法表示形式简洁,易于理解和标注,其可以很容易的表示词语之间的语义关系,比如句子成分之间可以构成施事,受事,时间等关系。这种语义关系可以很方便的应用鱼语义分析和信息抽取等方面。依存关系还可以更高效的实现解码算法。句法分析得到的句法结构可以帮助上层的语义分析,以及一些应用,例如机器翻译、问答、文本挖掘、信息检索等。

 

3)语义分析

语义分析的最终目的是理解句子表达的真实语义。但是用什么形式来表示语义一直没有能够很好的解决。语义角色标注是比较成熟的浅层语义分析技术。给定句子中的一个谓词,语义角色标注的任务就是从句子中标注出这个谓词的施事、受事、时间、地点等参数。语义角色标注一般都在句法分析的基础上完成,句法结构对于语义角色标注的性能至关重要。

自然语言处理难点:词义消歧是瓶颈,中文相对英文更难。之一:切词,中英文自然语言处理都有一个先行环节,就是把输入的字符串分解成为词汇单位;之二:词类标注;之三:语法理论;之四:词义消歧。


自然语言处理未来的解决方式:深度学习。自然语言处理未来将依靠深度学习,具体在三个方面:词嵌入、基础模型、应用。这一部分的解决方式与图像识别类似,具体内容将在下面图像识别处继续说明。


3图像识别对语音语义交互领域形成补充

 

图像识别系统的过程分为五部分:图像输入、预处理、特征提取、分类和匹配。人类感觉信息中的80%都是视觉信息。图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说,图像识别就是计算机如何像人一样读懂图片的内容。借助图像识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式,甚至会让外部世界更加智能的运行。


图像识别的应用领域非常广泛。从工业视觉到人机交互,从视觉导航到虚拟现实,从安全领域到医学图像,从自动解释道遥感分析,这些在未来服务机器人身体上都是非常重要的功能。


印刷/手写字体OCR识别技术早已成熟,自然条件下OCR技术在十年前是难题。20世纪90年代,平板扫描仪对印刷体文本的识别率已经达到99%以上,谷歌还申请了图书扫描专利,除此之外手写字体的识别也被广泛用于邮件分类、支票分类、手写表格数字化等领域。但是在2004300万像素的智能手机诞生后,人们发现手机拍摄的自然条件下的文字识别率大大降低,即使是印刷字体也只能达到60%-70%的识别率。


近年来自然条件下OCR识别率不断提高,微软取得突破性进展。经过技术不断突破,业界识别精度达到80%,召回率达到67%。在20148月斯德哥尔摩举办的国际模式识别大会(ICPR)上,微软亚洲研究院团队将自然条件下文字识别精度提升到92.12%,召回率提升至92.32%,基本达到商用门槛值。


图像识别准确率不断提高,但是仍无法满足商用要求。ImageNet图像分类大赛:以计算机视觉领域奥林匹克竞赛之称的ImageNet对象分类为基准。比赛设置:1000类图像分类问题,训练数据集126万张图像,验证集5万张,测试集10万张。201220132014均采用了该数据集。评价标准采用top-5错误率,即对一张图像预测5个类别,只要有一个和人工标注类别相同就算对,否则算错。近年来识别准确率不断提高,但仍在自然条件下表现不好,仍无法满足商用要求。


未来图像识别门槛值突破将依靠深度学习。图像识别技术并不完善,仍然面临许多困难。图像识别的问题,目前是学术界研究的热点,这类AI问题将从三个方面去着手解决:首先是计算能力,通过CPUGPU、分布式架构等提高计算能力,然后是大数据,数据量越多,一般来说越有利于机器学习,还有算法,目前主流的算法是深度学习的CNN算法和RNN算法。


Contact Us
Tel: 86 21 31261732
E-mail: srshow@csria.cn
Micro letter sweep sweep the first order booth
©2013-2018 CAIQI
犀牛云提供企业云服务