首页 科技

音频检索在智能客服系统中的应用

时间:2019-09-20 14:34:01 栏目:科技

跟着人工智能手艺的成长,越来越多的真人客服坐席被智能语音客服取代。对语音交互来说,语音识别手艺(Automatic Speech Recognition,ASR)相对而言对照成熟了,在一些合作式交互场景(例如,语音转文字系统)下,的确可达到95%以上的正确率,但落地于实际项目(例如,智能语音客服系统),80%的正确率都很难达到,究其原因,实际应用中,人们说话都很随意,存在口音、噪音以及说话范畴差别这些客观身分的影响,属于非合作交互体式,结果天然差好多。

智能语音客服系统应用于实际场景,所采集到的语音信息是一种非语义符号透露和非构造化的二进制数据流,首要包罗三风雅面的信息:

1. 语音中包罗的内容信息(说话文本信息)

2. 语音混同在一路的配景情况声音信息

3. 语音中含有与说话人特征相关的信息(如性别、岁数以及感情状况等)

因为情况噪声、信道噪声等噪声问题,白话对话语音的形式多样性,例如方言,白话助词、游移、反复与停留造成的语音不流通,多个说话人重叠,以及句子界限界说恍惚等,轻易导致实际应用情况中智能语音客服机械人的示意不尽如人意,在收到非预期输入时也仅凭据最大似然的识别究竟将文本送给后续的语义懂得模块处理并做出交互动作,轻易导致语音交互流程弗成控,严重影响交互体验。

一款具有温情的智能语音客服机械人应该像人一般可以同时识别出说话人所讲的内容、其身份、岁数、性别、感情状况甚至配景声等多维信息,并透过置信度评价来权衡前端识其余靠得住性,对于那些或者是错误的究竟,加以稀奇的处理,或许将之完全舍弃,让系统仅接管准确的部门,在很大水平上可拓展语音识其余应用局限。

音频检索经常作为说话人检测与跟踪或语音识别相关系统的前端,用以检测出包含语音的音频片段,供应高质量的语音给后背的系统做进一步处理,这对于构建一种全新的多维语音信息识别系统具有十分主要意义。

音频语义内容是经由对音频数据的剖析获得音频中的一些特定语义内容。原始音频是非构造化的数据流,无法直接从中提取有意义的语义内容,这就需要对原始音频按必然语义内容进行时域上的朋分,即音频构造剖析。构造剖析的义务是将构成音频的音频帧序列朋分成时间上一连的几个鸠合,每个鸠合是一个内容上相对自力的、一连的构造单元。

时间粒度较小的构造单元,固然手艺处理更为轻易,但因为时间粒渡过小,很难从中提取有价格的内容语义时间粒渡过大的构造单元,固然能够从中提取较完整的语义内容,但凭据现有的手艺对如许的构造单元直接处理是难于实现的。是以,音频构造剖析应该集成分歧时间粒度的构造单元,从低到高分层实现。

本订婚义如下具有分歧时间粒度的音频构造单元:

音频帧(frame):音频是一个非平稳随机过程,其特征是随时间转变的,但这种转变是很迟缓的。鉴于此,能够将音频旌旗分成一些接踵的短段进行处理。这些短段一样长20~30ms,称为音频帧,是音频处理中的最小单元。

音频段(clip):因为音频帧的时间粒度太小,很难从中提取有意义的语义内容,所以需要在帧的根蒂上界说时间粒度更大的音频构造单元(平日比帧长大多数个数量级),本文称之为音频段。clip由多数帧构成,时间长度必然,是本文中音频分类的根基对象,具有必然语义,如语音clip,音乐clip等。clip的特征在音频帧特征的根蒂上较量获得。

音频镜头(shot):这是从视频镜头引申过来的概念。因为clip太短,不适合进行语义内容剖析。本文中界说含有同种音频类其余音频构造单元为音频镜头,音频镜头由多数沟通类其余clip构成,时间粒度更大,时间长度不定,是音频朋分的究竟。具有必然的语义,如情况音镜头,音乐镜优等。

音频高层语义单元由音频镜头的分歧组合形成的具有完整雄厚语义内容的音频构造单元。凭据需要能够有多层。它的剖析是以基层单元为根蒂的,是音频构造化的方针。

上述这些构造单元是条理化音频构造构成要素,描述了音频构造化从低到高络续提拔的过程。音频帧和音频clip是特征抽取对象,个中clip的特征在音频帧特征的根蒂上较量获得;音频段是音频分类对象,该条理上获得的是经由类别标注的音频clip序列;沟通类其余clip序列组成音频镜头,采用的相关手艺是音频朋分手艺;音频clip和音频镜头都具有必然的语义,首要是类别信息。分歧的音频构造的分歧组合形成高层音频构造单元,是具有完整雄厚语音内容的音频对象。

跟着智能语音客服机械人财富的敏捷成长,各类人机交互音频数据的数量非常宏大,是以有效治理、检索音频数据变得非常主要。解决大规模音频数据库的快速检索的有效手段之一是竖立合适的音频索引,个中音频朋分和标注是竖立音频索引的根蒂。是以音频检索手艺研究对构建多维语音信息识别系统具有十分主要意义。

相关文章