语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用

  • 时间:
  • 浏览:3
  • 来源:uu快3大小_uu快3网站_开奖历史

支持主流的模型参数更新方案,包括ASGD、MA(model averaging)等,使得单机版GPU守护tcp连接把当时人算出的gradients或model parameters通过简单的调用middleware API即可完成模型的更新、同步。

哪几种服务标准是让当我门对当时人的要求、对客户的承诺。统统 ,在自动语音识别技术应用并且,哪几种标准统统并且只有是落在纸上、飘在空中而已——集团与蚂蚁每天天量的电话客服量,可能通过人工四个多 四个多 听、四个多 四个多 质检,是“可能完成的任务”。事实上,让当我门每天最多只有做到只有百分之一的人工抽检。只有 一来,让当我门事实上根本无法了解让当我门的客服质量。极端一点说,哪怕外包客服小二与客户对骂,让当我门也几乎只有 可能发现。你這個 状况的危险性都有可不可以 。

单机 2

有了自动语音识别技术,大量的人工抽检可有助够瞬间升级为30%的自动质检。当然,自动语音识别可能做到30%正确、即使语音识别30%准确,质检规则、质检模型也可能做到30%准确。哪几种都有让当我门时需持续努力的方向。短期来看,让当我门可有助够通过自动+人工的依据来提高质检准确率:即机器先筛选出可疑的小二问题报告 ,再由人工质检来确认。机器来 “大海捞针”,人工来“一锤定音”。实际上,30%的自动质检在客服小二的心理上也产生了化学反应——笔者曾听到小二笑言,现在知道有机器人在上端“偷听”,为客户服务的并且就会更小心谨慎。这也是在做自动语音识别并且只有 想到的额外效果。

59.6

(3 sweeps)

以 DNN 声学模型训练为契机和推动,为了应对今后训练数据急剧增长、训练周期越发不可控的风险,让当我门开发了 GPU 多机多卡 DNN 模型训练工具。在实验的 300 小时训练集上,使用 4 机 8 卡相对 baseline 的单机 2 卡取得了 3.6 倍的训练加速。训练出的模型在某测试集上的识别准确率指标上与baseline 一致。在 DNN 训练累积所用时间从 7 天半缩短到 2 天。详细的实验结果可见下表:

让当我门确定开发GPU多机多卡middleware,而都有四个多 全能的多机多卡训练工具,是基于如下的设计理念:目前deep learning的研究和工程实践方兴未艾,各种新的模型内部管理、训练工具层出不穷,很难有四个多 “one size fits all”的工具一同满足每每其他人的需求。這個,在图像外理领域比较流行的caffe和cuda-convnet,在LSTM模型上比较流行的CURRENNT和RNNLib,都有各有各的优势与不足,并各有各的拥趸。更有意思的时,让当我门了解到统统用户在使用哪几种open source工具时,都一点对它们进行了当时人的改造、升级与扩充,另四个多 就产生了无数基于哪几种工具的变体。

客服电句子音识别还有不少与一点语音识别应用有共性的难点,如口音等,在本文就不一一介绍了。iDST在前期确定另四个多 四个多 难度最大的业务来启动语音识别系统的建设,其重点还是在于构建和夯实技术基础。在此基础上,用同样的技术再应用于较垂直的语音搜索领域,就会显得游刃有余。接下来就重点介绍一点通过留声机和服务宝客服项目推动的重点技术。

可能让当我门用一般的单机单卡DNN训练工具来训练语音识别声学模型,只有 即使是对四个多 不算大的、300小时训练数据库而言(在语音领域合适1.8 billion个训练样本),迭代数遍至收敛,可能时需2到4周的时间。另四个多 的周转周期对于互联网时代快速迭代更新模型上线的要求而言,显然是无法接受的。

协调各个GPU卡,决定哪块卡计算哪一份数据,实现data parallelism和多轮迭代。

(3 sweeps)

30.0

End-to-end 训练时间

4.98

说语音识别是本身 黑科技是一点儿都有为过的。在美国政府关于限制发放签证的“Technology Alert List”中,语音识别赫然在列,与核武器、火箭技术等同在“黑名单”中。阿里云iDST语音团队汇集了数位来自国内外语音领域的工业界、学术界高手,在集团此前的积累上继续发力。新系统的第四个多 落地点,就被选定在客服电句子音识别上。

只有 问题报告 来了:只有 大规模的语音数据沉淀下来后,咋样有助被挖掘利用?阿里只有 大规模的自营和外包客服小二团队,咋样有助监测不必断提高小二的服务质量?随着客服系统只有 智能化,可有助够通过电话客服机器人来帮助客户外理困难?要回答哪几种问题报告 ,第一步就时需本身 智能技术,把语音转加进去文本,为后续的各个模块提供基础。你這個 技术统统 让当我门常说的自动语音识别(automatic speech recognition, ASR)。

4 8

外理四个多 sweep 所需时间(小时)

客服电句子音识别是业务上诸多应用的前置模块。有了语音识别转换出的文本信息做支撑,包括电话质检、电话预警、情绪识别、声纹识别、语音自动内部管理化、语音输入等各种后续应用都可有助够开展。這個,电话质检可有助够帮助让当我门提升小二的服务质量。這個在让当我门的服务规范中,“请谁能告诉我是账户持有者当时人吗”、“感谢您的耐心停留”等是时需要问、要说的;客户说“谢谢”小二就时需立即答“不客气”等。

4.89

根据scheduling的结果,输送训练数据到GPU卡,并实现智能的按需缓存,在运算的后台下载下一份训练数据,使得GPU不必“停工待料”。

通过数据标注工作,让当我门在留声机和服务宝客服任务上调快积累了成千上万小时的真实电话数据。数据有了,咋样快速的、迭代式的训练模型、不断调优,从而体现大数据的价值,就成了四个多 非常重要的技术课题。

CER(%)

2

三、电句子音在信道(channel)传输和噪声(noise)影响上更多样化。这是可能电话从客户到达让当我门的呼叫中心,上端通过了无数不同的信道和编解码算法,每四个多 可不可以 使语音信号失真(distortion)。更不利的是,众多客户在声学内部管理方面非常多样,有的用固定电话、有的用手机,有的在安静环境下、有的在噪声环境下、还有的在有玻璃墙的强混响环境下。而让当我门的小二呢,带着头戴式耳麦(既都有手机也都有座机),旁边还坐着别的小二在打电话,这就带来了四个多 对语音识别最不利的噪声类型:babble noise,即旁边的人声产生的噪音。

让当我门一结速就确定客服语音识别,都有可能它简单,恰恰是可能它难。相比于iDST承接的一点一点更为垂直的语音识别应用,如手淘语音搜索、天猫魔盒语音搜索而言,客服电句子音识别在技术上的难度相对更大:

Frame Acc. (%)

具体来说,GPU多机多卡middleware提供如下一点通用的基础功能:

让当我门通过GPU多机多卡middleware将让当我门用于语音识别的DNN、LSTM、BLSTM等单机版守护tcp连接通通插上了多机多卡的翅膀,并每天在训练模型;让当我门用middleware帮助iDST-NLP团队将聊天LSTM模型训练变为多机,创造了四个多 有趣的聊天机器人;让当我门用middleware和YunOS同学合作协议,将让当我门的改版caffe变为多机多卡版,训练CNN进行相册分类……让当我门希望middleware有助插入更多的已有单机版守护tcp连接,并实现更大的业务价值。

另四个多 的加速在技术上是咋样实现的呢?这就时需重点介绍让当我门开发的GPU多机多卡middleware了。 

通过包装MPI,提供计算节点之间p2p通讯(包括send / recv)和collective通讯(包括AllReduce等),并通过包装GPU Direct RDMA提高通讯速率。使得单机GPU守护tcp连接不必考虑通讯的细节,通过简单调用middleware的通讯API即可实现高速多机通讯。

但相同的是,哪几种林林总总的工具的变体在外理大数据时,都有将它们变身多机版、从而提高训练速率的需求。让当我门的GPU多机多卡middleware就基于另四个多 的需求来设计抽象,使得以上的守护tcp连接都可有助够通过插入middleware较快的实现基于ASGD或MA的多机多卡训练。对于用户来说,在插入middleware后,让当我门此前每每其他人基于open source工具所做的独有修改都可有助够得以充分保留。让当我门熟悉的环境、可能生成的训练测试数据、乃至单机baseline都可有助够复用并与新的多机版本互相参照。句子,middleware都有我能 四个多 新的工具,统统 将你手头熟悉的工具插上多机多卡的翅膀。

16.6

7.5

关于GPU多机多卡middleware句子题,让当我门另有@镭铭同学的专文加以详细阐述,在这里只作简单介绍。GPU多机多卡middleware是如下图的一层抽象,它的主要功能是将GPU集群的硬件资源加以整合,提供通用的通讯、scheduling、数据整理、模型参数更新等模块,从而使得某个现成的单机版GPU守护tcp连接通过较少的修改插入middleware后,就可有助够变身多机多卡守护tcp连接。

一、客户和小二的对话是“spontaneous speech”,即非常随意的、自然的对话。你這個 说话依据带有大量的“嗯、啊、呃”等语气词,带有“那个……我那个……”另四个多 的犹豫和不详细的句子。除此之外,对话双方打断对方说话的状况很常见,两人一同都有说话的状况统统 少。你這個 类型语音的识别,比在语音搜索中应付单个用户、有准备的想好再说的状况,要困难统统。

二、电话客服对话的多样性较大,即客户和小二对话所涉及到句子题范围相当宽泛,且只有 太多合适的文本语料进行语言模型(language model)的训练。与之不同的是,在语音搜索场景下,让当我门往往有助通过一点途径获得大量有用的文本资源并用于训练语言模型。這個,在天猫魔盒语音搜索场景下,大量的节目名、演员名是可有助够并且获得的;在手淘语音搜索场景下,用户搜索的内容甚至可有助够直接从淘宝query log中得到。你這個 差异,就决定了电句子音识别在语言模型的训练上比垂直的语音搜索要多样化。

“正在为您转接客服小二。为了提高让当我门的服务质量,您的通话可能会被录音。”让当我门是只有 说的,也是只有 做的。每天,集团和蚂蚁的客服小二总共会接听几十万通电话,沉淀的语音数据时长超过数万小时。来自天南海北的客户将时需咨询的问题报告 、时需吐槽的痛点、时需投诉的纠纷通过客服电话源源不断的反馈回公司。哪几种宝贵的客户心声在阿里会被认真的记录下来,并成为改善让当我门产品和服务的动力。

59.9