语音识别领域的“潜行者”--新•资讯 -- 新科技

语音识别领域的“潜行者”

发表时间：2014年6月30日 15:46 来源：新科技责任编辑：编辑：麒麟

专访普强信息CEO何国涛、CTO李全忠

随着苹果Siri的出现，语音识别技术开始逐步走进我们的视野。最直观的感受，就是现在移动互联网的应用中越来越多地以语音识别作为新的人机交互手段。

那么语音识别究竟是怎么一回事，它又是怎样被应用并实现其价值的，通过它企业又能获取怎样的增值服务？带着这些疑问，我们走进普强信息技术（北京）有限公司，请被誉为语音识别领域舵手的普强CEO何国涛，和CTO李全忠先生来一一解说。

何国涛：普强CEO，北京大学及美国雪城大学计算机硕士，曾就职于硅谷惠普实验室及多家高科技创业企业, 成功管理多个跨国项目. 拥有管理上亿元营收的公司经验. 专长：大规模企业级服务器, Voice XML, IVR System.现主管公司运营。

李全忠：普强联合创始人和CTO，负责公司语音识别及语音分析技术。曾在IBM Almaden研究中心任研究员，在数据库、数据分析、大数据处理及云计算等信息科技领域领导了多项研究项目。李全忠于1995年和1998年分别获得北京大学计算机学士和硕士学位，随后留学美国，在亚利桑那大学获得计算机博士学位。

问：现在语音识别技术已经成为目前快速推广、作用显著的一种技术，但是对于普通用户来说，这个概念可能更局限于诸如微信的语音输入，请问这二者有什么异同点，语音识别技术究竟是怎样的一门技术呢？

何国涛：语音识别技术，简单地说就是把用户语音转换成文本。它可以适用于不同的领域，例如移动互联网，可以让很多人工密集的呼叫中心实现自动化和智能化，保障信息安全的如声纹识别类，作为大数据挖掘的语音分析系统，以及车联网和教育产品等等。

李全忠：微信的语音输入只是一个应用例子。未来在我们的日常生活中会越来越多的情况下使用语音识别技术，能够给我们的生活工作带来很多便捷。

问：嗯，语音识别技术就是把语音转换成文本的技术，那语音识别在哪些领域使用的比较多，能够为这些企业带来哪些效益？

何国涛：语音识别技术可以应用于许多不同的领域。现在使用最多的是移动互联网领域，可以直接把语音转换成文字，为用户解决了在小屏幕键盘输入的困难；呼叫中心领域，通过采用语音识别技术，自动化处理大量的重复性工作,例如语音分析、语音IVR导航；导航及车联网，通过智能语音输入，使驾驶人员能够通过语音控制相应的非驾驶操作，让驾驶人员专注驾驶操作，增加驾驶的安全性；教育领域:口语评测；玩具领域:语音控制；声纹识别领域:增强系统安全性能，这是今年语音识别的主要收入增长点；医疗保健领域:应用到电子病历中，可自动实现医生口述病历及医嘱等等。

问：确实是给我们日常生活带来了很大的便捷，也为企业提供了有效的解决方案。作为语音识别领域的重要研发企业，普强在语音识别领域有着怎样的技术优势？

李全忠：普强目前已经为金融、电信、保险等行业提供高准确度和高性能的电话线信道的 ASR（语音识别）引擎。

移动互联网方面，普强早在2010年7月便与爱帮网推出了语音版的LBS手机应用，这是国内首个基于开放语音云平台下支持多操作系统的手机应用。近年来，随着公司不断的积累，语音识别的技术和产品都相应获得了全方面领先优势的发展。在产品的声学建模上，开发使用了深度神经网络技术；公司研发的语音切分技术及识别结果的置信度算法，不但为企业级应用提供准确的识别结果，同时也提供了精确的说话人分割、时间边界以及识别结果的置信度等信息，这些信息使企业在应用中（例如呼叫中心），更加便捷和准确地利用语音作为主要的交互方式，并且可以进一步挖掘、分析和利用海量语音数据的内容。

何国涛：普强智能语音分析系统可以广泛应用于客服中心的质检和企业的精准营销中。该产品提供例如热点发现，趋势分析，自动建模等领先的功能。

普强在不断开发新技术的同时，也在企业语音应用的多个领域，（例如保险、银行、证券及电信等的客服中心、增值服务等）积累了海量的数据、模型信息和项目的经验。

问：由此可以看出普强信息的技术实力和优势。目前依托语音识别技术，普强有哪些成熟的产品？

何国涛：成熟的产品主要有，千语语音平台，向企业提供语音识别产品和服务；千语语音云平台，为手机互联网应用提供的语音识别云服务；普强智能语音分析系统，为企业提供全方位、多维度的大数据分析（语音，视频，文本数据等）

问：您所提到的语音分析系统与传统的人工分析相比，有哪些优势？

何国涛：语音分析系统的优势主要有以下几个方面。

1. 数据覆盖更全：很显然，智能语音分析人工分析工具所难以比拟的数据覆盖性，语音分析可以做到100%覆盖，但人工分析一般抽样比例低于5%.

2. 数据处理能力更强：相比于人工分析，智能语音分析数据处理能力更高，每一个CPU线程每一小时可以处理分析2.6小时的录音，而人工分析每人每一小时只能处理分析0.4小时的录音。一般标配服务器为16核CPU，一般等同于104人。（Elwin，这里需要说得更简单直白一些，“一般标配服务器16和CPU，一般等同于104人”，具体是什么意思？）

3. 具有精确的分析功能：语音分析可以通过聚类算法知道热点业务、高频词汇；同时也可以通过筛选算法，在几秒钟内就可找到目标数据，而人工分析无法处理大数据量计算统计工作。

4. 更具智能性：语音分析可以进行大数据量的统计计算，从而找出中间的具有某个特定特性的集合，并且分析集合间的相关性，而人工分析无法进行大数量的计算。

5.自动性：语音分析可以事先预设统计规则，并设置回溯期的数据重新统计计算，人工无法将历史数据采用新算法计算。

6.统计计算工具：语音分析具备大量的数据挖掘和分析工具，人工分析只能做简单的计算统计。

问：与国际水平相比，国内的语音识别技术整体上处在一个怎样的层次？

何国涛：在中文语音识别领域，国内的科研院所及公司的数据积累要远远多于国外的同行，因此在中文的识别准确度上要好于国外。国内技术型创业公司（包括普强）在研发和利用新技术方面有很大的灵活性，站在技术的前沿，这同时也提高了国内语音技术在国内的产业化水平。在企业应用市场方面仍然落后于欧美的发达国家，但是目前处于迅速跟进和快速发展的阶段，这给语音产业的创业公司尤其是面向企业市场的公司提供了广阔的市场空间。

问：作为国内语音识别技术的优秀创业企业之一，普强预计语音识别的未来发展会是怎样的？

李全忠：在技术方面，从简单的声音模板匹配,到GMM/HMM，再到DNN/HMM每个新技术的发展都能给ASR的准确率带来一个飞跃，但仍然有很多问题需要解决，比如适应各种环境的噪音，尤其是含有人声的背景噪声、口音及方言的识别、以及在嵌入式设备中降低功耗等。

普强会继续投入大量的资源去解决这些问题。以保证普强在技术上的领先地位。

问：您认为普强未来的发展方向是怎样的？

何国涛：正如我之前提到的，ASR可应用在很多不同领域。包括：企业呼叫中心，车载导航领域、教育领域、玩具领域、声纹识别领域和医疗保健领域等。普强的自主专利核心技术都可以支持这些领域。目前,我们集中资源在企业呼叫中心和移动互联网领域。我们的产品在这一领域有明显的优势,会继续投资现有的领域，同时也会在此领域继续加大投入以保持我们的优势，当然，也会投入在车载、教育等领域来建立技术屏障。

问：看来普强是比较侧重企业应用市场，那么对移动互联网应用市场是怎么考虑的呢？

何国涛：垂直领域确实是普强目前所专注的方向，因为这个目标市场需求明确，商业模式比较清晰，是目前语音识别技术实现商业价值的主要市场。对于技术提供商来说，需要有很强的开发、集成和服务能力。普强不会成为一家万金油式的企业，而是希望首先在2B领域做深、做专，树立自己的行业地位。这是我们结合国内外语音技术市场的规律和经验来制定的战略性方向，目前这一块已经取得了阶段性的成果。

当然，我们在2B领域比较专注，并不代表我们忽略了移动互联网的应用，实际上我们已经为多个领域的移动应用提供了语音云服务，包括教育领域的金山词霸、魔方英语，音乐领域的多米音乐，生活搜索领域的爱帮生活等等（还有哪些？请补充），这也为普强积累了宝贵的经验和资源。普强已经拥有成熟的语音识别引擎，今后为开发者提供大规模的语音云服务其实是顺理成章的事。

另外，我们清楚地看到，可穿戴智能设备将会快速进入我们的生活，今后在这类设备的人机交互方式中，语音将是最方便的手段之一，也就是说，语音识别技术将成为智能设备的标配之一。这也是我们正在努力进行技术储备的重要领域。如何实现低耗运行是我们需要突破的技术课题。

问：普强已经取得了很不错的成绩，但在市场上似乎没有太多的知名度，这是什么原因呢？

何国涛：这可能是因为我们团队把所有的精力都放在技术开发和市场拓展上面吧，我们真没有太关注我们自己在市场上有多少曝光度。不过普强一年多以前已经获得了知名风险投资机构戈壁资本的A轮投资，其实也是说明了资本市场对我们的认可。

1、B2B与B2C的区别：

B2C

更大的目标市场，单项的交易额较小

在很短的时间决定购买，大部分时间是由“一念之间”

需要新闻组，wechat等，以做客户支持

B2B

专注垂直/较小的目标市场，交易额规模较大

顾客对各家产品比较懂，和较长的购买周期，

需要专业的售前/售后团队

问：何先生对语音识别不同的应用领域有什么想法？

何国涛：ASR技术可以应用在很多领域:

l 移动互联网：尽管目前还没有明晰获利前景，但在未来却有极大的市场潜能。这块的竞争已经白热化，许多实力玩家，像百度，腾讯，科大讯飞，云之声，等等正在争斗，未来还会有更多人加入进来。

l 企业呼叫中心：要进入这个市场，企业不仅要有领先的ASR语音识别技术，同时还要有专业知识。普强则是这个领域的佼佼者。

l 车载导航：这个领域ASR语音识别技术是必须的。销售周期比较长，但是你一旦进入这个市场，你就拥有能做十年的客户。

l 教育领域：要有很强的政府背景和专业知识。科大讯飞在这块有压倒性的优势。

l 声纹识别领域:增强系统安全性能，这是今年语音识别的主要收入增长点。

l 医疗保健领域:应用到电子病历中，可自动实现把医生的声音转换成文本。这一领域也是若干发达国家在语音识别的主要收入领域。

由于拥有领先的语音识别技术，普强已经做好了进入这些领域的准备。普强将先锁定在企业客户这块。当我们在这个领域做到最好时，我们再继续渗透到其它版块。

普强目前拥有：

千语语音平台：向企业提供语音识别服务

千语语音云平台：为手机互联网应用提供的语音识别云服务

普强智能语音分析系统：为企业提供360度大数据分析（语音，视频，文学数据等）

问：ASR语音识别技术有哪些难点？

李全忠：语音识别技术要求快速，准确。语音识别目前还达不到百分百准确，达到完美的距离还很远。因为中文5千字中发音有406个，是最难辨识的语种，例如（wu）,可以是吴、无、吾、梧、蜈等。同样文字各地方言发音不一，便会增加难度，所以语音辩识应用的成功关键，更倾向是专业能力。人类有眼睛，耳朵，文字来帮助识别，语音识别是只通过能“听”来完成，有限的声音数据要用来识别声音的同时也要区分不同的背景杂音，需要花时间和精力去完善核心算法和积累数据。为了使每个垂直领域达到最优的识别效果，我们都需要积累经验去适当调整算法和采集选择数据，例如为呼叫中心的电话信道建立模型与移动互联网的声学模型是不一样的。

问：ASR技术怎么应用在智能家居设备和穿戴设备上？

何国涛：在可穿戴设备上，语音识别技术将是必备技术之一，但是要应用ASR技术到可穿戴设备，我们首先要解决能耗问题，这类设备一般没有太多电能。

一个成功的案例是：低功耗的语音唤醒技术。它通过只针对特定人和少数命令词的识别解决了低能耗的问题，成功应用在许多嵌入式产品中，例如：手机语音唤醒，宠物语音锁链（锁链回答宠物主人的叫唤）等。