解析深度学习:语音识别实践
编辑推荐
AlphaGo与李世石的围棋大战激发了人们对人工智能是非的诸多争论。人工智能背后的工作原理深度学习跳入大众的视野。AlphaGo的大获全胜一定程度展示了深度学习在应用领域的成功,而语音识别正是深度学习取得显著成功的应用领域之一。 本书是首次以深度学习为主线介绍语音识别应用的书籍,对读者了解语音识别技术及其发展历程有重要的参考价值。 本书作者俞栋、邓力均是该领域的著名专家,他们是深度学习在应用领域取得突破性进展的推动者与实践者,他们在书中分享的研究成果一定程度上代表了本领域全新的研究进展;译者俞凯、钱彦 旻也是本领域的资深专家,并有众多实践成果。 对于从事此领域研究的读者来说,本书无疑有重要的参考价值。
内容简介
《解析深度学习:语音识别实践》是首部介绍语音识别中深度学习技术细节的专著。全书首先概要介绍了传统语音识别理论和经典的深度神经网络核心算法。接着全面而深入地介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化,特征表示学习、模型融合、自适应,以及以循环神经网络为代表的若干先进深度学习技术。 《解析深度学习:语音识别实践》适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读,所有的算法及技术细节都提供了详尽的参考文献,给出了深度学习在语音识别中应用的全景。
作者简介
俞栋 1998 年加入微软公司,现任微软研究院首席研究员、浙江大学兼职教授和中科大客座教授。他是语音识别和深度学习方向的资深专家,出版了两本专著,发表了150 多篇论文,是近60 项专利的发明人及有广泛影响力的深度学习开源软件CNTK 的发起人和主要作者之一。他在基于深度学习的语音识别技术上的工作带来了语音识别研究方向的转变,极大地推动了语音识别领域的发展,并获得2013 年IEEE 信号处理协会佳论文奖。俞栋博士现担任IEEE 语音语言处理专业委员会委员,曾担任IEEE/ACM音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。 邓力 世界著名人工智能、机器学习和语音语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。 邓立博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、统计方法与机器学习、听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习,商业大数据深度分析等。他在上述领域做出了重大贡献,是ASA(美国声学学会)会士、IEEE(美国电气和电子工程师协会)会士和理事、ISCA(国际语音通信协会)会士,并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖。同时,他也曾在高端杂志和会议上发表过与上述领域相关的300 余篇学术论文,出版过5 部著作,发明及合作发明了超过70 多项专利。邓立博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》(IEEE/ACMTransactions on Audio, Speech & anguage Processing)的主编。 俞凯 IEEE 高级会员,上海交通大学计算机科学与工程系特别研究员。清华大学本科、硕士,英国剑桥大学工程系博士。长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。他是“千人计划”(青年项目)获得者,国家自然科学基金委优秀青年科学基金获得者,上海市“东方学者”特聘教授;作为共同创始人和首席科学家创立“苏州思必驰信息科技有限公司”。现任中国声学学会语音语言、听觉及音乐分会执委会委员,中国计算机学会人机交互专委会委员,中国语音产业联盟技术工作组副组长。他的研究兴趣涉及语音识别、语音合成、口语理解、对话系统、认知型人机交互等智能语音语言处理技术的多个核心技术领域,在本领域的一流国际期刊和会议上发表论文80 余篇,申请专利10 余项,取得了一系列研究、工程和产业化成果。在InterSpeech 及IEEE Spoken Language Processing 等国际会议上获得3 篇国际会议优秀论文奖,获得国际语音通信联盟(ISCA)2013 年颁发的2008—2012 Computer Speech and Language 优论文奖。受邀担任InterSpeech 2009 语音识别领域主席、EUSIPCO 2011/EUSIPCO 2014 语音处理领域主席、InterSpeech 2014 口语对话系统领域主席等。他负责搭建或参与搭建的大规模连续语音识别系统,曾获得美国国家标准局(NIST)和美国国防部内部评测冠军;作为核心技术人员,负责设计并实现的认知型统计对话系统原型,在CMU 组织的2010 年对话系统国际挑战赛上获得了可控测试的冠军。作为项目负责人或Co-PI,他主持了欧盟第7 框架PARLANCE、国家自然科学基金委、上海市教委、经信委,以及美国通用公司、苏州思必驰信息科技有限公司的一系列科研及产业化项目。2014 年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”。 钱彦旻 上海交通大学计算机科学与工程系助理研究员,博士。分别在2007 年6 月和2013 年1 月于华中科技大学和清华大学获得工学学士和工学博士学位。2013 年4 月起,任上海交通大学计算机科与工程系理研究员。同时从2015 年1 月至2015 年12 月,在英国剑桥大学工程系机器智能实验室语音组进行访问,作为项目研究员与语音识别领域的著名科学家Phil Woodland 教授和Mark Gales 教授开展合作研究。现为IEEE、ISCA 会员,同时也是国际开源项目Kaldi 语音识别工具包开发的项目组创始成员之一。此外,担任IEEE Transactions on Audio, Speech, and Language Processing、SpeechCommunication、ICASSP、Interspeech、ASRU 等国际期刊和会议的审稿人。目前在国内外学术刊物和会议上发表学术论文50 余篇,Google Scholar 总引用数近1000 次。其中包括在语音识别领域优秀国际会议ICASSP、InterSpeech 和ASRU 上发表论文30 余篇,申请国家专利共3 项,已授权1 项。2008 年获科技奥运先进集体奖,2014 年获中国人工智能学会颁发的“吴文俊人工智能科学技术奖进步奖”。曾作为负责人和主要参与者参加了包括英国EPSRC、国家自然科学基金、国家863 等多个项目。目前的研究领域包括:语音识别、说话人和语种识别、自然语言理解、深度学习建模、多媒体信号处理等。