什么是语音技术 智能语音技术应用实践详解?

AI 技术正在成为辅助内容生产和传播的“利器” 。尤其随着现在语音、文本、图像、视频等不同模态的信息层出不穷 , 以 AI 技术作为“创作工具”将为内容生产带来新变革 。
以字节跳动为例 , 字节跳动拥有全球化的内容平台 , 内容形式经历了图文、音频和视频各个阶段 , 在这个过程中 , 内部对智能语音技术的需求日益增强 , 如有声书内容生产 , 短视频中的内容审核、自动字幕和配音功能等 。
自 2017 年开始重点布局智能语音技术以来 , 该技术已广泛应用在字节跳动内部的教育、视频、小说、客服、硬件、音乐、办公、游戏、广告等业务场景 。实践证明 , 作为新型的生产工具 , 智能语音技术能够极大地提升 AI 内容生产和创作领域的生产力 。
在将于 11 月 5 日 – 6 日举办的 AICon 全球人工智能与机器学习大会(北京站)2021 上 , 字节跳动 AI-Lab 智能语音/语音合成 Leader 殷翔博士将作为“AI 与产业互联网结合”专场的讲师 , 
InfoQ 有幸提前对殷翔博士进行了专访 , 他详细介绍了智能语音技术上在字节跳动的研发进展以及应用实践 , 分享了智能语音赋能内容生产的思考 。
以下为 InfoQ 与殷翔博士对话全文:
字节跳动的智能语音技术布局InfoQ :殷老师您好 , 很高兴有机会采访您 , 首先请您做一下自我介绍 , 您自何时加入字节跳动 , 以及目前主要负责的工作?
殷翔: 我是 2018 年加入字节跳动人工智能实验室 , 负责音频生成算法团队 , 研究方向包括语音合成、声音转换、歌唱合成、虚拟形象 。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等 。
InfoQ:字节跳动大概是从什么时候开始布局智能语音技术的?公司内部对智能语音技术的需求主要来自哪些场景?
殷翔: 字节跳动是从 2017 年底重点投入智能语音技术的 。公司对智能语音技术需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等 。
InfoQ:字节跳动如何定位智能语音技术 , 如何看待它在公司整体的 AI 布局中所处的位置?
殷翔: 字节跳动拥有全球化的内容平台 , 内容形式经历了图文、音频和视频各阶段 , 如何高效理解、创作、互动和分发内容 , 给 AI 技术带来了机遇和挑战 。随着深度学习和机器算力的不断发展 , 智能语音技术已经迈进了端到端时代 , 并借助丰富场景下的海量数据 , 显著提升了内容理解的精度、内容创作的质量 。
智能语音技术在公司整体 AI 布局中扮演的角色之一是内容创作工具 , 例如:通过自然语言理解、语音合成和音乐生成等技术开发的有声书内容生产 , 能够将番茄小说海量网文转成有声书 , 供用户聆听 。在短视频方面 , 能够辅助用户通过字幕自动添加、个性化配音和滤镜玩法创造出内容丰富的作品 。
InfoQ:除了您所在的团队(AILab) , 字节跳动内部还有哪些团队在做语音技术的研究 , 各部门的侧重点分别是什么 , 又是如何协作的?
殷翔: 字节跳动产品研发和工程架构部门也在做相关研究 。AILab-智能语音属于 AI 中台 , 使命是做“大而全”的技术支持 , 对某些需要深入合作的业务部门 , 会专门派同学 BP , 进行“精且深”的解决方案打磨 。最终我们的愿景是将 AI 中台能力做成定制方案 , 提供 ToB 。产品研发和工程架构部的语音部门需要集中支持所属部门业务方向 , 与业务一起成长 , 做到 BU 化 。在协作方面 , 对于共有能力 , 会依照业务场景进行划分 。对于差异化能力 , 会依照业务方的需求 , 形成组合方案 , 提供支持 。