InfoQ:近期字节跳动在智能语音领域取得了哪些重要技术成果?
殷翔: 在语音识别方面 , 通过无监督预训练+少量有监督的技术 , 参加国际低资源多语言语音识别挑战赛(MUCS21) , 取得多语言语音识别赛道第二名;音乐技术方面 , 我们参加了 MIREX2020 翻唱识别竞赛 , 取得第一名 , mAP 领先第二名 8%;语音合成上 , 我们发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务;
InfoQ:端到端语音识别时代已来临 , 端到端识别技术近些年成为了学术界和业界研究的热点 。目前 , 字节跳动在端到端识别算法的研究和应用进展如何?
殷翔: 我们在 RNN-T 上做了不少原创性工作 , 包括加速 RNN-T 的训练和推理 , 结合端云一体进行了多项创新 , 目前已将该技术上线到各类业务场景中 。同时 , 我们还在打造下一代端到端识别算法框架 , 并已取得了较大的进展 。
InfoQ:接下来字节跳动在语音技术领域的重点研究方向是什么;您所在的团队接下来的规划是?
【什么是语音技术 智能语音技术应用实践详解?】殷翔: 以语音识别和合成为例 。语音识别方向上 , 重点研究方向包括结合无监督预训练提升低资源语种的识别率、结合多模态信息的场景分类和语音识别、新一代端到端识别框架;语音合成方向上 , 重点研究方向包括文本到波形的端到端联合建模、低质少量的跨语种音色复刻、直播流式场景下的音色转换、多模态感知型虚拟形象等 。我们团队接下来重点发展的规划 , 包括多语种的视频字幕和配音、多模态语音交互链路、搭建有声内容生产平台等 。
智能语音广泛落地于字节跳动的内容平台InfoQ:你们团队研发的语音技术目前在字节跳动内部的哪些场景应用?公司外部 , 有哪些应用场景?
殷翔: 团队研发技术落地于教育、视频、小说、客服、硬件、音乐、办公、ToB、游戏、广告等内部业务场景 , 主要以服务调用或 SDK 的形式使用 。对于外部场景 , 会通过火山引擎控制台对外提供服务 。
InfoQ:你们如何评估智能语音技术在各个场景的应用效果?
殷翔: 我们会通过调用量、语音处理/生成时长等纯技术指标来衡量使用情况 , 同时也会通过业务侧拆解出的 DAU、留存、渗透时长、效率提升等指标来衡量效果 。
InfoQ:在字节跳动的内容平台由图文-音频-视频不断演进的过程中 , 如何看待语音技术的重要性?
殷翔: 语音技术在内容形式不断的演化过程中 , 可以持续通过对语音和语义的理解 , 来帮助平台筛选出违禁的内容 。通过机器+人工的方式 , 大大提升审核的效率;同时 , 通过对语义的理解和语音/图像信号的重建 , 为平台提供丰富的不同模态内容 , 供用户消费 。
InfoQ:字节跳动的语音技术在有声书合成应用场景中 , 有没有一些难突破的技术点 , 是怎样解决的?最终达到的朗读效果与真人朗读相比 , 还有哪些差距?
殷翔: 在有声书合成应用场景下 , 存在的难点主要是如何接近真人播讲的效果 , 使得最终的合成音频能够体现出不同角色在不同上下文环境里的效果 。我们会通过小说篇章理解来将网文转换成剧本 , 标识出每句对话是哪个角色来读和以什么情感来读 , 再采用对应音色结合情感合成得到音频内容 。最终的朗读效果与真人相比 , 差距在于无法做到根据不同上下文语境展现不同风格 , 只能表现出音库单一的录制风格 。
- 创业做什么赚钱 在香港创业做什么赚钱
- 男的梦到死人了有什么兆头 梦到死人是什么预兆
- 鲫鱼是什么鱼
- 冰墩墩是什么的吉祥物
- 狐狸古代的别称是
- 家宴是最高的礼遇什么意思
- 饺子原名叫什么
- 韶年是指多大
- 去跳蚤的简便方法分享 去跳蚤最简单的方法
- 婚假是多少天呢 晚婚的婚假是多少天