什么是语音技术 智能语音技术应用实践详解?( 三 )


InfoQ:针对有声书合成 , 共训练了多少种声音 , 是否有根据不同(年龄)人群的需要和兴趣定制更个性化的声音或者多(分)角色有感情朗读?或者是否有配合不同的书籍类型去创作不同的声音?
殷翔: 针对有声书合成共训练了 30 多种声音 , 我们目前根据番茄小说平台用户喜欢的头部小说 , 归类出头部书中最感兴趣的角色 , 再通过机器+人工的方式建立书中人物和音色的关系 。从而让用户能够享受合适的多角色情感朗读 。
InfoQ:近几年短视频非常火热 , 单字节跳动的短视频平台就拥有数亿日活的用户 , 每天会产生数量庞大的短视频 , 在针对短视频的二次智能创作方面 , 语音技术具体会进行哪些创作?用户的反馈效果如何?
殷翔: 语音技术会进行字幕添加、文字配音和模版玩法等 , 从而提升视频的丰富度 。这很大程度上促进了用户的投稿率 , 成为视频工具不可或缺的功能 。
智能语音技术赋能内容生产: 差异化、效果优、迭代快、低成本是未来趋势InfoQ:与以前的视频化相比 , 现在已经进入了超视频化时代 , 内容在更多地往视频演进 。超视频时代的来临 , 对智能语音技术在视频场景的应用带来了哪些机会和挑战?
殷翔: 机会在于我们可以面向广大用户群体提供丰富的内容创作工具 , 挑战则在于我们需要更理解用户 , 分析清楚采用何种功能能够激发他们的创作兴趣 。
InfoQ:字节跳动的智能语音技术 , 从研究方向和落地应用来看 , 有哪些独特的优势?
殷翔: 我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的 , 一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来 。针对落地应用 , 我们会 BP 到不同的业务部门 , 与他们的业务指标对齐 , 再拆解成技术指标跟进 。因此 , AI 中台既能够直接拿到业务收益 , 业务目标也可以与 AI 技术目标同步 。
InfoQ:据您判断 , 接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势?
殷翔: 智能语音技术作为生产工具 , 是可以极大提升 AI 内容生产和创作领域的生产力的 。未来行业内 , 一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展 , 借助技术的提升 , 不断推动 AI 产业化和规模化的进步 。
采访嘉宾介绍:
殷翔博士 , 字节跳动 AI-Lab 智能语音/语音合成 Leader 。2011 年毕业于中国科学技术大学电子工程与信息科学系 , 2016 于本校语音及语言信息处理国家工程实验室获得博士学位 , 研究方向为语音合成中的神经网络声学建模方法研究 。2018 年加入字节跳动人工智能实验室 , 负责音频生成算法团队 , 研究方向包括语音合成、声音转换、歌唱合成、虚拟形象 。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等 。在各类国际语音会议和刊物中发表论文 13 篇 , 国内外专利 10 余篇 。
好了 , 这篇文章的内容蜀川号就和大家分享到这里!