什么是语音技术智能语音技术应用实践详解？( 三 )

InfoQ：针对有声书合成，共训练了多少种声音，是否有根据不同（年龄）人群的需要和兴趣定制更个性化的声音或者多（分）角色有感情朗读？或者是否有配合不同的书籍类型去创作不同的声音？
殷翔：针对有声书合成共训练了 30 多种声音，我们目前根据番茄小说平台用户喜欢的头部小说，归类出头部书中最感兴趣的角色，再通过机器+人工的方式建立书中人物和音色的关系。从而让用户能够享受合适的多角色情感朗读。
InfoQ：近几年短视频非常火热，单字节跳动的短视频平台就拥有数亿日活的用户，每天会产生数量庞大的短视频，在针对短视频的二次智能创作方面，语音技术具体会进行哪些创作？用户的反馈效果如何？
殷翔：语音技术会进行字幕添加、文字配音和模版玩法等，从而提升视频的丰富度。这很大程度上促进了用户的投稿率，成为视频工具不可或缺的功能。
智能语音技术赋能内容生产: 差异化、效果优、迭代快、低成本是未来趋势InfoQ：与以前的视频化相比，现在已经进入了超视频化时代，内容在更多地往视频演进。超视频时代的来临，对智能语音技术在视频场景的应用带来了哪些机会和挑战？
殷翔：机会在于我们可以面向广大用户群体提供丰富的内容创作工具，挑战则在于我们需要更理解用户，分析清楚采用何种功能能够激发他们的创作兴趣。
InfoQ：字节跳动的智能语音技术，从研究方向和落地应用来看，有哪些独特的优势？
殷翔：我们的研究方向是结合实际落地需求和前沿学术趋势逐渐形成的，一切均围绕着如何将 AI 技术更好、更快、成本更低地落地于实际场景中来。针对落地应用，我们会 BP 到不同的业务部门，与他们的业务指标对齐，再拆解成技术指标跟进。因此， AI 中台既能够直接拿到业务收益，业务目标也可以与 AI 技术目标同步。
InfoQ：据您判断，接下来智能语音技术在 AI 内容生产和创作领域还有哪些发展趋势？
殷翔：智能语音技术作为生产工具，是可以极大提升 AI 内容生产和创作领域的生产力的。未来行业内，一定是会围绕着差异化、效果优、迭代快、低成本等方向持续发展，借助技术的提升，不断推动 AI 产业化和规模化的进步。
采访嘉宾介绍:
殷翔博士，字节跳动 AI-Lab 智能语音/语音合成 Leader 。2011 年毕业于中国科学技术大学电子工程与信息科学系， 2016 于本校语音及语言信息处理国家工程实验室获得博士学位，研究方向为语音合成中的神经网络声学建模方法研究。2018 年加入字节跳动人工智能实验室，负责音频生成算法团队，研究方向包括语音合成、声音转换、歌唱合成、虚拟形象。团队研发技术落地于番茄小说、大力教育、剪映、客服机器人、听头条、游戏 V、行业 ToB 等。在各类国际语音会议和刊物中发表论文 13 篇，国内外专利 10 余篇。
好了，这篇文章的内容蜀川号就和大家分享到这里！

什么是语音技术 智能语音技术应用实践详解？( 三 )

什么是语音技术智能语音技术应用实践详解？( 三 )