一条淘宝直播链接的背后,可没那么简单( 二 )


背后的「烧脑」技术无论是「3、2、1,上链接」、「回放」功能、智能数据分析、智能直播间,还是虚拟主播,背后的技术构成都极为复杂 。
单单虚拟主播一项功能,就集合了 AI 人工智能领域中几乎所有的核心技术 。虚拟主播是人、货、场的统一体,涉及一系列复杂算法与工程体系 。从外在形象、表情动作来看,协调的肢体动作、面部表情,运用到 AI 算法模型以及复刻技术 。
除了外在,虚拟主播更为重要的是内在功能 。比如,与用户互动,回答用户提问,理解用户意图,商品介绍,这些功能则囊括了 NLP(自然语言处理)、语音合成、机器智能、图像智能在内,AI 技术的四大方向 。
在阿里巴巴达摩院资深算法专家陈海青看来,从 2G、3G、4G 甚至再到 5G,是文本、语音、图像到视频的升级,也是从单模态到多模态的演进 。直播属于多模态场景,虚拟主播与场景融合,与用户互动,本质上是回到了感知+认知阶段 。
陈海青认为今天直播行业最大的技术挑战来自于动态的交互过程,不同时间段,商品的卖点、展示内容、场景交互都是实时的 。人物驱动需要基于实时的大数据决策能力 。
特别是,人物驱动的关键技术难点在于声音处理,即人物驱动个性化、情感化 TTS(从文本到语音),如跨语音、语言转换,语音、语调、抑扬顿挫的情感控制 。不同的技术解决方案、细节处理差异,可能导致用户体验天壤之别 。
此外,「3、2、1,上链接」、「回放」功能涉及到大规模低延时、窄带高清、存储等云计算技术 。据了解,淘宝直播利用阿里云在全球 70 个国家地区,2800+节点,卡顿率下降 55%,播放延时低于 1s,比业界平均水平下降 72%,自研 S265 编码器相比业界通用的 X265 编码器最多可以节省 40% 的带宽 。
淘宝内容社交互动团队技术负责人梁舒举了一个例子,双十一期间,薇娅、李佳琦两位主播直播间人数高达 3000 万以上,商品上架后,一秒之内就产生巨大的高并发需求,对服务器、网络的稳定性要求苛刻 。
正是这些大家都习以为常的直播场景,恰恰需要长期的技术积淀与实战积累 。
技术普惠:降低直播门槛从 2015 年算起,淘宝直播在技术研究领域已经积累五年之久 。2020 年,直播行业迎来一个新的节点 。受到疫情影响,今年 2 月以来,直播行业业态更加丰富、多元化,商家店主、娱乐明星、KOL、柜姐、农民纷纷涌入电商直播平台,整个行业主播量级呈直线式上升 。
问题也随之而来,相当一部分新增主播没有直播经验,而直播是一个看起来容易,做起来却很难的行业,具有一定的准入门槛 。比如,怎样运营粉丝,如何与粉丝保持互动、维系关系,如何以较高的用户接受度介绍、展示商品 。
再比如,如果想深层次挖掘直播信息、用户需求,还需要专业的数据分析师 。据了解,市场上一位初级数据分析师的月薪约为 2 万元,运营成本对于刚刚起步的中小主播、商家或者柜姐、农民而言,无疑是一个隐形的屏障,阻断了他们更多的可能性 。
【一条淘宝直播链接的背后,可没那么简单】所以,只有技术才能带来直播业态颠覆,让机会均等化 。
今年年初,淘宝零门槛、免费开放包括「播小宝」智能数据分析师、虚拟主播等淘宝直播技术 。淘宝直播产品负责人岱妍认为,一方面,淘宝的愿景是帮助平台上一千万家中小企业获利,帮助商家生长出新的能力 。在行业爆发增长的背景下,快速提升他们的专业性 。
另一方面,淘宝一直在思考如何技术普惠,怎样让田间地头的农民伯伯也能享受到和世界五百强公司一样的智能数据分析服务 。