静音环境下如何看直播?海外主播讲外语听不懂怎么办?最近这一需求得到了解决。
关注英雄联盟LPL夏季赛的用户不难发现,斗鱼官方直播间新增了一项“不同寻常”的功能。当用户选择“字幕线路”后,直播间底部即会出现一行动态文字,从BP环节的运筹帷幄,到赛场上的瞬息万变,解说的激情讲解句句不落,直播内容均得到了较为准确的翻译。
据了解,这是斗鱼全新上线的AI字幕功能,它不仅能够将直播视频流中的音频进行实时语音识别转化为文字,以字幕的形式同步显示在直播视频流上,而且支持中、英、韩等多语种互译。目前,斗鱼已将这一功能先后面向数十个直播间开放体验,覆盖了英雄联盟S10、英雄联盟LPL夏季赛等大型赛事。
行业首创“游戏语言识别模型”响应速度达毫秒级
通过将机器算法与直播场景结合,斗鱼率先突破了AI字幕的技术壁垒。值得注意的是,相较市场上存在的同声传译、影视剧字幕等翻译产品,在游戏场景内,AI字幕的落地并非易事。
由于游戏直播的特性,主播直播的内容存在大量的游戏术语,尤其是在专业较强的赛事直播中,譬如“腕豪”“雷欧娜”“集火输出”“阵容强势期”等,常规翻译软件通常难以理解。因此,斗鱼AI字幕技术针对游戏直播内容的识别,更“重义”而非“重音”。
与此同时,赛事直播间中解说、游戏和赛场的嘈杂声音,不仅需要识别,还需要打磨工程协同。才能处理好字幕与语音之间的延迟、字幕悬停时长、断句等细节体验。为此,斗鱼制定了“定制化游戏语言识别模型”,提升了对硬核语义,如战队名、队员ID、装备、技能等内容的理解能力,同时过滤“垃圾话”等。并且通过ASR、NLP算法,在主播声、游戏声等复杂的语音环境中,实现了高精度识别,并能支持英语、日语、汉语等多种语言的识别与互译,覆盖不同人群的语言习惯。
据粗略统计,斗鱼AI字幕在保证毫秒级响应速度的同时,翻译精度亦能保持在90%以上。未来,在使用过程中,受益于日积月累的数据沉淀与机器自我学习,AI对于游戏用语、游戏梗的理解精确度也将逐渐提升,不断迭代提升观众的使用体验。
支持中、英、韩等多语互译拓展多元化场景需求
AI字幕功能上线的背后,是斗鱼对用户使用痛点的精准捕捉,也是对直播产品体验的严格要求,更是对拓展多元化业务的摸索与沉淀。
其一,AI字幕能够满足用户的多元化场景需求,大幅提升了直播观看体验。随着5G技术的演进,用户观看直播的场景从住所、网吧等,逐渐向公交地铁、商场等公共场所转移。一方面,AI字幕能够将用户的双耳从嘈杂的环境音中解放出来,让直播的收看更加方便;另一方面,特有的中日英韩多语互译功能,也能让大多数用户能够看懂海外比赛,削减了观看过程中的语言障碍。
其二,AI字幕满足了听障人群的使用需求。据统计,我国的听力残障人士约2780万人,占全国残障人群的30%以上。今年两会的《政府工作报告》也明确提出,数字产品在设计时应当贴合社会中的弱势人群。而AI字幕的上线能够解决他们难以理解直播内容的难题,让广大听障人士获得和正常人一样地观看直播。
其三,AI字幕能够解决海外主播语言不通的痛点,从而吸纳更多的海外人气主播加入斗鱼;另一方面,通过对多语种实时互译技术的打磨,斗鱼将有条件支持直接翻译发布会内容,如苹果和微软的新品发布会,从而打开商业合作的多元化前景,为其商业化提供想象空间。
在赛事期间,大量玩家反馈语音识别的便利性,尤其是“静音环境用户”在直播间展开了热烈的讨论,尤其表达了对该功能的认可。
据了解,斗鱼长期投入技术研发,致力于优化用户的使用体验,已在直播技术领域建树颇多。针对赛事直播场景,斗鱼曾推出过实时回放功能、精彩时刻锚点功能,能够实现对直播内容的全程回顾与快速定位,以及能够减少直播卡顿的SRT推流技术等。AI字幕功能的推出,也充分体现了斗鱼对用户需求的强大洞察力。随着平台技术实力的不断升级,斗鱼将以更加细致化的技术革新,带给用户更加极致的产品体验。