ai混剪工具 直播高光智能成片:快手如何让用户快速消费直播中的精彩瞬间

默认分类1年前 (2023)发布 admin
4,031 0
ChatGPT国内版

为进一步提升快手直播的影响力,同时帮助用户快速消费直播中的精彩内容,快手MMU推出一套自研直播高光智能成片解决方案,首先利用语音、视觉等音视频多模态AI技术识别出直播内容的高光片段,再通过智能剪辑技术确定精确的高光时刻起止时间,最后再根据视频内容理解结果智能选择自动字幕、配音配乐、音乐卡点、混剪转场、特效渲染等创作方式,实现一站式全自动智能生成精美的高光短视频。该技术覆盖秀场、游戏、电商等直播场景下30+个细分垂类直播的高光剪辑,既为广泛的创作者制作短视频提供便利,又让用户高效消费直播的精彩瞬间,有效促进了直播高光视频的生产和传播。

前言

快手是一个短视频社区,不仅有海量的短视频内容,还有非常丰富的直播内容。我们知道,直播是即时性内容,需要用户长时间集中精力来消费。为了方便用户快速消费直播中的精彩内容,快手MMU团队自研了一套直播高光智能成片解决方案,利用音频、视觉、NLP等多模态AI技术将直播的高光瞬间智能剪辑生成精美短视频。

目前业界对高光剪辑和视频摘要已有较多的研究和实现,如2019年国庆阅兵中,央视将阅兵直播的精彩瞬间剪辑成短视频发布;咪咕视频把世界杯赛事直播自动剪辑出进球、射门、犯规、过人等精彩片段。可以看出,业界主要针对单一特定直播垂类进行精彩剪辑,而快手的直播内容非常丰富,形成了秀场、电商、游戏、蓝领招聘、影视综等多个场景的直播生态,细分垂类更是丰富多样,如唱歌、舞蹈、乐器演奏、游戏、闲聊、二次元、影视综等等。我们知道,不同垂类直播内容存在明显的差异,这对直播高光剪辑提出非常大的挑战,比如,如何定义不同垂类直播的高光时刻、如何识别不同垂类直播的高光片段、如何对不同垂类直播高光片段进行剪辑和创作、以及如何为不同主播的直播高光片段的质量进行分级等。针对这些挑战和问题,快手MMU团队利用音频、视觉、NLP和跨模态检索等多模态AI技术建设了一套直播高光智能成片解决方案,从高光识别到智能创作实现一站式全自动生成精美的高光短视频,覆盖快手秀场、游戏、电商等直播场景下近30个细分垂类直播。直播高光短视频可以让用户快速消费直播精彩瞬间,有效为直播间进行引流,助力快手直播的有效传播和影响力的提升。

快手直播高光智能成片解决方案

在介绍高光智能成片的解决方案之前,我们先来看看直播高光时刻的定义。

直播高光时刻如何定义?

对于直播高光时刻,不同场景不同垂类直播的高光定义不同,如秀场直播,将直播中主播唱歌、跳舞、搞笑聊天、互动性好等直播片段定义为高光时刻;游戏直播,将游戏直播中的各种击杀事件(三杀、四杀、五杀等)、各种击杀程度(锋芒必露、横扫千军等)以及助攻死亡等定义为高光片段;电商直播,将带货直播中主播介绍商品的片段定义为高光片段。另外,根据不同垂类的特点还将进行多个高光片段的卡点混剪,形成高光集锦,如游戏直播,将多个击杀事件和击杀程度混剪成一个完整的精彩击杀集锦。

ai混剪工具 直播高光智能成片:快手如何让用户快速消费直播中的精彩瞬间

直播高光智能成片解决方案

解决方案技术框图如下所示:

直播高光智能成片方案是以图像识别、音频识别和检测等人工智能技术,设计开发了直播垂类划分(分类)、高光片段识别(粗裁)、高光片段剪辑(精裁)、智能视频创作(智创)四大智能处理流程,实现一站式全自动智能高光成片能力。

直播垂类划分(分类)

利用语音、视觉和文字等多模态技术对直播进行分类处理,处理流程如下:

高光片段识别(粗裁)

如前面介绍,不同垂类直播的高光瞬间的定义不同,所以,针对不同垂类直播,分别利用不同的语音、视觉等多模态AI技术对直播内容进行理解分析,如才艺类直播则识别直播切片中是否在唱歌、跳舞等,语言类直播则识别是否有语音、有互动等,游戏类直播则识别击杀、助攻和死亡等,再根据直播垂类类别进行直播高光片段的粗裁聚合,将相同垂类且相邻的高光片段聚合在一起,形成各个垂类直播的粗裁高光片段。

ai混剪工具 直播高光智能成片:快手如何让用户快速消费直播中的精彩瞬间

高光视频剪辑(精裁)

快手直播的玩法多种多样,使得直播内容也是非常丰富多样,这就会造成粗裁高光视频片段通常会含有各种非高光成分,如唱歌片段不是主播自己唱,而是放着原唱;粗裁片段的留白过长,也就是说包含一些不精彩的内容,如跳舞片段,视频开始没有直接跳舞,而是播放背景音乐等。针对各垂类的粗裁视频片段的非高光问题,我们利用音频事件检测、原唱检测、跨模态检索、人脸识别、唇动检测等多模态音视频技术进行精细化裁剪,即精裁处理,得到精确的直播高光瞬间的时间边界信息,有效去除原唱、长留白等非高光成分。

由于主播的水平参差不齐,其唱功、表演水平也是有很大的差别,这里,我们对高光片段的表演水平、和粉丝互动、直播间的氛围进行评分,去除表演水平低、动作单一和互动差的片段。此外,还对视频的质量,如清晰度、直播环境等进行评分,保证精裁高光视频的质量和观感效果。

智能视频创作(智创)

为了生成精美的直播高光短视频,我们还利用AI技术对精裁片段进行智能编辑和创作,提升高光视频的质量和观感。针对精裁高光片段,我们从智能文字生成、智能音频生成、视觉创作、视频特效四个方面分别进行智能美化和渲染:

直播高光智能成片效果

为了验证直播高光智能成片视频的效果,团队针对不同垂类直播的高光成片视频进行QA评测,评测结果显示各个垂类的高光成片视频的优质率达到95%以上。下面给出直播高光智能成片技术生成的短视频效果,分别为唱歌、舞蹈、乐器、戏曲和游戏垂类的直播高光瞬间。

唱歌垂类:

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...