智能横屏切换竖屏技术揭秘

随着移动互联网的发展与5G时代的到来,通过移动端的短视频传递信息的方式越来越普及,短视频的需求也越来越大,特别是能够提升移动端小屏观看体验的竖屏短视频,如果能够将已有的丰富海量的优质横屏视频内容通过自动裁剪的方式生产全面屏竖屏视频,将会大大提高全面屏视频的生产效率。

图片

横转竖技术对比

目前主流的横转竖产品是剪辑工具,主要分为“固定式”和“逐帧式”两类:

1、“固定式”横转竖:

直接将横屏视频拖至剪辑工具,选择竖屏比例,固定式裁剪。这种方式只能选择固定画面区域进行裁剪,裁剪往往出现人物偏离中心,显著性目标出画等问题。

2、竞品“逐帧式”横转竖:

用户使用剪辑工具逐帧对视频进行竖屏裁剪操作。这样剪辑出来的竖屏虽然能避免“固定式”竖屏裁剪出现的目标偏离问题,但是在规模化的剪辑中将耗费大量的人力物力。

智能横转竖不仅具有自动剪辑的能力,而且能保证目标检测准确,剪辑画面美观。以AI算法为基础,能有效地捕捉画面中的人脸,显著性目标,运动轨迹,通过镜头拆分和坐标平滑等操作能大规模集成化的生产高质量的AI竖屏视频。既能解决“固定式”横转竖目标偏离问题,又能解决“逐帧式”裁剪的人力费用问题。

横转竖技术介绍

底层能力由镜头检测、目标追踪检测、视频标签分类、人物识别跟踪、裁剪坐标平滑、高速运动目标识别、多维度视频内容理解等十余个核心算法构成。

图片

系统整体流程:

1)系统对输入的横屏视频进行镜头完整性检测,输出镜头信息;

2)精彩片段模块根据镜头信息及十余种基础算法能力的输出结果,预测视频中精彩片段的时间轴;

3)竖屏裁剪模块根据时间轴对核心区域进行识别检测确定要跟踪的目标,输出目标物体的轨迹坐标后,将坐标拟合输出连续每帧的图片中心;

4)合成模块,根据输出图片中心坐标与精彩片段的时间轴进行抽帧、裁剪、合成,遮标等处理输出精彩竖屏视频;

核心算法介绍:

● 镜头检测:采用感知相似度模型,实现相邻帧的相似性提取,并结合边缘检测,提升视频镜头切换帧的识别准确率;

● 目标追踪检测能力:基于深度卷积神经网络提取YOLO检测的目标特征,然后采用SiamRPN++算法进行目标预测与跟踪;

● 视频标签分类能力:组合多种分类模型,实现特征提取,完成视频标签分类。

● 人物识别跟踪:采用MTCNN和ArcFace,在大规模人脸图像库中确定人脸身份归属;同时结合视频前后帧人物位置信息,提高复杂情况下的人物识别率;

● 裁剪坐标平滑:基于上下文精彩内容识别结果,根据目标裁剪比例,跟踪前后的坐标结果自适应整合裁剪坐标,保证核心目标在裁剪区域内,并且避免抖动现象。

● 高速运动目标识别:结合显著性目标检测算法和运动区域检测算法,配合显著性区域聚类算法,完成高速运动目标的连续精准识别。

● 多维度视频内容理解:依托于人物识别、动作识别、目标跟踪、场景变换识别、核心区域定位等AI能力,对视频内容进行多维度的深度理解,综合评判核心内容区域,识别定位精彩画面内容。

图片
感知相似度模型
图片
Siamrpn
图片
Lstm
图片
MTCNN
图片
Arcface

结语

紧跟时代发展,以科技提高效率。智能横转竖极大的减轻竖屏视频制作成本,将成为竖屏视频制作的一大利器,高质量实时热点视频分享的重要推动者。

作者:魏云娜 来源:青榴实验室

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

  • QUIC协议解析与DDoS攻击分析

    QUIC(Quick UDP Internet Connections)协议是一种基于UDP的新型可靠传输协议,目前主要用于HTTP/3.0。近年来,现网中逐步发现了一些基于QUI…

    2024年1月4日
  • 新型多阈值耦合双沟道InAlN/GaN HEMT改善跨导平坦度

    研究意义 GaN基HEMTs具有众多优点,其在工作频率、输出功率方面已经得到长足的发展,可以满足通信系统对输出功率需求,使得系统具有更高水平的抵抗外界干扰能力以及更广阔的能量覆盖范…

    2023年3月21日
  • 边缘原生应用准则白皮书 | 译文

    随着云计算、5G、物联网等技术的不断发展,边缘计算作为新兴的计算模式,正在逐渐成为人们关注的焦点。边缘原生应用作为边缘计算研究领域的重要对象之一, 物联网边缘工作组( IOT Ed…

    2023年3月24日
  • WebRTC 架构格局正在发生变化

    现在有一种新型的 WebRTC 应用程序架构正在发展,称为 WebRTC Unbundling,尽管它可能不适用于所有应用程序场景,但至少在开发新的实时视频开发项目时应该考虑一下它。在过去,三种不同类型的 WebRTC 应用架构即符合标准的 WebRTC、开源媒体服务器和称为 CPaaS 的商业媒体服务器是基于 WebRTC 开发的选项,这三个仍然是有效的架构选择,WebRTC Unbundling 只是第四个选择,可以认为它是符合标准的 WebRTC选项的另一种形式。

    2022年4月28日
  • 实时音视频技术在明星陪看直播中的应用实践

    编者按:爱奇艺近年推出的明星陪看直播业务打造了明星真人与观众围绕影视剧综艺近距离实时互动的新体验,逐渐吸引了用户关注。而在技术落地方面,爱奇艺通过与第三方音视频服务供应商深度合作,…

    2023年9月26日
  • 在线 KTV 实现过程(内附demo源码)

    摘要:教你3步快速实现在线KTV的开发。 在线K歌自2014年兴起以来,已经发展出了无比庞大的用户群体,每两人中就有就有一人体验过在线 K歌,其前景不可小觑。 如此庞大的…

    2023年3月14日

发表回复

登录后才能评论

评论列表(2条)

  • 8516的头像
    8516 2023年5月25日 上午10:35

    您好,我想请问一下,这是某篇论文嘛?如果是的话,想问问是哪篇论文呢?

    • 实时互动的头像
      实时互动 2023年5月25日 上午10:39

      @8516这是青榴实验室发表的一篇文章,具体内容来源不清楚