还得是, 字节推出竖屏视频理解数据集, 入选CVPR2024

机器心科技身2024-04-03 16:53:22 84

机器之心专栏

机器之心编辑部

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和内容重点不同，展示出与横屏视频数据不同的特性。

针对这一不同，字节跳动技术团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义，论文已入选 CVPR2024。

视频 demo 展示、数据特性演示以及竖屏视频类别分类，请见 https://mingfei.info/PMV

论文地址：https://arxiv.org/abs/2312.13746

视频分类作为基础的计算机视觉技术，对视频内容的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式，受到用户的广泛青睐。而竖屏的视频分类技术在目前的研究中鲜有关注，为了激发这一领域的研究，团队提出了一个专用的数据集 PortraitMode-400，包含真实的视频数据和 400 个结构化的类别标签。

进一步，通过自建数据和公开数据子集实验，团队初步展示了横屏数据和竖屏数据之间的不同，和独特的先验分布，并针对不同的技术点进行实验，提出了针对竖屏视频处理的技术方案。

团队首先从公开数据 Kinetics-700 中抽取包含竖屏视频数量的子集 S100-PM，并对应的抽取同等数量的横屏视频得到 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型（不含任何预训练），并在相同的测试集上进行公平测试，以观察竖屏和横屏视频所含的不同数据特性。

如下方所示，以上半为例，团队将 S100-PM 训练的模型在竖屏测试集上做滑窗测试（16x9 个不重叠的均匀分布的滑窗）得到 Probing-P，同样的可以得到 S100-LM 训练模型的测试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势，团队做差值图得到 c 图，黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的，团队可以得到下半所示的差值图，S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。

可以观察得到，在确保所有训练和测试条件一致的情况下，训练数据的不同带来准确率空间分布上的显著差异，而且差值呈哑铃状分布。

横屏与竖屏视频的不同，说明竖屏视频是一种不同于以往数据的新视频格式，有着不同的数据特性。为了进一步推动领域研究，团队提出了数据集 PortraitMode-400，通过自底向上的方式综合大量的热门搜索词，人工筛查和提取得到 400 个包含显著动作内容的类别集合，涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 个公开的竖屏视频链接，并已通过人工审查的方式确保数据的高质量可用。

此外，团队还真对竖屏视频数据的不同特性进行实验，以期提出一套合理有效的技术方案。为此，团队利用不同的模型类别，如 CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer）在竖屏数据上进行广泛实验。团队发现，与传统横屏数据处理相比，竖屏数据对数据预处理有着不一样的倾向。

如下图上半所示，在 CNN 模型下倾向于 Inception-style 方案，而在 Transformer 类模型下倾向于 shorter-side resize 方案。进一步的，团队发现更好的保持原始视频在训练时的长宽比，可以在同等测试条件下获得更好的准确率。

如下半所示，随着采样框长宽比增大，Transformer 类模型表现逐渐增强，而 CNN 模型表现相反。这些实验现象表明了，竖屏数据不同于横屏数据的特性；提供了不同模型架构下的训练偏好设置。

最后，团队还在时间信息显著性、音频模态重要性等方面进行了实验。发现时间信息的加入和音频模态的引入，都可以对竖屏数据的准确率带来不小的提升，展示了在相关领域的研究空间和可能性。

应用落地和展望

视频分类作为基础的计算机视觉技术，对视频内容的分类、特征提取，以及推荐等有着重要的作用。针对竖屏视频的专门研究可以进一步推动相关技术的发展，增强内容推荐等关键能力，进一步激发竖屏领域的其他类型研究，如生成等。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/134549.html

随机主题

运输利勃海尔956 喜迎开门红! 双巨头狂轰63+11+12, 欧文关键罚球太稳, 华子没办法 33+30+3三分，双超巨打疯，5人立功基德田忌赛马，东契奇伤情显现江苏: “夜经济”持续升温, 激活夜间消费活力无视美方停火敦促, 以色列空袭加沙, 80万难民被迫逃离澳新两国宣布撤侨后, 马克龙飞往这块法国海外属地锂电池产品在国际物流中的注意事项如果北约跟俄罗斯开火了，中国怎么办 A股忽然全线下跌，真正原因明眼人都懂？逆向思维，把握逢低时机国服开服后快人一步! 熊猫人之谜职业详细推荐, 赢在起跑线!美国移民局公布H1B最新数据, 留学生的移民途径不该只有一条和国家队退役冯极内部教学赛实景，对抗性非常高，能力差距有点大俄能源部: 俄罗斯4月产量因技术原因超过配额将提交补偿计划农民一次性补缴养老保险顶格15年, 下个月能领1500块养老金吗?阿布扎比ADGM 2024年第一季度管理资产破纪录为了面子, 贷款19万买了一辆SUV, 现在养不起了。上汽大众途观L Pro：开启燃油车智能化新篇章辽宁会给出D类顶薪续约? 付豪总决赛场均16+7巅峰一季梦幻西游: 雪山A哥买物暴伤害装备, 蝗虫家族向商人霸气喊话!向佐回应参加披荆斩棘，称帮郭碧婷一起赚奶粉钱#向佐 4年2.94亿! 亚历山大解锁超级续约资格合同年薪突破8000万大关

最新回复(0)