谷歌AI通过观看视频能够正确识别人的行为

网络技术 李胜利 2017-10-27 10:17 93 1 0

  谷歌目前正在利用原子视觉动作(AVAs)数据库训练AI。通过识别学习57000个包含80种不同类型人类行为的YouTube影视片段视频,算法可以理解握手、拥抱、弹唱等多种人类行为,并进一步预测伴随行为。

6106a4f0gy1fku9jfnknsj20hm0al7hy.jpg

  这项计算机视觉领域的突破性成果不仅可以帮助YouTube审核视频,还有助于广告公司根据用户行为制定营销方案。

  据 Google Research Blog 介绍,AVA 的分析样本主要是 Youtube 中的影视类视频。Google 先从这些视频中收集大量不同的长序列内容,并从每个视频中截取 15 分钟,并将这些 15 分钟片段再平均分成 300 个不重叠的 3 秒片段,同时在采样时让动作顺序和时间顺序保持一致。

6106a4f0gy1fku9n71pcfj219w0sgx6p.jpg

  接下来则需要手动标记每个 3 秒片段中间帧边界框中的每个人,从 80 个原子动作(atomic action)中选择合适的标签(包括行走、握手、拥抱等)给这些人物行为进行标注。

  Google 把这些行为分成了三组,分别是姿势/移动动作、人物交互和人与人互动。目前 AVA 已经分析了 570000 个视频片段,标记了 96000 个人类动作,并生成了 21000 个动作标签。

  在 AVA 的数据分析中,会对每个视频片段的每个人物动作进行识别,也发现了人类的的行为往往不是单一的。

  统计至少带有两个动作标签的人物数据,就可以分析人类不同动作一起出现的频率,在 AVA 的文档中称之为共现模式(co-occurrence pattern) 。

评论区

精彩评论
  • 2017-10-27 11:19:12

    谷歌这是要从 Mobile First(移动第一)转向 AI First (人工智能第一)

    搜索