公司动态

视觉AI能力大欧亿体育一统自动化图像检测分割还能可控文生图

作者:小编 点击: 发布时间:2023-04-15 12:11:20

  这不,Meta的SAM刚刚推出几天,就有国内程序猿来了波buff叠加,把目标检测、分割、生成几大视觉AI功能all in one欧亿体育!

  比如基于Stable Diffusion和SAM,就能让照片中的椅子无缝换成沙发:

  简单来说,这就是一个zero-shot视觉应用,只需要输入图片,就能自动化检测和分割图像。

  该研究来自IDEA研究院(粤港澳大湾区数字经济研究院),创始人兼理事长为沈向洋欧亿体育。

  它可以为图像/视频中的任何物体生成mask,包括训练过程中没出现过的物体和图像欧亿体育。

  通过让SAM对于任何提示都返回有效的mask, 能够让模型在即使提示是模糊的或者指向多个对象的情况下,输出也应该是所有可能中一个合理的mask。这一任务用于预训练模型并通过提示解决一般的下游分割任务。

  模型框架主要由一个图像编码器、一个提示编码器和一个快速mask解码器组成。在计算图像嵌入后,SAM能够在50毫秒内根据web中的任何提示生成一个分割。

  二者结合后,可以通过文本描述找到图片中的任意物体,然后通过SAM强大的分割能力,细粒度地分割出mask.

  在这些能力之上,他们还叠加了Stable Diffusion的能力,也就是开头所展示的可控图像生成。

  值得一提的是,Stable Diffusion此前也能够实现类似功能。只要涂抹掉想替换的图像元素,再输入文本提示就可以。

  这一回,Grounded SAM能够省去手动选区这个步骤,直接通过文本描述来控制。

  具体食用方法也已在GitHub上给出。项目需要Python 3.8以上版本,pytorch 1.7以上版本,torchvision 0.8以上版本,并要安装相关依赖项。具体内容可看GitHub项目页。

  公开消息显示,该研究院是一所面向人工智能、数字经济产业及前沿科技的国际化创新型研究机构,前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

  构成一个自动生成图像标签、box和mask的pipeline,并能生成新的图像。

  值得一提的是,该项目的团队成员中,有不少都是知乎AI领域活跃的答主,这次也在知乎上自答了关于Grounded SAM的内容,感兴趣的童鞋可以去留言请教~

  原标题:《视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。欧亿体育欧亿体育


相关标签:
热门产品