站长之家(ChinaZ.com) 5月25日消息:Meta AI Research 发布了 DINOv2 开源项目,这是一款用于计算机视觉(CV)任务的基础模型。DINOv2 在一个由 1.42 亿张图像构成的筛选数据集上进行了预训练,可用作图像分类、视频动作识别、语义分割和深度估计等多个任务的骨干模型。
(资料图片仅供参考)
Meta 基于 Vision Transformer(ViT)架构构建了该模型,并对其进行了自监督学习目标的修改。团队建立了一个自动化流程,从网络上获取图像并构建了一个筛选数据集来训练模型。其中一个重要的贡献是改进了训练过程,该方法的速度是之前方法的两倍,内存使用量减少了三分之一。在计算机视觉基准测试中,DINOv2 优于其他自监督学习(SSL)模型,并显示出与弱监督模型相媲美或更好的性能。根据 Meta 的说法:
展望未来,团队计划将该模型整合到一个更大、更复杂的人工智能系统中,该系统可以与大型语言模型进行交互。具备丰富图像信息的视觉骨干模型将使复杂的人工智能系统能够对图像进行比单一文本描述更深入的推理。以文本监督进行训练的模型最终受限于图像标题的内容。而使用 DINOv2,则没有这样的内置限制。
计算机视觉任务的深度学习模型通常依赖于带有人工注释的大型图像数据集,例如 ImageNet。2021 年,OpenAI 发布了 CLIP,这是一个使用弱监督训练方法的计算机视觉基础模型,其中的注释是通过爬取与源图像相关的 html 标签和其他网络元数据自动生成的。同年,Google 发布了 ViT 模型,它使用自监督学习进行训练。Meta 也发布了 DINO 的原始版本的研究成果,将 ViT 模型与知识蒸馏相结合,从而获得了性能相当但更小的模型。
对于 DINOv2,Meta 专注于收集更多训练数据并扩大训练过程。对于训练数据,Meta 从互联网上收集了 1.2B 个独特的图像,然后根据它们与 ImageNet 数据集中图像的相似性对它们进行聚类,以获得最终的 142M 图像集。为了扩大训练规模,Meta 实施了自定义版本的 FlashAttention,并使用 PyTorch 进行完全分片数据并行 (FSDP) 训练。总体而言,该项目消耗了大约 20 万个 GPU 日的计算量。
为了评估 DINOv2 作为基础模型的性能,该团队在各种 CV 任务上对其进行了测试,并将其与几个基线 SSL 模型以及 CLIP 等弱监督模型进行了比较。在 ImageNet-1k 分类任务上,DINOv2 与其他 SSL 模型相比表现出「非常显著的改进」,并且表现优于弱监督模型。它还在三个视频动作识别基准测试中创造了新的 SSL 最先进记录,并在实例级识别基准测试和三个单眼深度估计基准测试中表现优于基线。
在 Hacker News 关于这项工作的讨论中,一些用户称赞了 Meta 最近在计算机视觉方面的工作以及 PyTorch 等过去的贡献。有人确实注意到 Meta 围绕他们的工作进行交流的转变:
作为该领域的研究生,在 Yann LeCun 的内部倡导下,Meta 一直为开源机器学习工作做出了不小的贡献。最近发生变化的是他们的公关策略:[OpenAI] 基本上已经向所有人表明,如果你的宣传很糟糕,那么你是否有最好的模型并不重要。
GitHub 上提供了 DINOv2 代码和模型。该项目站点托管了使用 DINOv2 的多个计算机视觉任务的交互式演示。
DINOv2 开源模型 GitHub 地址:https://github.com/facebookresearch/dinov2
DINOv2 开源项目: https://dinov2.metademolab.com/
(举报)
标签:
DINOv2:MetaAI开源的自监督计算机视觉模型
中信建投证券研报指出,工业机器视觉是高技术壁垒、商业模式成熟、国产替代迅速、行业快速发展的优秀赛道。
1、韶关市0751北江区0751浈江区0751始兴县0751翁源县0751新丰县075
小伙伴们,你们好,今天小夏来聊聊一篇关于魔法公主的穿越之旅,关于魔法公主的穿越之旅简述的文章,网友们
认养农业受消费者青睐(主题)(工人日报-中工网记者杨召奎)“咱们平时在超市买的桃子,它的成熟度基本...
1、首先要查看该商品是否有生产和毒性检验证号、卫生许可证号以及是否注明产品使用的有效期限。2、了解产品
来为大家解答以下的问题,博士重装系统win10,韩博士重装系统这个很多人还不知道,现在让我们一起来看看吧!
每日小编都会为大家带来一些知识类的文章,那么今天小编为大家带来的是江阴天广科技有限公司怎么样方面的消
1、|32%-(1 32-7 10-0 32)=1 32-(1 32-0 32-0 7)=1 32-(1-0 7)=1
浙江省发改委、能源局与国网浙江电力联合发布“获得电力”专项提升十大举措,近日,浙江省发改委、能源局...
麻辣的凤胗片的做法:工具原料熟鸡胗约500克,青红椒适量,食用油适量,葱姜适量,老干妈适量,酱油适量蚝油
1、防静电材料主要有以下几种: 韩国防静电板 1 防静电有机玻璃板(防静电亚克力板) 2 防静电PVC
凡人修仙传人界篇仙缘是什么?凡人修仙传人界篇是IP正版授权3D国风修仙MMO手游,游戏中有一个仙缘玩法,不
会有很多塞尔达传说王国之泪童鞋想知道塞尔达传说王国之泪前期快速开启地底地图方法攻略,下面由第一资讯网
5月25日,在学生心理健康日来临之际,成都市教育局以五育融心从心启航为主题,在成都市树德实验中学启动成
河北一医院被曝给病人错输过期注射液2023年5月23日,媒体报道,一位在河北廊坊霸州市中医院住院的病人爆料
今天,大学路小编为大家带来了欧洲商学院院校排名欧洲高等商学院世界排名,希望能帮助到广大考生和家长,一
网友60岁办退休:缴费38年退休金3712元,自称很知足,网友60岁办退休:缴费38年退休金3712元,自己知足了!
1、买球让球的意思是买完球。2、结果双方让球的意思。本文到此分享完毕,希望对大家有所帮助。
教育部发布通知,今年将继续实施农村订单定向医学生免费培养,要求各地做好2023年中央财政支持中西部农村订