中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 4.2K+星-世界焦点
2023-07-04 10:21:05    商业新知网
来源:量子位

比Meta的「分割一切模型」(SAM)更快的图像分割工具,来了!

最近中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。

该成果在Github已经获得2.4K+次星标,在Twitter、PaperswithCode等平台也受到了广泛关注。


(资料图片仅供参考)

相关论文预印本现已发表。

以下内容由投稿者提供

视觉基础模型 SAM[1]在许多计算机视觉任务中产⽣了重⼤影响。它已经成为图像分割、图像描述和图像编辑等任务的基础。

然⽽,其巨⼤的计算成本阻碍了它在实际场景中的⼴泛应⽤。

最近,中科院⾃动化所提出并开源了⼀种加速替代⽅案 FastSAM。

通过将分割⼀切任务重新划分为全实例分割和提⽰指导选择两个⼦任务,⽤带实例分割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度实现了与SAM⽅法相当的性能,是⾸个实时分割⼀切的基础模型。

意义与动机

SAM 的出现带动了 “分割⼀切”(Segment Anything)任务的发展。这⼀任务由于其泛化性和可扩展性,有很⼤可能成为未来⼴泛视觉任务的基础。

FastSAM 为该任务提供了⼀套实时解决⽅案,进⼀步推动了分割⼀切模型的实际应⽤和发展。

本⽂将“分割⼀切”任务解耦为全实例分割和提⽰引导选择两阶段,通过引⼊⼈⼯先验结构,在提速 50 倍的情况下实现了与 SAM 相近的表现。

FastSAM 的优秀表现为视觉任务的架构选择提供了新的视角——对于特定任务,专用模型结构或许在计算效率和精确度上仍具有优势。

从模型压缩的⾓度看,FastSAM 也证明了基于大模型产生高质量数据,通过引⼊⼈⼯先验结构大幅降低计算复杂度的路径的可⾏性。

示例

Web DEMO

在 HuggingFace 的 Space 中,你可以快速体验 FastSAM 的分割效果。

你可以上传一张自定义的图片,选择模式并设置参数,点击分割按钮,就可以得到一个满意的分割结果。

现在支持一切模式和点模式的交互,其他模式将在未来尝试支持。在 Replicate 上已支持所有模式的在线体验。

多种交互⽅式

FastSAM目前共支持三种交互方式。

多点交互模式

FastSAM ⽀持多个带有前景/背景标签的点交互模式,可以很好地适应不同场景的应⽤需求。

以缺陷检测场景为例,只需对缺陷部位添加前景点,对正常药丸部分添加背景点,即可准确地检测出物体缺陷。

框交互模式

FastSAM 也⽀持框交互模式。也以缺陷检测为例,只需对缺陷⼤致位置进⾏框选,即可准确检测出物体缺陷。

⽂本交互模式

FastSAM 也⽀持并开源了⽂本交互模式。通过不同的⽂本提示,FastSAM可以准确分割出不同颜⾊的⼩狗。

工作原理

如下图所示,FastSAM 的网络架构可分为两个阶段:全实例分割和提示引导选择。

在全实例分割阶段,FastSAM 使用卷积神经网络来对图像中的所有对象或区域进行划分。

在提示引导选择阶段,它采用包括点提示、框提示和文本提示的各种提示来选出关注对象。

与基于Transformer的方法不同,FastSAM融合了与视觉分割任务紧密相关的先验知识,例如局部连接和对象分配策略。这使得它以更低地参数量和计算量下更快地收敛。

定性与定量分析

测试结果表明,FastSAM各方面的表现完全不输于Meta的原始版本。

速度

从表中可以看出,FastSAM 取得了远超 SAM 的速度表现,在「分割⼀切」模式下,SAM的速度会受到均匀点提⽰数量的影响,⽽ FastSAM 由于结构的特点,运⾏时间不随点提⽰数量的增加⽽增加,这使得它成为「分割⼀切」模式的更好选择。

同时,由于 FastSAM 在结构设计中利⽤了⼈的先验知识,使得它在实时推理的同时也具备了与 SAM 相当的性能。

边缘检测

下图展⽰了具有代表性的边缘检测结果。经过定性观察可以看出,尽管FastSAM的参数明显较少(只有68M),但它也能产⽣很⾼质量的边缘检测结果。

从下表可以看出,FastSAM 取得了与 SAM 类似的性能。与 Ground Truth 相⽐,FastSAM和 SAM 都倾向于预测更多的边缘,这种偏差在表中得到了定量的反映。

物体候选

从下表可以看出,FastSAM 在 bbox AR@1000 的表现上超过了计算量最⼤的 SAM 模型(SAM-H E64),仅次于在 LVIS 数据集上监督训练的 ViTDet-H[2]

可视化结果

SA-1B 分割结果:下图展⽰了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的分割结果。

下游应⽤对⽐:下⾯三张图对⽐了 FastSAM 和 SAM 在异常检测、显著物体分割和建筑物提取三个下游任务的效果,FastSAM 在不同模式下均取得了和 SAM 相当的表现。

关键词:

下一篇: 最后一页
上一篇: 全球最资讯丨张焕华主任:精神分裂和人格分裂到底有什么不一样?

中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 4.2K+星-世界焦点

全球最资讯丨张焕华主任:精神分裂和人格分裂到底有什么不一样?

日元暴跌至151.94的32年低点 预计日本将有干预行动-每日速讯

关注!海南儋州“村VA”火热开赛 7日进行决赛|焦点信息

法媒:抵制高尔夫球场,西班牙一环保组织填平10个球场球洞-当前动态

全球快播:启功书法 关于启功书法的介绍

中青报谈文字失语症:别让垃圾短视频废了可思化

全球今亮点!足球是何时进入奥运会赛场_足球是何时进入奥运赛场的

呼叫保持服务是对方在接电话吗_呼叫保持

双性人真实图_双性人生殖图|当前热文

明天萌兰过生日!北京动物园准备了限定礼,速领!

快讯:国家衔接资金绩效评价考核 湖南连续七年排名全国前列

玩心跳的私募 任泽松在管基金 5 天回撤近 30%_全球快资讯

天天速读:华辰装备最新公告:实控人拟减持不超10%股份引入长期合作伙伴

客战27轮不败成都队,国安队派出全新攻击组合 世界聚看点

天天热讯:北交所2023年上半年成绩单:42家企业上市募资82亿元 战投半年收益率12.8%

最新消息:天山铝业:22.96亿股限售股将于7月7日解禁上市 占公司总股本的49.36%

每日热门:2023河南省毕业学年困难毕业生求职创业补贴什么时候发放

神州数码:公司生产的AI服务器采用华为昇腾芯片

环球消息!青海海东:为敢想的人“开绿灯” 为敢干的人“兜住底”

中国电信海南公司圆满完成演唱会通信保障任务-环球百事通

博云新材(002297)7月3日主力资金净卖出346.27万元

世界即时:保龄宝:非糖甜味剂再惹争议 代糖市场或迎大洗牌

天天快资讯:俄联邦安全局挫败一起针对克里米亚地区领导人的暗杀企图

环球热点评!ST步森(002569)7月3日主力资金净卖出39.71万元

世界球精选!通用非即插即用监视器 什么意思_通用非即插即用监视器

毕业典礼,经开实小学子感恩成长向未来_热推荐

南方早稻陆续收获 夏粮收购加紧进行|世界速看料

对行情涨跌的反应,暴露了你的投资水平 天天观焦点

2023年全国部分省市高考状元一览表,各省市状元之间到底谁更厉害?_全球简讯

华为P60 Pro要出新版 真机曝光

7月3日华东港口甲醇市场最新动态

科华数据不超14.9亿可转债获深交所通过 广发证券建功

荷兰正式官宣新决定,外媒:ASML不想看到的是事情还是发生了

全球简讯:“内部人”重仓的基金 靠什么实现3年1倍收益——访天弘基金大周期制造投资总监谷琦彬

关注:北戴河二日游跟团68块_北戴河二日游攻略