SGPN: Similarity Group Proposal Network for 3D Point Cloud Instance Segmentation-程序员宅基地

技术标签: python  机器学习  计算机视觉  深度学习  人工智能  论文  

摘要

我们介绍了相似性组提议网络(SGPN),这是一种用于点云上3D对象实例细分的简单直观的深度学习框架。  SGPN使用单个网络来预测点分组建议和每个建议的对应语义类,我们可以从中直接提取实例分割结果
   对于SGPN的有效性而言,重要的是其新颖的3D实例分割结果,以相似度矩阵的形式表示,该矩阵指示嵌入式特征空间中每对点之间的相似度,从而为每个点提供准确的分组建议。 在各种3D场景上的实验结果证明了我们的方法在3D实例分割中的有效性,并且我们还评估了SGPN改善3D对象检测和语义分割结果的能力。 我们还通过将2D CNN功能无缝集成到框架中以提高性能来证明其灵活性。

1. Introduction

最近,在2D图像上进行实例分割已经取得了可喜的成果[18,10,31,23]。 随着自动驾驶和机器人技术的兴起,近来对3D场景理解和3D场景数据可用性的需求迅速增长。 不幸的是,有关3D实例分割和对象检测的文献远远落后于2D实例。 使用卷积神经网络(CNN)[44、45、11]对3D体积数据的场景理解受到内存和计算成本高的限制。 最近,点云上的深度学习框架Point Net / Pointnet ++ [33,35]开辟了更高效,更灵活的方式来处理3D数据。
   继2D场景理解方面的开创性工作之后,我们的目标是为点云上的3D实例感知语义段开发端到端训练的新型深度学习框架,例如为2D场景理解任务建立baseline系统,是直观,简单,灵活和有效的。

在点云上进行实例分割的重要考虑因素是如何表示输出结果。 受到预测具有可变输出数量的任务的启发,我们引入了相似性小组提案网络(SGPN),该网络通过学习新的3D实例分段表示形式来制定对象实例的小组提案。 相似度矩阵。
   我们的pipeline首先使用PointNet / PointNet ++为点云中的每个点提取描述性特征向量。
   作为相似性度量学习的一种形式,我们强制执行以下想法:属于同一对象实例的点应具有非常相似的特征;例如, 因此,我们测量每对点的特征之间的距离,以形成一个相似度矩阵,该矩阵指示任何给定的点对是否属于同一对象实例。

我们的相似性矩阵中的行可以被视为立场候选者,我们将其与学习的置信度得分相结合,以生成合理的group proposals。
   我们还学习了语义分割图,以便对从小组建议中获得的每个对象实例进行分类
   我们还能够直接导出用于对象检测的紧密3D边界框
   通过简单地测量每对点的待定特征表示之间的距离,我们的相似度矩阵简化了我们的流程,因为我们仍然停留在通过点之间的关系定义对象的自然点云表示中。
   总而言之,SGPN具有三个输出分支,用于在点云上进行实例分割:相似矩阵生成按点分组建议,用于修剪这些建议的置信度图以及用于为每个组提供类别标签的语义分割图。
   我们在3D形状(ShapeNet [4])和真实3D场景(斯坦福室内语义数据集[1]和NYUV2 [42])上评估我们的框架,并证明SGPN在3D实例上取得了最新的成果 细分。 我们还进行了全面的实验,以展示SGPN在点云上实现3D语义分割和3D对象检测的高性能。 尽管简约框架已经给出了视觉上令人愉悦的结果(图1),但我们还展示了SGPN的灵活性,因为我们通过无缝集成RGBD图像中的CNN功能进一步提高了性能。


2.相关工作

2.1。 对象检测和实例分割

在2D图像上,对象检测[39、14、24、37、38、26、13、25]和实例分割[23、10、9、32、31]的最新进展取得了可喜的成果。 用于二维物体检测的R-CNN [15]通过引入区域提议作为候选物体区域建立了基线系统。
   更快的R-CNN [39]利用了CNN学习方案并提出了区域提议网络(RPN)。  YOLO [37]将图像分为网格,每个网格单元产生一个对象建议。 许多2D实例分割方法都是基于分割建议的。  DeepMask [31]学习生成分段提案,每个分段提案都具有相应的目标评分。 戴等。  [10]预测分段可以从边界框提议中做出贡献。 Mask R-CNN [18]通过在RPN顶部添加一个分支来生成对象遮罩以进行实例分割,从而扩展了快速R-CNN。
   在这些开创性的2D工作之后,出现了3D边界框检测框架[40、44、45、11、5]。Song和Xiao [45]使用体积CNN在体素化3D场景上创建3D RPN,然后针对每个方案在联合3D和2D对象识别网络中使用图像的颜色和深度数据。Deng和Latecki [11]仅基于RGBD图像外观特征对类3D边界框模型进行回归。  Armeni等[1]使用带有CRF的滑动形状方法在点云上执行3D对象检测。 据我们所知,没有以前的工作可以学习3D实例分割。

 2.2。  3D深度学习

卷积神经网络可以通过对体素执行卷积来完成某些任务,例如对象分类[34、48、27、51、41、29、30],形状重构[49、17、8],从而很好地将3D泛化为3D 以及第2.1节中提到的3D对象检测。 但是,体积表示法具有很高的存储和计算成本,并且在处理3D场景时有很大的局限性[7,1,46]。 最近已经引入了基于八进制的CNN [41、47、48],但是它们不像批量CNN那样灵活,并且仍然存在内存效率问题。
   点云是一种直观的,内存高效的3D表示形式,非常适合于使用深度学习来表示3D实例细分的详细大场景。  Point Net / Pointnet ++ [33,35]最近介绍了在3D点云上的深层神经网络,学习了对象分类,零件和语义场景分割等任务的成功结果。 我们基于PointNet / PointNet ++建立网络架构,从而实现了一种学习点云上3D实例分割的新颖方法。

2.3。 相似度度量学习

我们的工作也与相似度度量学习密切相关,相似度学习已广泛用于深度学习中的各种任务,例如人员重新识别[52],匹配[16],图像检索[12、50]和 人脸识别[6]。
   通过测量两个输入图像的相似度,将暹罗CNN [6、43、3]用于诸如跟踪[22]和单次学习[20]之类的任务。 亚历杭德罗等 al [28]引入了一种联合嵌入方法,通过强制同一组中的像素在其嵌入空间中应具有相似的值,而无需实际执行那些确切的值,从而将相似的像素分组以进行多人姿势估计和2D实例分割。 应该。 我们的方法以不同的方式利用度量学习,因为我们回归了属于同一组的两个点的相似似然度,并将相似度矩阵作为组提案来模拟以处理可变数量的实例。

3.方法

本文的目的是获取一个3D点云,并为每个点生成一个对象实例标签,为每个实例生成一个类标签。

利用点云深度学习的最新发展[33,35],我们引入了一个相似性组提议网络(SGPN),该网络使用3D点云并输出一组实例建议,每个实例建议都包含点组 在实例及其类标签中。 

第3.1节介绍了SGPN的设计和属性。  3.2节提出了一种算法,用于合并相似的组并为每个点分配一个实例标签。  3.3节给出了实现细节。图2描绘了我们系统的概述。


 3.1。Similarity Group Proposal Network

SGPN是一个非常简单直观的框架。 如图2所示,它首先通过PointNets [33,35]启发的前馈特征提取网络传递大小为Np的点云P,学习点云中的全局和局部特征。 这个特征提取网络产生一个矩阵F.然后SGPN分成三个分支,每个分支使F通过单个PointNet层以获得大小为Np×Nf的特征矩阵FSIM,FCF和FSEM,我们分别使用它们来获得相似性矩阵, 置信度图和语义分割图。  Np×Nf特征矩阵中的第i行是Nf维向量,表示嵌入特征空间中的点Pi。 我们的损失L由以下三个分支的损失之和得出:L = LSIM + LCF + LSEM。 、
   相似度矩阵我们提出了一个新颖的相似度矩阵S,从中我们可以制定group proposal来直接恢复准确的实例分割结果。  S是维Np×Np,元素Sij对点Pi和Pj是否属于同一对象实例进行分类。
   S的每一行都可以视为构成候选对象实例的建议的点组合。
   我们利用属于同一对象的点应该具有相似的特征,并且在特征空间中非常接近。 对于每对点{Pi,Pj},我们通过简单地减去它们对应的特征向量{FSIMi,FSIMj}并采用L2范数,获得S。 这样可以将实例分割的问题减少到学习一个嵌入空间,该空间中同一实例中的点彼此靠近,而不同对象实例中的点彼此远离。
   为了更好地理解SGPN如何捕获点之间的相关性,在图3(a)中,我们可视化了给定点与点云中其余点之间的相似度(特征空间中的欧式距离)。 在不同情况下的点在特征空间中具有更大的欧氏距离,因此,即使它们具有相同的语义标签,其相似性也较小。 例如,在图3(a)的右下角图像中,尽管给定的桌腿点与其他桌腿点的相似度比桌面大,但仍可与其他桌腿区分开。

5.结论

我们提出了SGPN,这是一种用于点云上3D实例分割的直观,简单且灵活的框架。
   通过引入相似度矩阵作为我们的输出表示,可以轻松地从单个网络中生成具有类预测的group proposal。 实验表明,该算法在各种3D场景的实例分割中均能取得良好的性能,并简化了3D对象检测和语义分割的任务
   未来的工作尽管相似度矩阵可以提供直观的表示和易于定义的损失函数,但SGPN的局限性在于,随着Np的增加,相似度矩阵的大小将呈二次方缩放。 因此,尽管比体积方法具有更高的存储效率,但SGPN无法处理105点或更多点上的超大场景。 未来的研究方向可以考虑使用基于SGPN选择的种子来生成组,以减少相似性矩阵的大小。  SGPN也可以扩展到将来的工作中,以在无人监督的情况下学习或学习实例分割以外的更多不同类型的数据表示。

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_32146369/article/details/106129259

智能推荐

5个超厉害的资源搜索网站,每一款都可以让你的资源满满!_最全资源搜索引擎-程序员宅基地

文章浏览阅读1.6w次,点赞8次,收藏41次。生活中我们无时不刻不都要在网站搜索资源,但就是缺少一个趁手的资源搜索网站,如果有一个比较好的资源搜索网站可以帮助我们节省一大半时间!今天小编在这里为大家分享5款超厉害的资源搜索网站,每一款都可以让你的资源丰富精彩!网盘传奇一款最有效的网盘资源搜索网站你还在为找网站里面的资源而烦恼找不到什么合适的工具而烦恼吗?这款网站传奇网站汇聚了4853w个资源,并且它每一天都会持续更新资源;..._最全资源搜索引擎

Book类的设计(Java)_6-1 book类的设计java-程序员宅基地

文章浏览阅读4.5k次,点赞5次,收藏18次。阅读测试程序,设计一个Book类。函数接口定义:class Book{}该类有 四个私有属性 分别是 书籍名称、 价格、 作者、 出版年份,以及相应的set 与get方法;该类有一个含有四个参数的构造方法,这四个参数依次是 书籍名称、 价格、 作者、 出版年份 。裁判测试程序样例:import java.util.*;public class Main { public static void main(String[] args) { List <Book>_6-1 book类的设计java

基于微信小程序的校园导航小程序设计与实现_校园导航微信小程序系统的设计与实现-程序员宅基地

文章浏览阅读613次,点赞28次,收藏27次。相比于以前的传统手工管理方式,智能化的管理方式可以大幅降低学校的运营人员成本,实现了校园导航的标准化、制度化、程序化的管理,有效地防止了校园导航的随意管理,提高了信息的处理速度和精确度,能够及时、准确地查询和修正建筑速看等信息。课题主要采用微信小程序、SpringBoot架构技术,前端以小程序页面呈现给学生,结合后台java语言使页面更加完善,后台使用MySQL数据库进行数据存储。微信小程序主要包括学生信息、校园简介、建筑速看、系统信息等功能,从而实现智能化的管理方式,提高工作效率。

有状态和无状态登录

传统上用户登陆状态会以 Session 的形式保存在服务器上,而 Session ID 则保存在前端的 Cookie 中;而使用 JWT 以后,用户的认证信息将会以 Token 的形式保存在前端,服务器不需要保存任何的用户状态,这也就是为什么 JWT 被称为无状态登陆的原因,无状态登陆最大的优势就是完美支持分布式部署,可以使用一个 Token 发送给不同的服务器,而所有的服务器都会返回同样的结果。有状态和无状态最大的区别就是服务端会不会保存客户端的信息。

九大角度全方位对比Android、iOS开发_ios 开发角度-程序员宅基地

文章浏览阅读784次。发表于10小时前| 2674次阅读| 来源TechCrunch| 19 条评论| 作者Jon EvansiOSAndroid应用开发产品编程语言JavaObjective-C摘要:即便Android市场份额已经超过80%,对于开发者来说,使用哪一个平台做开发仍然很难选择。本文从开发环境、配置、UX设计、语言、API、网络、分享、碎片化、发布等九个方面把Android和iOS_ios 开发角度

搜索引擎的发展历史

搜索引擎的发展历史可以追溯到20世纪90年代初,随着互联网的快速发展和信息量的急剧增加,人们开始感受到了获取和管理信息的挑战。这些阶段展示了搜索引擎在技术和商业模式上的不断演进,以满足用户对信息获取的不断增长的需求。

随便推点

控制对象的特性_控制对象特性-程序员宅基地

文章浏览阅读990次。对象特性是指控制对象的输出参数和输入参数之间的相互作用规律。放大系数K描述控制对象特性的静态特性参数。它的意义是:输出量的变化量和输入量的变化量之比。时间常数T当输入量发生变化后,所引起输出量变化的快慢。(动态参数) ..._控制对象特性

FRP搭建内网穿透(亲测有效)_locyanfrp-程序员宅基地

文章浏览阅读5.7w次,点赞50次,收藏276次。FRP搭建内网穿透1.概述:frp可以通过有公网IP的的服务器将内网的主机暴露给互联网,从而实现通过外网能直接访问到内网主机;frp有服务端和客户端,服务端需要装在有公网ip的服务器上,客户端装在内网主机上。2.简单的图解:3.准备工作:1.一个域名(www.test.xyz)2.一台有公网IP的服务器(阿里云、腾讯云等都行)3.一台内网主机4.下载frp,选择适合的版本下载解压如下:我这里服务器端和客户端都放在了/usr/local/frp/目录下4.执行命令# 服务器端给执_locyanfrp

UVA 12534 - Binary Matrix 2 (网络流‘最小费用最大流’ZKW)_uva12534-程序员宅基地

文章浏览阅读687次。题目:http://acm.hust.edu.cn/vjudge/contest/view.action?cid=93745#problem/A题意:给出r*c的01矩阵,可以翻转格子使得0表成1,1变成0,求出最小的步数使得每一行中1的个数相等,每一列中1的个数相等。思路:网络流。容量可以保证每一行和每一列的1的个数相等,费用可以算出最小步数。行向列建边,如果该格子是_uva12534

免费SSL证书_csdn alphassl免费申请-程序员宅基地

文章浏览阅读504次。1、Let's Encrypt 90天,支持泛域名2、Buypass:https://www.buypass.com/ssl/resources/go-ssl-technical-specification6个月,单域名3、AlwaysOnSLL:https://alwaysonssl.com/ 1年,单域名 可参考蜗牛(wn789)4、TrustAsia5、Alpha..._csdn alphassl免费申请

测试算法的性能(以选择排序为例)_算法性能测试-程序员宅基地

文章浏览阅读1.6k次。测试算法的性能 很多时候我们需要对算法的性能进行测试,最简单的方式是看算法在特定的数据集上的执行时间,简单的测试算法性能的函数实现见testSort()。【思想】:用clock_t计算某排序算法所需的时间,(endTime - startTime)/ CLOCKS_PER_SEC来表示执行了多少秒。【关于宏CLOCKS_PER_SEC】:以下摘自百度百科,“CLOCKS_PE_算法性能测试

Lane Detection_lanedetectionlite-程序员宅基地

文章浏览阅读1.2k次。fromhttps://towardsdatascience.com/finding-lane-lines-simple-pipeline-for-lane-detection-d02b62e7572bIdentifying lanes of the road is very common task that human driver performs. This is important ..._lanedetectionlite

推荐文章

热门文章

相关标签