s*************
Lv.3 学术文献阅读达人
2020/08/20 23:04
Aug 第十六天
今日阅读:
FCOS和R2CNN
R2CNN算法的整体结构,主要是在Faster RCNN算法的基础上做了一些修改:1、ROI Pooling时的尺寸除了7*7外,还有两种长宽不一致的尺寸:3*11和11*3,这种设置的用意也非常明显,就是为了解决水平和竖直长文本的检测。然后对于提取到的ROI特征做cancat操作进行融合作为后续预测支路的输入。2、预测输出有3个支路,第一个支路是有无文本的二分类,这个和目标检测算法中的目标分类类似。第二个支路是水平框(axis-aligned box)的预测,这个和目标检测算法中的框预测一样。第三个支路时倾斜框(inclined box)的预测,这部分是这篇文章的亮点,而且该支路后面跟一个NMS进行处理得到最后结果。至于RPN网络部分输出的ROI则和常规目标检测中RPN网络输出的ROI一样,都是水平方向。另外这篇文章其实还增加了一些小尺寸的anchor提升对小文本的检测效果。所以R2CNN算法最后既有常规的水平预测框输出,也有倾斜框输出,这两种框都是基于RPN网络输出的ROI得到的,虽然倾斜框支路也能预测水平框,但是作者认为第二个支路的存在对最后结果帮助较大。

学术文献

作者: 国防科技大学图书馆
领书计划详情
2人点赞
读者留言 (0) 写留言
下面没有了
回复 关闭