Awesome Word Spotting: A curated list of resources for word spotting 发表于 2019-09-09 | 分类于 Word Spotting | 次阅读 Word Spotting 历年论文整理 阅读全文 »
AAAI2019 | 旷视提出任意形状的场景文本检测方法:SPCNet 发表于 2019-07-09 | 分类于 文本检测 | 次阅读 本文基于Mask RCNN,利用实例分割来检测任意形状的文本。主要通过引入上下文语义信息和重得分机制来抑制文本实例的误检。在许多场景文本基准集上的结果证明了这个方法的有效性与泛化能力。 阅读全文 »
CVPR2017 | 旷视提出自然场景文本检测方法:EAST 发表于 2019-07-08 | 分类于 文本检测 | 次阅读 本文提出了由全卷积网络(FCN)和非极大值抑制(NMS)两个阶段组成的场景文本检测方法,可以直接预测图像中任意方向与四边形形状的单词或文本行,消除了如候选区域聚合、文本分割等冗余过程,减少了检测时间。优点是可以检测不同方向的文本块;缺点是由于感受野不够长,对长文本的检测效果不好。 阅读全文 »
未知2018 | 北理、旷视、北大联合提出PAN,用于语义分割 发表于 2019-07-05 | 分类于 语义分割 | 次阅读 本文提出了一种金字塔注意力网络(PAN,Pyramid Attention Network),利用图像全局的上下文信息来解决语义分割问题。主要将注意力机制和空间金字塔相结合,来提取准确而密集的特征并获取像素标签。具体来说,引入了一个特征金字塔注意力模块(FPA,Feature Pyramid Attention module),在高层的输出上施加空间金字塔注意力结构,并结合全局池化策略来学习更好的特征表示。此外,利用每个解码器层中的全局注意力上采样模块(GAU,Global Attention Upsample module)得到的全局上下文特征信息,作为低阶特征的指导,以此来筛选不同类别的定位细节。在PASCAL VOC 2012数据集上实现了最先进的性能。 阅读全文 »
WACV2018 | 微软亚研院提出带PAN的基于Mask R-CNN的场景文本检测方法 发表于 2019-07-04 | 分类于 文本检测 | 次阅读 本文提出了一个基于Mask R-CNN的文本检测方法,可以检测多方向的和曲线文本。为了增强Mask R-CNN用于文本检测任务的特征表示能力,首次将PAN用于Mask R-CNN的主干网络,实验证明PAN可以有效抑制类文本的背景的误报。不足之处是PAN主干网与Mask R-CNN框架的计算量大,速度慢;并且受RPN生成的矩形建议框的限制,对于倾斜的紧邻长文本行预测效果不好。 阅读全文 »
CVPR2018 | 旷视科技提出通过角点定位与区域分割来检测多方向的文本 发表于 2019-07-01 | 分类于 文本检测 | 次阅读 本文提出通过定位文本边界框的角点和分割文本区域来检测场景文本。角点检测是通过一个类似DSSD网络来提取候选文本区域,可以很好的解决文本方向任意、文本长宽比多变的问题。区域分割是利用类似于RFCN划分网格的方式,做位置感知分割,对于检测字符、单词、文本行等多种文本粒度更有帮助。将检测与分割两类方法组合起来,进行综合得分,可以进一步提高检测精度。 阅读全文 »
CNN网络结构的发展:从LeNet到EfficientNet 发表于 2019-06-17 | 分类于 CNN | 次阅读 CNN基本部件介绍与经典网络结构介绍(LeNet5-->AlexNet-->VGG-->Inception-->Xception-->MobileNet-->EffNet-->EfficientNet-->ResNet-->ResNeXt-->DenseNet-->SqueezeNet-->ShuffleNet-->SENet-->SKNet) 阅读全文 »