Fork me on GitHub

Awesome Word Spotting: A curated list of resources for word spotting

应用

语音唤醒,涉黄、涉暴、涉毒、涉堵图片检索,

相关工作

Attribute CNN:使用神经网络学习单词图像和属性表示间的映射。该方法的缺点是神经网络在训练分布外存在过度置信。即使Attribute CNN方法在许多常见的基准数据集中展示了卓越的性能,但是这是以需要训练数据为代价的。有些方法试图通过迁移学习和合并合成数据的方法来缓解数据问题,但是对于任何基于机器学习的方法来说,具有代表性的训练数据的必要性仍然是与生俱来的。
embedded attributes:属性嵌入和单词图像间的映射通过一系列的SVM学习到。这就允许将单词图像和字符串映射到一个常见的子空间,在这个子空间中,检索问题可以通过比较属性向量间的距离解决。
概率检索模型PRM:当在高维空间中,余弦相似度和欧氏距离无法提供一个鲁棒的距离度量的时候,PRM给出了查询和估计属性向量间的概率描述。

不同点

是否去做 segmentation-based 或者 segmentation-free 字定位

对于基于分割的字定位,假设可以利用已分割的单词图像,当面对现实生活中的实际问题时,这是一个不现实的猜想。而不需要分割的字定位只需要原始手稿页的图像。
基于分割的方法需要将文档页面分割成单独的单词图像,这通常不是一个容易解决的问题;如Attribute CNNs、embedded attributes。无分割方法并没有提出这一要求,而是联合解决检索和分割问题。
基于分割的字定位:PHOCNet,Embed attributes
无分割的字定位:Ctrl-F-Net

是否查询是一个手动裁剪的单词图像(QbE)还是单词字符串(QbS)

QbS 经常是优先选择,因为它不需要在搜索更多的情况之前,找到正在寻找的样例。

字定位的优先选择几乎总是无分割的QbS字定位

Word Spotting使文档图像可搜索。相比于文本识别来说,搜索功能是直接实现的,而不是一个复杂任务的副产品,因而是有效的。对于历史文档,自动分割是具有挑战的,由于写作风格的高可变性、文档布局、油墨与纸张的视觉外观。分割的方法在现代文档图像中很成功,如投影特征或连通分量,但是对于历史文档可能会失效,这些方法必须手工的调整到文档集合的特性。
只建立在连通分量上的文本检测器,有两个缺点。首先,检测器依赖于文档图像二值化,在历史文档图像中,由于褪色的墨水、低对比度和非均匀背景使得二值化变得困难,从而使检测不精确。其次,从连通分量中获得单词假设是困难的。因为连通分量只表示单词部分、单个单词或者多个单词,需要启发式的策略来合并连通分量。
联合解决分割与检索的字定位方法被称为无分割的方法。

CVPR2019

  1. An Alternative Deep Feature Approach to Line Level Keyword Spotting
    Retsinas G, Louloudis G, Stamatopoulos N, et al. An Alternative Deep Feature Approach to Line Level Keyword Spotting[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 12658-12666.
    作者:George Retsinas, Georgios Louloudis, Nikolaos Stamatopoulos, Giorgos Sfikas, Basilis Gatos
    被引用次数:0
    数字文档中关键字检索的深度特征方法,高效、存储要求低。
    NCSR “Demokritos”、希腊国立雅典理工大学、希腊约阿尼纳大学。

ICDAR2017

  1. Evaluating word string embeddings and loss functions for CNN-based word spotting
    Sudholt S, Fink G A. Evaluating word string embeddings and loss functions for CNN-based word spotting[C]//2017 14th iapr international conference on document analysis and recognition (icdar). IEEE, 2017, 1: 493-498.
    作者: Sebastian Sudholt, Gernot A. Fink
    被引用次数:26
  2. Ensembles for Graph-Based Keyword Spotting in Historical Handwritten Documents
    Stauffer M, Fischer A, Riesen K. Ensembles for graph-based keyword spotting in historical handwritten documents[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 714-720.
    作者: Michael Stauffer, Andreas Fischer, Kaspar Riesen
    被引用次数:10
    概要:
  3. Word Hypotheses for Segmentation-free Word Spotting in Historic Document Images
    Rothacker L, Sudholt S, Rusakov E, et al. Word hypotheses for segmentation-free word spotting in historic document images[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 1174-1179.
    作者: Leonard Rothacker, Sebastian Sudholt, Eugen Rusakov, Matthias Kasperidus, Gernot A. Fink
    被引用次数:9
    概要:本文提出了一种无分割的字定位方法,将极值区域ER框架与TPP-PHOCNet相结合。首先针对于确定的文档图像区域预测得分,这些得分反映了单个区域是否包含文本。然后用极值区域ER对这些得分的不确定性进行明确的建模。ER方法生成了单词边界框的假设。接着,使用TPP-PHOCNet预测PHOC表示。最后,通过一个最近邻搜索进行字定位。使用了三种生成局部文本得分的方法:(1)SIFT对比得分;(2)局部区域分类得分(LRC);(3)局部单词区域得分(AAM-PHOCNet)。在GW和ICFHR 2016 KWS比赛数据集(Botany和Konzilsprotokolle)上实现了和最好的方法相媲美的结果。
  4. LSDE: Levenshtein Space Deep Embedding for Query-by-string Word Spotting
    Gómez L, Rusinol M, Karatzas D. Lsde: Levenshtein space deep embedding for query-by-string word spotting[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 499-504.
    作者: Lluís Gómez, Marçal Rusiñol, Dimosthenis Karatzas
    被引用次数:7
  5. Query-by-Online Word Spotting Revisited Using CNNs for Cross-Domain Retrieval
    Sudholt S, Rothacker L, Fink G A. Query-by-online word spotting revisited: Using cnns for cross-domain retrieval[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 481-486.
    作者: Sebastian Sudholt, Leonard Rothacker, Gernot A. Fink
    被引用次数:2
  6. Assisted transcription of historical documents by keyword spotting: a performance model
    Santoro A, De Stefano C, Marcelli A. Assisted transcription of historical documents by keyword spotting: a performance model[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 971-976.
    作者: Adolfo Santoro, Claudio De Stefano, Angelo Marcelli
    被引用次数:2
  7. Nonlinear Manifold Embedding on Keyword Spotting using t-SNE
    Retsinas G, Stamatopoulos N, Louloudis G, et al. Nonlinear manifold embedding on keyword spotting using t-SNE[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 487-492.
    作者: George Retsinas, Nikolaos Stamatopoulos, Georgios Louloudis, Giorgos Sfikas, Basilis Gatos
    被引用次数:1
  8. R-PHOC: Segmentation-Free Word Spotting using CNN
    Ghosh S K, Valveny E. R-PHOC: Segmentation-Free Word Spotting using CNN[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 1: 801-806.
    作者: Suman Ghosh, Ernest Valveny
    被引用次数:1

ICDAR2019

  1. Training-Free and Segmentation-Free Word Spotting using Feature Matching and Query Expansion
    Vats E, Hast A, Fornés A. Training-Free and Segmentation-Free Word Spotting using Feature Matching and Query Expansion[C]//International Conference on Document Analysis and Recognition (ICDAR). 2019.
    作者: Ekta Vats, Anders Hast and Alicia Fornés
    被引用次数:
  2. KeyWord Spotting using Siamese Triplet Deep Neural Networks
    Eglin V, Serdouk Y, Bres S, et al. KeyWord Spotting using Siamese Triplet Deep Neural Networks[C]. 2019.
    作者: Yasmine Serdouk, Véronique Eglin and Stéphane Bres
    被引用次数:
  3. A Multi-oriented Chinese Keyword Spotter Guided by Text Line Detection

作者: Pei Xu, Shan Huang, Hongzhen Wang and Hao Song
被引用次数:

  1. Exploring Confidence Measures for Word Spotting in Heterogeneous Datasets
    Wolf F, Oberdiek P, Fink G A. Exploring Confidence Measures for Word Spotting in Heterogeneous Datasets[J]. arXiv preprint arXiv:1903.10930, 2019.
    作者: Fabian Wolf, Philipp Oberdiek and Gernot Fink
    被引用次数:
  2. Can One Deep Learning Model Learn Script-Independent Multilingual Word-Spotting?
    Eglin V, Serdouk Y, Bres S, et al. KeyWord Spotting using Siamese Triplet Deep Neural Networks[C]. 2019.
    作者: Mohammed Al-Rawi, Ernest Valveny and Dimosthenis Karatzas
    被引用次数:0

作者:
被引用次数:

0%