Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Actions

Task #4062

closed

OCR - zhlukovanie stranok podla vizualneho obsahu, odstranenie grafickych artefaktov z okraju stranky

Added by Hrúz Marek about 8 years ago. Updated about 5 years ago.

Status:
Closed
Priority:
Normal
Assignee:
Start date:
20.10.2016
Due date:
25.11.2016
% Done:

100%

Estimated time:
40.00 h

Description

- analyzovat vizualny obsah okraju stranky a navrhnut postup zhlukovania stranok
- konzultovat zistene skutocnosti s veducim pracovnikom (MHR)

- prejednat s Honzom Zelinkom moznosti pouzitia jeho algoritmu pre odstranovanie artefaktov z okraju stranky
- vyskusat dany algoritmus na nase data + analyzovat vysledky/uspesnost
- konzultovat zistene vysledky s veducim pracovnikom (MHR)

Actions #1

Updated by Bureš Lukáš almost 8 years ago

  • % Done changed from 0 to 80

- detekce radek - bude dolazeno
- detekce der - bude dolazeno
- konzultace byla provedena

Actions #2

Updated by Zajíc Zbyněk almost 8 years ago

Ze schůzky [[https://wikky.zcu.cz/redmine/projects/naki-ii-ustr/wiki/Schuzka16-10-03]]:
  • PNe detekce bloků v textu:
    - natočení dokumentu, získání řádků,
    - zahozena světlá místa = není text,
    - označení bloků v textu -> ty rozpoznány Tesserackem (dva možné vstupy - binary nebo šedotón obraz)
  • dodělat -> spojit bloky na úrovni řádky (aby měl Tesserac větší kontext)
  • PNe detekce děr po děrovačce
    - pro spojení dokumentů patící do jedné série
    - moc nefunguje
  • dodělat -> přidat informaci o historii předchozích i následujících obrázků a v nich existenci děr
    -> pracovat s celou segvencí dokumentů v adresáři a v nich maximalizovat ppst. hypotézy jedné/více serií dokumentů
Actions #3

Updated by Neduchal Petr over 7 years ago

  • % Done changed from 80 to 90

Zjištění z poslední fáze:

Detekce bloků:
- Hledání bloků samo o sobě nepřináší zlepšení výsledků. Dojde k tomu, že se některé znaky přečtou lépe za cenu toho, že se rozpoznání jiných zhorší. Stejně tak to dopadá s různými způsoby předzpracování. Dle vyhodnocení na anotovaném vzorku dokumentů se samotný tesseract dostal na 79%. Nejlepší nalezená úprava dosahla téměř 84%. Vzhledem k tomu, že těch cca 80% se u různých metod předzpracování skládá z části z jiných dobře rozpoznaných znaků, tak se jako logický krok zdá získání výsledků z více předzpracování a ty dále tanalyzovat. Z toho důvodu je momentálně dořešuje napojení na kód, který je schopen vrátit lattice (základní verze už nám funguje --> bude možné nagenerovat data pro zpracování textu.)

Detekce děr --> respektive detekce stejné části dokumentu v rámci jednoho svazku:
- Aktuálně v řešení.

Actions #4

Updated by Neduchal Petr over 6 years ago

Bylo vyzkoušeno shlukování postavené na SVM a s pomocí neuronové sítě. Obě metody dosahovaly úspěšnosti 70-74% oproti manuálně oanotovaným dokumentům pomocí SW.

Dalším krokem bylo vytvoření syntetizátoru dokumentů. Postup shrnut v článku na SPECOM 2018.

Actions #5

Updated by Neduchal Petr about 6 years ago

  • Status changed from Assigned to Resolved
  • % Done changed from 90 to 100

Práce na syntetizátoru dokumentů, z nich bude pravděpodobně možné natrénovat klasifikátor. Úspěšnost bez syntetizátoru viz předchozí aktualizace úkolu. Pro teď úkol nastavuji jako resolved jelikož za mě je práce hotová.

Actions #6

Updated by Zajíc Zbyněk about 5 years ago

  • Status changed from Resolved to Closed
Actions

Also available in: Atom PDF