Task #4062
closedOCR - zhlukovanie stranok podla vizualneho obsahu, odstranenie grafickych artefaktov z okraju stranky
100%
Description
- analyzovat vizualny obsah okraju stranky a navrhnut postup zhlukovania stranok
- konzultovat zistene skutocnosti s veducim pracovnikom (MHR)
- prejednat s Honzom Zelinkom moznosti pouzitia jeho algoritmu pre odstranovanie artefaktov z okraju stranky
- vyskusat dany algoritmus na nase data + analyzovat vysledky/uspesnost
- konzultovat zistene vysledky s veducim pracovnikom (MHR)
Updated by Bureš Lukáš almost 8 years ago
- % Done changed from 0 to 80
- detekce radek - bude dolazeno
- detekce der - bude dolazeno
- konzultace byla provedena
Updated by Zajíc Zbyněk almost 8 years ago
- PNe detekce bloků v textu:
- natočení dokumentu, získání řádků,
- zahozena světlá místa = není text,
- označení bloků v textu -> ty rozpoznány Tesserackem (dva možné vstupy - binary nebo šedotón obraz) - dodělat -> spojit bloky na úrovni řádky (aby měl Tesserac větší kontext)
- PNe detekce děr po děrovačce
- pro spojení dokumentů patící do jedné série
- moc nefunguje - dodělat -> přidat informaci o historii předchozích i následujících obrázků a v nich existenci děr
-> pracovat s celou segvencí dokumentů v adresáři a v nich maximalizovat ppst. hypotézy jedné/více serií dokumentů
Updated by Neduchal Petr over 7 years ago
- % Done changed from 80 to 90
Zjištění z poslední fáze:
Detekce bloků:
- Hledání bloků samo o sobě nepřináší zlepšení výsledků. Dojde k tomu, že se některé znaky přečtou lépe za cenu toho, že se rozpoznání jiných zhorší. Stejně tak to dopadá s různými způsoby předzpracování. Dle vyhodnocení na anotovaném vzorku dokumentů se samotný tesseract dostal na 79%. Nejlepší nalezená úprava dosahla téměř 84%. Vzhledem k tomu, že těch cca 80% se u různých metod předzpracování skládá z části z jiných dobře rozpoznaných znaků, tak se jako logický krok zdá získání výsledků z více předzpracování a ty dále tanalyzovat. Z toho důvodu je momentálně dořešuje napojení na kód, který je schopen vrátit lattice (základní verze už nám funguje --> bude možné nagenerovat data pro zpracování textu.)
Detekce děr --> respektive detekce stejné části dokumentu v rámci jednoho svazku:
- Aktuálně v řešení.
Updated by Neduchal Petr over 6 years ago
Bylo vyzkoušeno shlukování postavené na SVM a s pomocí neuronové sítě. Obě metody dosahovaly úspěšnosti 70-74% oproti manuálně oanotovaným dokumentům pomocí SW.
Dalším krokem bylo vytvoření syntetizátoru dokumentů. Postup shrnut v článku na SPECOM 2018.
Updated by Neduchal Petr about 6 years ago
- Status changed from Assigned to Resolved
- % Done changed from 90 to 100
Práce na syntetizátoru dokumentů, z nich bude pravděpodobně možné natrénovat klasifikátor. Úspěšnost bez syntetizátoru viz předchozí aktualizace úkolu. Pro teď úkol nastavuji jako resolved jelikož za mě je práce hotová.
Updated by Zajíc Zbyněk about 5 years ago
- Status changed from Resolved to Closed