Problematické faktury — jak AI zvládá nestandardní doklady

Fotky z mobilu, skenované dokumenty, rukou psané účtenky. Jak si AI poradí s nestandardními doklady? Praktické tipy a reálné příklady.

Problematické faktury — jak AI zvládá nestandardní doklady

Pondělí ráno. Otevřete email a čeká vás faktura od subdodavatele — PDF vytvořené z fotky pořízené mobilem, navíc otočené na výšku, s prstem v rohu snímku. Další zpráva obsahuje scan faktury z 90. let, kde je text tak rozmazaný, že číslo účtu sotva přečtete. A pak je tu ještě účtenka od polského dodavatele v polštině, kterou vám kolega přeposlal jako screenshot z WhatsAppu.

Tohle není výjimka — tohle je realita české účetní praxe. Podle našich dat z MIKISI má přibližně 30 % nahraných dokladů nějaký problém s kvalitou nebo formátem. Některé jsou fotky pořízené ve spěchu, jiné jsou skeny starých dokumentů, další přicházejí v exotických formátech nebo jazycích. A všechny je potřeba zpracovat, vytěžit data a dostat do účetnictví. Jak na hromadné zpracování více dokladů najednou? Přečtěte si Tipy pro měsíční uzávěrku.

V tomto článku se podíváme na nejčastější typy problematických dokladů a jak si s nimi poradí moderní AI vytěžování. Ukážeme konkrétní příklady — co funguje, co nefunguje, a jak zvýšit šanci na úspěšnou extrakci i u těch nejhorších dokumentů. Na konci budete vědět, které doklady můžete bez obav nahrát do automatického systému a u kterých je lepší sáhnout po ručním zadání.

Článek je určený pro účetní, office manažery a podnikatele, kteří zpracovávají doklady od různých dodavatelů — od velkých firem s perfektními PDF fakturami až po řemeslníky, kteří fakturu napíšou rukou na blok.

Obsah

Co dělá doklad "problematickým" pro AI

Než se pustíme do konkrétních typů problémových dokladů, pojďme si vyjasnit, co vlastně AI při čtení faktury dělá (více v článku Jak funguje AI při zpracování faktur) a kde může narazit. Moderní systémy jako MIKISI kombinují dvě technologie: OCR (optické rozpoznávání znaků) a AI model. OCR převede obrázek na text, jazykový model pak z textu extrahuje strukturovaná data — číslo faktury, IČO dodavatele, částky, sazby DPH.

Problém může nastat v kterémkoliv kroku. Pokud je obrázek rozmazaný, OCR přečte "1" jako "7" nebo "B" jako "8". Pokud je text příliš malý nebo nekontrastní, OCR ho nepřečte vůbec. A pokud je struktura dokumentu neobvyklá — třeba faktura psaná od ruky bez jasného členění — jazykový model neví, kde hledat které údaje.

Příklad z praxe: Účetní kancelář v Praze zpracovává měsíčně faktury pro 40 klientů. Asi 15 % dokladů přichází jako fotky z mobilu — typicky od menších podnikatelů, kteří nemají scanner. Před nasazením MIKISI museli tyto doklady přepisovat ručně. Dnes systém zvládne automaticky zpracovat naprostou většinu i těchto fotografií — u zbytku pomůže rychlá ruční korekce.

Faktor Vliv na úspěšnost Jak poznat problém
Rozlišení obrazu Vysoký Text je "zubatý" nebo rozmazaný
Kontrast Vysoký Světlý text na světlém pozadí
Natočení dokumentu Střední Text není vodorovně
Jazyk dokumentu Střední Znaky mimo latinku
Struktura dokumentu Nízký až vysoký Neobvyklé rozložení údajů

Důležité je pochopit, že "problematický" neznamená "nezpracovatelný". Většina nestandardních dokladů projde — jen s nižší jistotou. A právě proto každý seriózní systém umožňuje vytěžená data zkontrolovat a opravit před finálním exportem.

Typ 1: Fotky z mobilu — světlo, stín a rozmazání

Fotky faktur pořízené mobilem jsou nejčastějším typem problematického dokladu. A zároveň nejčastějším důvodem, proč lidé váhají s automatickým vytěžováním — "vždyť to ten systém stejně nepřečte".

Realita je optimističtější. Moderní mobilní telefony mají kvalitní fotoaparáty a AI modely jsou trénované právě na reálných, nedokonalých fotografiích. MIKISI používá moderní AI, který byl naučen na milionech obrázků včetně fotografií dokumentů v různé kvalitě.

💡 Tip: Nejčastější chyba při focení faktury je špatné osvětlení. Stín přes část textu způsobí, že OCR přečte jen polovinu řádku. Ideální je rozptýlené denní světlo nebo rovnoměrné umělé osvětlení bez ostrých stínů.

Co funguje dobře:

Co dělá problémy:

Příklad z praxe: Stavební firma fotí faktury od subdodavatelů přímo na stavbě. Podmínky jsou daleké od ideálu — prach, špatné světlo, spěch. Po zavedení jednoduchého postupu (položit fakturu na bílou desku, počkat na zaostření, fotit zeshora) úspěšnost extrakce se výrazně zvýšila. Většina dokladů projde bez nutnosti zásahu.

Typ 2: Skenované dokumenty — kvalita vs. rychlost

Skenované dokumenty by teoreticky měly být bez problémů — scanner produkuje rovný, dobře osvětlený obraz. V praxi ale narazíte na několik úskalí, které mohou extrakci zkomplikovat.

Prvním problémem je rozlišení. Mnoho kancelářských scannerů je ve výchozím nastavení na 150 DPI, což šetří místo na disku, ale pro OCR je to na hranici čitelnosti. Ideální je 300 DPI — text je ostrý, soubor je stále rozumně velký (typicky 200-500 KB na stránku).

⚠️ Pozor: Některé starší multifunkční tiskárny ukládají skeny jako PDF s JPEG kompresí na velmi nízké kvalitě. Výsledek vypadá dobře na obrazovce, ale OCR má problém s rozmazanými hranami písmen.

Druhým problémem je formát barev. Černobílý scan (1-bit) má ostré hrany, ale ztrácí informaci o šedých tónech — což může být problém u faktur s šedým textem nebo vodoznakem. Stupně šedi (grayscale) jsou ideální kompromis. Barevný scan (RGB) není nutný a zbytečně zvětšuje soubor.

Nastavení scanneru Doporučení Typická velikost A4
150 DPI, černobílý Nedostatečné 30-50 KB
200 DPI, grayscale Akceptovatelné 100-200 KB
300 DPI, grayscale Ideální 200-400 KB
300 DPI, barevný Zbytečně velké 500 KB - 2 MB

Příklad z praxe: Účetní kancelář v Ostravě přešla z externího scanneru na multifunkční tiskárnu. Najednou se úspěšnost extrakce znatelně klesla. Příčina? Výchozí nastavení tiskárny bylo 150 DPI s vysokou JPEG kompresí. Po změně na 300 DPI grayscale se úspěšnost vrátila na původní úroveň.

Třetím problémem jsou staré dokumenty. Faktury vytištěné před 10-15 lety na jehličkové tiskárně nebo starém inkjetu jsou často vybledlé, s rozmazaným textem. Thermální účtenky (pokladní bloky) vyblednou ještě rychleji — někdy během měsíců. U takových dokumentů je šance na úspěšnou automatickou extrakci výrazně nižší a je lepší počítat s ruční kontrolou.

Typ 3: Obrázky místo PDF — JPEG přejmenované na .pdf

Tohle je překvapivě častý problém, na který jsme narazili právě tento týden. Dodavatel pošle "PDF fakturu", ale ve skutečnosti je to JPEG obrázek přejmenovaný na příponu .pdf. Standardní PDF čtečka ho neotevře nebo zobrazí chybu.

Proč se to děje? Některé starší fakturační systémy nebo mobilní aplikace exportují dokumenty jako obrázky. Uživatel pak soubor přejmenuje na .pdf, protože "faktury mají být v PDF". Nebo screenshot faktury z emailu uloží s příponou .pdf.

📌 Důležité: MIKISI od dnešního dne automaticky detekuje tento problém. Když nahrajete soubor s příponou .pdf, systém zkontroluje skutečný typ souboru podle jeho obsahu (tzv. magic bytes). Pokud je to ve skutečnosti JPEG nebo PNG, zpracuje ho jako obrázek místo pokusu o konverzi PDF.

Jak poznat JPEG přejmenovaný na PDF:

Co dělat, když dostanete takový soubor:

  1. Přejmenujte příponu na .jpg nebo .png
  2. Nebo ho rovnou nahrajte do MIKISI — systém si poradí
  3. Pokud potřebujete "skutečné" PDF, otevřete obrázek a vytiskněte do PDF

Tato situace ukazuje, proč je důležité, aby systém pro vytěžování dokladů byl robustní a zvládl i nestandardní vstupy. Ne každý dodavatel rozumí tomu, jaký formát je správný — a účetní by neměl být ten, kdo to řeší.

Typ 4: Rukou psané doklady — kde AI naráží na limity

Rukou psané faktury a paragony jsou největší výzvou pro automatické vytěžování. A je důležité být upřímný — u čistě ručně psaných dokladů je úspěšnost automatické extrakce výrazně nižší než u tištěných dokumentů.

Proč? OCR modely jsou trénované především na tištěném textu. Ruční písmo se liší člověk od člověka, písmena se spojují, čísla mohou vypadat různě. To, co člověk přečte bez problémů, AI může interpretovat špatně — "1" jako "7", "8" jako "6", "5" jako "S".

⚠️ Pozor: Rukou psané doklady jsou oblast, kde automatické vytěžování šetří méně času. Počítejte s tím, že většinu údajů budete muset zkontrolovat a případně opravit ručně.

Co AI zvládne i u rukou psaných dokladů:

Co dělá největší problémy:

Příklad z praxe: Řemeslník z Brna vystavuje faktury ručně na předtištěných formulářích. Záhlaví s jeho údaji (IČO, adresa) je tištěné, částky a popis práce píše rukou. MIKISI spolehlivě vytěží tištěnou část a většinou i částku celkem. Jednotlivé položky ale vyžadují ruční kontrolu — u čistě ručně psaného textu počítejte s nutností kontroly.

Pokud zpracováváte větší množství rukou psaných dokladů, doporučujeme nastavit workflow, kde tyto doklady procházejí vždy ruční kontrolou. V MIKISI můžete využít poznámky k dokumentu nebo je označit pro prioritní revizi.

Typ 5: Zahraniční faktury — jazyky a formáty

Globalizace přináší do českého účetnictví faktury v různých jazycích a formátech. Slovenská faktura s popisem v slovenštině, polská faktura s číslem účtu v jiném formátu, německá faktura s datem ve tvaru DD.MM.JJJJ vs. JJJJ-MM-DD.

Dobrá zpráva: AI modely jsou multilingvální. Náš AI systém rozumí desítkám jazyků včetně všech evropských. Slovenština, polština, němčina, angličtina — to vše projde bez problémů.

Co funguje spolehlivě:

Kde mohou být problémy:

Jazyk Úroveň podpory Poznámka
Čeština Výborná Domácí jazyk
Slovenština Výborná Velmi podobná
Angličtina Velmi dobrá Primární jazyk AI
Němčina Dobrá Pozor na formát čísel
Polština Dobrá Diakritika může dělat problémy
Ostatní EU Dobrá Záleží na konkrétním dokumentu

Příklad z praxe: E-shop nakupuje zboží od čínských dodavatelů. Faktury přicházejí v angličtině, ale s čínskými znaky v adrese a názvu firmy. MIKISI správně extrahuje částky a číslo faktury (jsou v arabských číslicích), ale název dodavatele musí účetní doplnit ručně — čínské znaky se nepřekládají.

Pro zahraniční faktury platí jedno pravidlo: čím standardnější formát, tím vyšší úspěšnost. PDF z velkého evropského dodavatele projde bez problémů. Rukou psaná faktura od malého polského řemeslníka vyžaduje pozornost.

Jak zvýšit úspěšnost extrakce — praktické tipy

Podrobnější návod najdete v článku Jak dosáhnout nejlepších výsledků při vytěžování.

Na závěr praktická doporučení, jak maximalizovat úspěšnost automatického vytěžování i u problematických dokladů. Tyto tipy vycházejí z analýzy tisíců dokumentů zpracovaných v MIKISI.

Při focení mobilem:

  1. Položte dokument na rovný, jednobarevný povrch (ideálně bílý)
  2. Zajistěte rovnoměrné osvětlení bez stínů
  3. Foťte zeshora, ne pod úhlem
  4. Počkejte, až mobil zaostří — automatické zaostření potřebuje vteřinu
  5. Zkontrolujte fotku před nahráním — je text čitelný?

Při skenování:

  1. Nastavte rozlišení na 300 DPI
  2. Použijte grayscale místo černobílé
  3. Vyčistěte sklo scanneru — prach a šmouhy zhoršují kvalitu
  4. U vícestránkových dokumentů skenujte do jednoho PDF

Při práci s problematickými doklady:

  1. Zkontrolujte vytěžená data před exportem — systém označí nejisté údaje
  2. U rukou psaných dokladů počítejte s ruční korekcí
  3. U zahraničních faktur ověřte formát data a měny
  4. Využijte poznámky k dokumentu pro vlastní komentáře

🧮 Kalkulace: Řekněme, že zpracováváte 100 dokladů měsíčně, z toho 30 % je problematických. Automatická extrakce ušetří čas u všech dokladů, ale u problematických počítejte s 2-3 minutami na ruční kontrolu. To je 30-45 minut měsíčně vs. 3-4 hodiny ručního přepisování všech 30 dokladů. Úspora je stále výrazná — a u kvalitních dokladů je téměř nulový čas navíc.

MIKISI průběžně zlepšuje rozpoznávání problematických dokladů. Každý opravený údaj pomáhá systému učit se — čím více dokladů zpracujete, tím přesnější výsledky dostáváte. A pokud narazíte na typ dokladu, který systém opakovaně nezvládá, kontaktujte nás — rádi se na to podíváme.


Časté dotazy

Další odpovědi najdete v našem kompletním FAQ k vytěžování faktur.

Jaká je minimální kvalita fotky pro úspěšnou extrakci?

Pro spolehlivou extrakci doporučujeme rozlišení alespoň 1200 × 1600 pixelů, což splňuje prakticky každý moderní smartphone. Důležitější než rozlišení je ale ostrost a osvětlení — rozmazaná fotka ve vysokém rozlišení je horší než ostrá fotka v nižším. Text by měl být čitelný pouhým okem při zvětšení na obrazovce. Pokud musíte přimhouřit oči, aby jste přečetli číslo faktury, pravděpodobně ho nepřečte ani AI.

Zvládne MIKISI vytěžit účtenku, která už vybledla?

Částečně ano, ale s omezeními. Thermální účtenky (pokladní bloky z obchodů) postupně blednou, zejména pokud jsou vystaveny teplu nebo světlu. Pokud je text ještě čitelný pouhým okem, AI ho obvykle přečte. U silně vybledlých účtenek, kde je text sotva viditelný, je úspěšnost nižší. Doporučujeme účtenky fotit nebo skenovat co nejdříve po nákupu, dokud je tisk ještě sytý.

Musím doklad před nahráním otočit správným směrem?

MIKISI si poradí i s dokumenty, které nejsou nahrané správně orientované.

Jak poznám, že systém si s dokladem neporadil?

Před exportem doporučujeme zkontrolovat vytěžená data, zejména u méně kvalitních dokladů.

Kolik stojí zpracování problematického dokladu vs. běžného?

V MIKISI platíte za doklad, ne za kvalitu. Problematická fotka účtenky stojí stejně jako perfektní PDF faktura — podle vašeho tarifu od 1,50 Kč do 2,48 Kč za doklad. Rozdíl je v čase, který strávíte kontrolou. U kvalitního PDF je kontrola otázkou vteřin, u problematického dokladu může trvat minutu nebo dvě. I tak je to rychlejší než ruční přepisování celého dokladu od začátku.

Shrnutí

Problematické doklady jsou realitou českého účetnictví — fotky z mobilu, staré skeny, rukou psané faktury, zahraniční dokumenty. Moderní AI vytěžování si s většinou z nich poradí, ale není všemocné. Klíčem k úspěchu je znát limity systému, nastavit správné workflow pro kontrolu a dodržovat základní pravidla při fotografování a skenování. U 70-80 % problematických dokladů automatická extrakce funguje bez zásahu, u zbytku pomůže rychlá ruční korekce.

Chcete vyzkoušet, jak si MIKISI poradí s vašimi problematickými doklady?

Nahrajte první 10 dokladů zdarma — bez závazků, bez platební karty. Více v článku Jak začít s MIKISI. Uvidíte přesně, které údaje systém vytěží automaticky a kde budete potřebovat ruční kontrolu. Zaregistrovat se zdarma.

Máte specifický typ dokladů, se kterým si nevíte rady? Napište na [email protected] nebo zavolejte na +420 608 772 227 — rádi poradíme.

Zpět na blog