Handschrëft Datesets

22 Bescht Open-Source OCR & Handschrëft Datesets fir Är ML Modeller ze trainéieren

D'Erhéijung vun der optescher Charaktererkennungsverbrauch kann haaptsächlech un d'Erhéijung vun der Produktioun vun automateschen Unerkennungssystemer zougeschriwwe ginn. Als Resultat ass de weltwäite Maartwäert vun der OCR Technologie, gepecht op $ 8.93 Milliarden am Joer 2021, gëtt virausgesot bei engem CAGR vu 15.4% tëscht 2022 an 2030 ze wuessen.

Awer wat ass genau OCR Technologie? A firwat ass et e Spillwechsel fir Geschäfter déi effizient AI Modeller entwéckelen? Loosst eis erausfannen.

Wat ass OCR (Optical Character Recognition)?

OCR ass Technologie déi verschidden Aarte vun Dokumenter konvertéiert, wéi gescannt Pabeierdokumenter, PDFs oder Biller vum Text, an editéierbar a sichtbar Daten. Et funktionnéiert duerch:

  • Analyse vun der Struktur vum Text an engem Bild
  • Den Text opzedeelen an Zeilen a Charaktere
  • Konvertéieren dës visuell Zeechen an maschinn liesbaren Text

Allgemeng Benotzunge enthalen:

  • Konvertéieren gescannt Dokumenter an editable Textdateien
  • Gedréckte Bicher digitaliséieren
  • Extrait Text aus Fotoen
  • Handgeschriwwe Rezepter an digitalen Text ëmsetzen
  • Nummerplack Unerkennung

Ocr Trainingsdaten

Virdeeler an Erausfuerderunge vun Open Source Datasets

D'Geschäfter mussen d'Virdeeler an d'Erausfuerderunge géintenee stellen fir ze verstoen ob se fir gratis ze benotzen Daten fir hir ML Uwendungen entscheeden mussen.

Virdeeler

  • D'Donnéeën sinn einfach zougänglech ze kréien. Wéinst Datenverfügbarkeet ginn d'Käschte fir d'Applikatioun z'entwéckelen wesentlech reduzéiert.
  • D'Zäit an d'Ustrengung fir Daten fir d'Applikatioun ze sammelen gi wesentlech reduzéiert well d'Dateset einfach verfügbar ass.
  • Et gëtt en Iwwerfloss vu Gemeinschaftsforumen oder Hëllefsgruppen, déi hëllefen d'Datesaz ze léieren, unzepassen an ze optimiséieren.
  • Ee vun de grousse Virdeeler vum Open Source Dataset ass datt et keng Restriktiounen op Personnalisatioun leet.
  •   Open Source Daten sinn zougänglech fir eng grouss Sektioun vun der Bevëlkerung, wat Analyse an Innovatioun méiglech mécht ouni monetär Barrièren.

Erausfuerderunge

  • D'Donnéeën spezifesch fir de Projet si schwéier ze kréien. Zousätzlech ass et eng Méiglechkeet vu fehlend Informatioun a falsch Notzung vun den verfügbaren Donnéeën.
  • Proprietär Donnéeën ze kréien brauch Zäit, Effort an ass deier
  • Och wann et méi einfach ka sinn Daten ze kréien, kënnen d'Wëssen an d'Analysekäschten den initialen Virdeel iwwerwannen.
  • Aner Entwéckler benotzen och déiselwecht Donnéeën fir Uwendungen z'entwéckelen.
  • Dës Datesätz sinn héich vulnérabel fir Sécherheetsverletzungen, Privatsphär an Zoustëmmung.

22 Bescht Handschrëft & OCR Datesets fir Maschinnléieren

Open-Source ocr Datesätz

Vill Open-Source Datesätz si verfügbar fir Texterkennungsapplikatiounentwécklung. E puer vun de beschte 22 sinn

  1. NIST Datebank

    Den NIST oder den National Institute of Science bitt eng gratis-ze-benotzen Sammlung vun iwwer 3600 Handschrëft Echantillon mat méi wéi 810,000 Charakter Biller

  2. MNIST Datebank

    Ofgeleet vun der NSIT Special Datebank 1 an 3, ass d'MNIST Datebank eng kompiléiert Sammlung vu 60,000 handgeschriwwenen Zuelen fir den Trainingsset an 10,000 Beispiller fir den Testset. Dës Open-Source Datebank hëlleft Modeller ze trainéieren fir Musteren ze erkennen, wärend manner Zäit op d'Pre-Veraarbechtung verbréngen.

  3. Text Detektioun

    Eng Open-Source Datebank, den Text Detection Dataset enthält ongeféier 500 Indoor an Outdoor Biller vu Schëlter, Dierplacken, Vorsichtsplacken, a méi.

  4. Stanford OCR

    Verëffentlecht vum Stanford, dës gratis-ze-benotzen Dataset ass eng handgeschriwwe Wuertsammlung vun der MIT Spoken Language Systems Group.

  5. Street View Text

    Gesammelt vu Google Street View Biller, huet dësen Dataset Texterkennungsbiller haaptsächlech vu Brieder a Stroosseniveau Schëlder.

  6. Dokument Datebank

    D'Dokumentdatabase ass eng Sammlung vun 941 handgeschriwwenen Dokumenter, dorënner Tabellen, Formelen, Zeechnungen, Diagrammer, Lëschten a méi, vun 189 Schrëftsteller.

  7. Mathematik Ausdréck

    D'Mathematik Ausdréck ass eng Datebank déi 101 mathematesch Symboler an 10,000 Ausdréck enthält.

  8. Street View Hausnummeren

    Aus Google Street View gesammelt, ass dës Street View House Numbers eng Datebank mat 73257 Street House Number Zifferen.

  9. Natierlech Ëmwelt OCR

    Den Natural Environment OCR, ass en Dataset vu bal 660 Biller weltwäit an 5238 Textannotatiounen.

  10. Mathematik Ausdréck

    Iwwer 10,000 Ausdréck mat 101+ mathematesch Symboler.

  11. Handgeschriwwe Chinese Charaktere

    En Dataset vun 909,818 handgeschriwwe chinesesche Charakterbilder, entspriechend ongeféier 10 Neiegkeetsartikelen.

  12. Arabesch gedréckt Text

    E Lexikon vun 113,284 Wierder mat 10 arabesche Schrëften.

  13. Handgeschriwwe Englesch Text

    Handgeschriwwenen engleschen Text op engem Whiteboard mat iwwer 1700 Entréen.

  14. 3000 Ëmfeld Biller

    3000 Biller aus verschiddenen Ëmfeld, dorënner Outdoor an Indoor Szenen ënner verschiddene Beliichtung.

  15. Chars74K Daten

    74,000 Biller vun Englesch a Kannada Zifferen.

  16. IAM (IAM Handschrëft)

    D'IAM-Datebank huet 13,353 handgeschriwwe Textbiller vu 657 Schrëftsteller aus dem Lancaster-Oslo/Bergen Corpus vu britesch Englesch.

  17. FUNSD (Form Verständnis a Kaméidi gescannt Dokumenter)

    FUNSD enthält 199 annotéiert, gescannt Forme mat variéierten a lauter Erscheinungen, Erausfuerderung fir Form Verständnis.

  18. Text OCR

    TextOCR benchmarks Texterkennung op arbiträr geformte Szenentext an natierleche Biller.

  19. Twitter 100k

    Twitter100k ass e grousst Datesaz fir schwaach iwwerwaacht Cross-Media Retrieval.

  20. SSIG-SegPlate - License Plate Character Segmentation (LPCS)

    Dësen Dataset evaluéiert License Plate Character Segmentation (LPCS) mat 101 Dagauto Biller.

  21. 105,941 Biller Naturszenen OCR Daten vun 12 Sproochen

    D'Daten enthalen 12 Sproochen (6 asiatesch, 6 europäesch) a verschidde natierlech Szenen a Winkelen. Et enthält Linnenniveau Grenzkëschten an Texttranskriptiounen. Et ass nëtzlech fir Multi-Sprooch OCR Aufgaben.

  22. Indesche Signboard Image Dataset

    Den Dataset huet indesch Verkéiersschëlder Biller fir Klassifikatioun an Detektioun, a verschiddene Wiederkonditiounen während Dag, Owend an Nuecht geholl.

Dëst waren e puer vun den Top Open-Source Datesätz fir Training ML Modeller fir Texterkennungsapplikatiounen. Deen auswielen deen mat Ärem Geschäft an Applikatiounsbedürfnisser ausgeriicht ass kéint Zäit an Effort huelen. Wéi och ëmmer, Dir musst mat dësen Datesätz experimentéieren ier Dir de passenden entscheet.

[Lies och: OCR Infographic - Definitioun, Virdeeler, Erausfuerderungen a Benotzungsfäll]

Fir Iech ze hëllefen op eng zouverlässeg an effizient Texterkennungsapplikatioun weiderzekommen ass Shaip - den héichrangegen Technologie Léisungsprovider. Mir profitéieren eis technesch Erfahrung fir personaliséierbar, optimiséiert an effizient OCR Trainingsdatesets fir verschidde Clientprojeten ze kreéieren. Fir eis Fäegkeeten voll ze verstoen, kontaktéiert eis haut.

Sozial Share