Endlich sind die Zeiten vorbei, in denen maschinelles Lernen (ML) durch die begrenzte Verfügbarkeit von Trainingsdaten eingeschränkt wurde. Stand heute gibt es eine Vielzahl an Anwendungsfällen, für die ML-Algorithmen komplexe Muster aus riesigen Mengen an Trainingsdaten erlernen. Meistens sind gute Trainingsdaten jedoch nur schwer in ausreichender Menge zu beschaffen, vor allem wenn es um persönliche oder vertrauliche Dokumente geht, beispielsweise Personalausweise, Versicherungsverträge oder Sozialversicherungsausweise.

Daher hat LangTec mit DataGenerator eine eigene KI-Lösung geschaffen, um große Mengen stark diversifizierten Trainingsdaten synthetisch zu generieren. Zur Initialisierung von DataGenerator wird nur eine sehr kleine Zahl repräsentativer Beispieldokumente benötigt. DataGenerator erzeugt dann Hunderttausende einzigartiger Dokumentinstanzen, von denen selbst die datenhungrigsten Lernalgorithmen satt werden.