Viewing posts from: %s
11Jun
Bewertung der Leistung großer Sprachmodelle zur Informationsextraktion: Eine vergleichende Studie

Dieser Artikel untersucht die Leistung großer Sprachmodelle (LLMs) wie ChatGPT4-Turbo und ChatGPT4-Omni bei Aufgaben zur Informationsextraktion und vergleicht sie mit dem spezialisierten E-MailParser von LangTec. Unsere Analyse zeigt, dass ein speziell entwickeltes System zum Dokumentverstehen die führenden LLMs in dieser wichtigen Business-Aufgabe um Längen schlägt.

Benchmarking der Genauigkeit

Um die Genauigkeit von ChatGPT4-Turbo, ChatGPT4-Omni und LangTecs E-MailParser zu bewerten, wurde eine umfassende Bewertung mit 20 Dokumenten über vier Extraktionsaufgaben hinweg durchgeführt:

  • Q88: Überprüfungsfragebögen für Tankerinformationen
  • Timesheet: Lade-/Entladeberichte von Tankern
  • Ship: Anfragen für kommerzielle Frachttransporte
  • Cargo: Positionierungslisten kommerzieller Frachtschiffe

Aus jedem dieser Dokumente extrahierten wir etwa 20 Ziel-Datenpunkte. Für die Bewertung hatten diese Dokumente vordefinierte Ground-Truth-Labels, die die erwarteten Zielwerte für jedes Feld angaben. Durch den Vergleich der extrahierten Werte mit diesen Ground-Truth-Labels konnten wir die Genauigkeit für jedes Modell berechnen.

Benchmark-Ergebnisse: LLMs vs. LangTecs E-MailParser

Sowohl ChatGPT4-Turbo als auch ChatGPT4-Omni zeigen ein gewisses Maß an Genauigkeit bei Aufgaben zur Informationsextraktion und erreichen Gesamtwerte von 56 % bzw. 49 %. Bemerkenswert ist, dass das neuere Modell ChatGPT4-Omni bei dieser Aufgabe für die meisten Dokumententypen schlechter abschneidet als sein Vorgänger ChatGPT4-Turbo. Eine weitere wichtige Beobachtung war, dass die Leistung der Modelle durch Inkonsistenz beeinträchtigt wird. Für denselben Eingabetext und dieselbe Extraktionsaufgabe liefern diese Modelle jedes Mal unterschiedliche Antworten, selbst wenn dieselbe Frage gestellt wird. Dieses nicht-deterministische Verhalten macht sie unzuverlässig für Szenarien, in denen konsistente und genaue Informationsbeschaffung entscheidend ist.

Im Gegensatz dazu zeigen spezialisierte Parser wie LangTecs E-MailParser eine deutlich höhere Genauigkeit, sind in ihrem Verhalten vollständig deterministisch und erreichen konstant 98 % Extraktionsgenauigkeit über verschiedene Dokumentenformate hinweg. Diese Zuverlässigkeit macht eine deterministische Lösung zur Dokumentenverständnis wie E-MailParser zu einer verlässlicheren Lösung für Aufgaben zur Informationsextraktion, insbesondere bei der Verarbeitung vielfältiger E-Mail-Inhalte in geschäftskritischen Anwendungen.

Abschluss

Während LLMs wie ChatGPT hervorragend zum Generieren von Inhalten geeignet sind, weisen sie erhebliche Einschränkungen auf, insbesondere in Szenarien, die deterministische Ausgaben erfordern, wie z. B. Aufgaben zur Informationsextraktion. Für solche Anwendungen bieten Dokumentenverständnis-Lösungen wie LangTecs E-MailParser eine zuverlässigere und genauere Lösung.

Read More
03Jun
Vortrag beim Maritimen Frühstück im Business Club Hamburg

“Innovative Algorithmen in der Schifffahrt und Logistik: Wie automatisierte Texterkennung oder Quantencomputing operative Prozesse verändern werden” – so das Thema des Events des Maritimen Clusters Norddeutschland am 23. April. Etwa 40 Interessenten trafen sich in den Räumlichkeiten des Business Club Hamburgs, der Villa im Heinepark an der Elbchaussee zu spannenden Vorträgen über die Chancen der Digitalisierung in der Schiffahrtsindustrie.

Jan Herberg, Geschäftsführer unseres langjährigen Partnerunternehmens Herberg Systems GmbH stellte vor, wie die automatische Extraktion von Information aus Email-Requests die digitale Transformation von Geschäftsprozessen möglich macht. LangTecs Teamlead für Text- und Datenanalytik Dr. Kilian Foth
demonstrierte dazu am Live-System von LangTecs E-MailReader, wie aus verschiedenen Arten von unstrukturierten Dokumenten und Messages durch KI-basierte semantische Textanalytik strukturierte Daten gewonnen werden können.

Oliver Szal und Joshua Dibbern vom FraunhoferCML zeigten, daß der Quantencomputer bereits existiert und mittlerweile auch schon wettbewerbsfähig ist: ein vom Publikum bestimmtes Routen-Optimierungsproblem wurde zweimal nacheinander (lokal und remote von einem Quadratic Annealer in Kanada) gelöst, wobei der Quantenalgorithmus D-WAVE in derselben Rechenzeit die bessere Lösung fand als die klassische CPLEX-Optimierung.

Read More
08Mai
LangTec besucht FoldForum II

Proteinfaltung ist ein Paradebeispiel für den schnellen technischen Fortschritt, der in vielen Bereichen durch AI ermöglicht wird. Um davon zu erfahren, haben zwei unserer Team-Mitglieder, Maximilian und Pat, der Veranstaltung FoldForum II beigewohnt.

FoldForum II ist eine Kooperationsveranstaltung von AUFBRUCH.Hamburg und Artificial Intelligence Center Hamburg (Aric e.V.) im DeepTech Campus als Veranstaltungsort. Wie auch bei dem ersten FoldForum war diese Kooperation ein hervorragender Gastgeber und Veranstalter und der DeepTech Campus selbst ist schon einen Besuch wert.

Dr. Natalie Rotermund von Aric e.V. und Dr. Dr. Alexander El Gammal von AUFBRUCH.Hamburg eröffneten die Veranstaltung und stellten die Redner vor. Anschließend begann Dr. Felix Tobola von Aric e.V. mit einem detaillierten Überblick über Proteinfaltung und deren technischer Umsetzung. Dies erzeugte viele Aha-Momente durch die gekonnte Präsentation. Darauf folgte eine Präsentation von Dr. Kilian Guse und Head of Bioinformatics Brian Dawson von GQ Bio Therapeutics, welche eine kreative Anwendung dieser neuen Proteinfaltungsmodelle für die Entwicklung von Medikamenten vorstellten. Eine solche verblüffende Technologie wäre vor ein paar Jahren wohl nur in Science-Fiction Romanen auffindbar gewesen.

Ein Highlight des Abends war die darauf folgende Podiumsdiskussion zwischen den Rednern und den Zuschauern. Dabei reichten die Gesprächsthemen von technischen Details der AI-Modellen hin zu philosophischen Fragen zu den Implikationen von AI-basierter Proteinfaltung für die Wissenschaft, getrieben von den vielfältigen Interessen und Arbeitsbereichen der Zuschauerschaft.

Wir bedanken uns bei Aric E.V. und AUFBRUCH.Hamburg für diese inspirierende Veranstaltung mit so großartigen Rednern und freuen uns auf zukünftige Veranstaltungen dieser Veranstaltungsreihe!

Read More
02Mai
Effektivere Projektakquise durch Automatisierung der portalübergreifenden Suche nach Ausschreibungen und Projektangeboten

Sowohl öffentliche Ausschreibungen als auch Projektausschreibungen werden in hoher Aktualisierungsfrequenz auf unterschiedlichsten Portalen veröffentlicht, sodass Unternehmen immer gleich mehrere Portale regelmäßig auf neue Einträge überprüfen müssen, um keine interessanten Ausschreibungen zu verpassen. Hinzu kommt, dass diese Portale üblicherweise gleich nach mehreren Stichwörtern durchsucht werden müssen, so dass sich die Anzahl notwendiger Anfragen mit jedem neuen Portal multipliziert. Bei der Durchsicht der Ergebnisse muss man dann eine große Menge bereits bekannter älterer Ergebniseinträge durchsuchen, die man schon bei anderen Suchanfragen gesehen hatte, bis man relevante neue Ergebnisse findet. Um effektiv zu sein, muss diese Arbeit regelmäßig ausgeführt werden und ist daher äußerst lästig und zeitraubend.

Deshalb hat LangTec eine Crawler-basierte Lösung entwickelt, der diesen Prozess vollständig automatisiert. Registrierte Nutzer erhalten ein regelmäßiges E-Mail-Update, welches eine übersichtliche Zusammenfassung aller neu hinzugekommenen Ergebnisse auf allen Portalen für alle personalisierten Suchbegriffe enthält. Dies ermöglicht eine schnellere Reaktionszeit auf neue öffentliche Ausschreibungen und Projektausschreibungen und spart den Aufwand der manuellen Suche.

Initial hat LangTec diese Lösung zuerst für den internen Gebrauch entwickelt. Nun steht der Dienst auch als abonnierbarer, kommerzieller Service zur Verfügung. Die Anzahl und Auswahl der Suchterme sind dabei ebenso individuell anpassbar, wie die Menge der Portale und der E-Mail-Update-Intervalle. Schreiben Sie uns, wenn das für Sie spannend klingt!

Read More
12Apr
Gemeinsamer KI-Vortrag auf der Frühjahrstagung der tekom Deutschland in Freiburg

Auf der der Frühjahrstagtung der tekom Deutschland im wunderschönen Freiburg haben wir, gemeinsam mit unserem Partnerunternehmen der parson AG, einen spannenden Vortrag zu den Einsatzmöglichkeiten von KI in der technischen Kommunikation gehalten. Schwerpunktmäßig ging es in dem Technical Talk um die vielen unterschiedlichen Tools und Methoden, die KI heutzutage bietet, und wie diese für ganz konkrete Herausforderungen der technischen Dokumentation eingesetzt werden können.

Wir bedanken uns ganz herzlich für das rege Interesse sowie die spannenden Fragen und Diskussionen im Nachgang. Spätestens nach der Präsentation war allen klar, dass KI definitiv ein raffiniertes Schweizer Taschenmesser – und kein plumper Holzhammer – für Automatisierung ist. Wer genau weiß, konkret welches KI-Tool für welchen Anwendungsfall auszuklappen ist, kann auch komplexe Automatisierungsaufgaben effektiv und effizient lösen. Dass LangTec dabei natürlich immer gerne unterstützt, versteht sich an dieser Stelle von selbst 🙂


Read More
03Apr
Ein Einblick in die Zukunft der Klima-Technologie: Unser Workshop bei KlimaInvest

Unsere Reise führte uns kürzlich in das pulsierende Herzstück der HafenCity, wo wir die Gelegenheit hatten, an einem inspirierenden Workshop bei unserem geschätzten Kunden, KlimaInvest, teilzunehmen. Eingebettet in eine atemberaubende Aussicht auf die umliegende Hafenlandschaft, bot das neue Büro des Unternehmens den perfekten Rahmen für einen tiefen Einblick in ihre Teamdynamik und Arbeitsprozesse.

Der Workshop, der von einem Hauch von frischer Meeresbrise begleitet wurde, konzentrierte sich auf verschiedene Aspekte, die KlimaInvest im Jahr 2024 vorantreiben wird. Hier sind einige der herausragenden Punkte, die während der Veranstaltung beleuchtet wurden:

Eine eingehende Vorstellung und Analyse der Produkte und Lösungen von KlimaInvest durch den Geschäftsführer von KlimaInvest Johannes Schimler, die dazu beiträgt, die Marktbedingungen und die strategische Ausrichtung des Unternehmens besser zu verstehen.

Im ersten Halbjahr 2024 stehen für KlimaInvest umfangreiche Anpassungen im CRM an.

Darüber hinaus wurde ein reger Austausch über die Gewährleistung von Betriebs- und Prozessstabilität bei zunehmend integrierten Applikationen angestoßen. Gemeinsam mit JaMoin diskutierten wir auch Optimierungspotenziale von Tests und Testinfrastruktur, um die Effizienz und Qualität der Prozesse weiter zu steigern.

In den Bildern, die wir hier teilen, kann man die atemberaubende Aussicht aus dem Büro von KlimaInvest genießen.

Wir danken KlimaInvest für die Möglichkeit, an diesem aufschlussreichen Workshop teilzunehmen, und freuen uns auf eine weitere Fortsetzung der erfolgreichen Zusammenarbeit im Dienste einer grüneren Zukunft.

Read More
16Mrz
13 Jahre Sprachinnovation bei LangTec: ein köstliches Jubiläumsessen

LangTec ist ein Teenager!  Als wir kürzlich unser 13-jähriges Jubiläum feierten, nutzten wir die Gelegenheit, um über unseren Weg nachzudenken und unsere Erfolge als Team zu feiern. Und wie könnte man diesen Meilenstein besser feiern als mit einem köstlichen Team-Lunch im Restaurant Bullerei Deli, das im pulsierenden Schanzenviertel liegt und von dem bekannten Fernsehkoch Tim Mälzer geführt wird.

Das Ambiente der Bullerei Deli bot die perfekte Kulisse für unsere Feier, während wir eifrig die neue Speisekarte des Restaurants erkundeten, die eine Mischung aus japanischen Einflüssen, klassischen Gerichten, vielen Geflügelköstlichkeiten und einer Reihe von vegetarischen Optionen bietet.

Unsere kulinarischen Favoriten waren die Pilzpasta 24/7, das knusprige Karaage, das dampfende Tantanmen und das Veggie Larb – für jeden etwas.

Dreizehn Jahre Innovation, Zusammenarbeit und Wachstum haben uns an diesen Punkt gebracht, und wir freuen uns auf die Herausforderungen und Erfolge, die vor uns liegen.

Prost auf LangTec und auf die köstlichen Erinnerungen, die in der Bullerei entstehen!

Read More
31Jan
Zu Besuch im Stasi-Unterlagen-Archiv: Teilnahme an dem Interessenbekundungsverfahren zur virtuellen Rekonstruktion der Stasi-Akten

Das Bundesarchiv bewahrt zerrissene Stasi-Akten im Umfang von 40 bis 55 Millionen Seiten auf. Diese sollen durch automatische virtuelle Rekonstruktion wiederhergestellt werden. Ein vorangegangenes Pilotprojekt konnte die Aufgabe nur unzureichend abschließen, wie sogar die Tagesschau am 21.04.2023 berichtet. Nun wurde ein Interessenbekundungsverfahren für ein zweiteiliges Projekt bestehend aus Scanprozess und virtueller Rekonstruktion ausgeschrieben. Dabei bewerben wir uns um die automatische virtuelle Rekonstruktion. Die Kernaufgabe ist die Entwicklung eines automatisierten Verfahrens zur Anordnung von eingescannten Dokumentschnipseln zu ganzen Seiten und vollständigen Dokumenten.

Ende Januar waren wir zu Besuch im Stasi-Unterlagen-Archiv, um mit der Vizepräsidentin des Bundesarchivs Alexandra Titze zu sprechen und unseren Ansatz vorzustellen. LangTec als forschungsnaher Technologieanbieter zeichnet sich hierbei durch einen innovativen KI-basierten Ansatz aus, welcher eine effiziente Verarbeitung der großen Text-und Datenmengen, die die Menge an Stasi-Unterlagen unweigerlich darstellen, ermöglicht.

Wir verfolgen die Thematik weiter gespannt und freuen uns, auf eine mögliche Zusammenarbeit!

 

   

Read More
21Dez
Eine Reise von Bethlehem nach Südamerika – Die diesjährige LangTec Weihnachtsfeier

Die Weihnachtszeit ist die Jahreszeit der Freude, des Lachens, der funkelnden Lichter und des köstlichen Essens, und all dies fehlte auch bei der diesjährigen LangTec Weihnachtsfeier nicht. Wir begannen den Abend im wunderschön verschneiten Hamburger Stadtpark und besuchten das Planetarium. Wir reisten 2000 Jahre zurück in der Zeit, um Theorien über den wahren Ursprung des Himmelswunders “Stern von Bethlehem” zu erfahren.
Zurück in der Gegenwart fuhren wir mit dem Moia zum Yaku, einem modernen peruanisch-mexikanischen Fusionsrestaurant im Hamburger Grindelviertel, wo wir Gang für Gang neue, wunderbare und farbenfrohe Geschmackskombinationen und fröhliche Mescal-Cocktails genossen.

Frohe Feiertage von unserer LangTec-Familie an Ihre!

Read More
02Nov
parson und LangTec gehen KI-Kooperation ein

Der Einsatz von Künstlicher Intelligenz wird auch in der Technischen Kommunikation immer wichtiger. Um unserer Kundschaft bestmögliche Lösungen für KI-basierte Text- und Sprachanwendungen bieten zu können, schließt parson eine Kooperation mit dem Hamburger Technologieanbieter LangTec. LangTec entwickelt innovative Sprachtechnologie-Lösungen zur effizienten Verarbeitung großer Text- und Datenmengen mit besonderem Fokus auf KI und maschinelles Lernen.

„Das Know-how von LangTec und ihre langjährigen Erfahrungen mit maschinellem Lernen und Künstlicher Intelligenz ergänzen unsere Expertise im Bereich Technische Dokumentation perfekt. Gemeinsam können wir bestmögliche Lösungen für den Einsatz Künstlicher Intelligenz in der Technischen Kommunikation entwickeln.“, betont Ulrike Parson, CEO der parson AG.

„Wir freuen uns sehr über diese enge Kooperation mit der parson AG. Als einer der führenden Anbieter von KI-basierter Sprachtechnologie im deutschsprachigen Raum ist es für uns von besonderer Bedeutung, mit etablierten Playern am Markt zusammenzuarbeiten, die bereit sind, maßgeschneiderte Textanalytik-Lösungen in der Praxis zum Einsatz zu bringen. KI wird dann wertvoll, wenn sie hilft, konkrete Wettbewerbsvorteile zu erzielen.“, erläutert Dr. Patrick McCrae, Gründer und Geschäftsführer von LangTec.

Über parson

parson ist ein führendes Dienstleistungsunternehmen für smarten Content und intelligente Informationslösungen. Die parson AG berät ihre Kundschaft bei der Digitalisierung von Content-Prozessen und der Einführung einer nachhaltigen Content-Strategie. Für Produkte, Software und Dienstleistungen liefert parson semantisch angereicherte, modulare Inhalte, zum Beispiel Anwenderdokumentation, Programmieranleitungen, Online-Hilfen, eLearning-Inhalte und Spezifikationen.

 

Fine-Tuning eines Sprachmodells

Zum Auftakt der Partnerschaft mit LangTec stellt parson auf der diesjährigen tekom-Jahrestagung 2023 ein erstes Modellprojekt vor, das sich mit dem Finetuning eines vortrainierten Large Language Models (LLM) beschäftigt und gemeinsam mit LangTec realisiert wurde.

In ihrem-Vortrag zeigen Helle Hannken-Illjes und Ulrike Parson erste Ergebnisse der domänenspezifischen Anpassung eines LLMs auf kundeneigenen Unternehmensdaten, in dem auch die Verarbeitung sensibler Kundendaten problemlos möglich ist:

„KI ja, aber nicht ChatGPT! Wie komme ich zu meinem eigenen Sprachmodell?“

Fachvortrag von Helle Hannken-Illjes und Ulrike Parson

tekom 2023, 15. November 2023, 9.00 Uhr, Raum C6.2

Mehr erfahren

Read More
Top