Massgeschneiderte Übersetzungen durch KI – eine Auslegeordnung

post image

Künstliche Intelligenz ist in der Übersetzungsbranche weiter auf dem Vormarsch. Laut einer Studie des Marktforschungsunternehmens Nimdzi aus dem Jahr 2021 bestätigten 53.5% der befragten Unternehmen, dass für Übersetzungen ebenfalls maschinelle Übersetzungslösungen zum Einsatz kommen. Dies entspricht einer Verdoppelung der Unternehmen gegenüber 2019. Während der letzten Jahre hat sich ebenfalls die Anzahl der Anbieter für maschinelle Übersetzungslösungen erhöht. Durch die steigende Anzahl der maschinellen Übersetzungstools können mittlerweile insgesamt 99'760 Sprachkombinationen maschinell übersetzt werden. Im Zuge dieser rasanten Entwicklung werden viele Unternehmen immer wieder mit der Frage konfrontiert, ob eine maschinelle Übersetzungslösung unternehmensspezifisch integriert und trainiert werden soll. In diesem Blogbeitrag klären wir, welche Punkte dabei zu beachten sind.

Inhaltsverzeichnis:

»   Kundenspezifische KI-Übersetzungslösungen

»   Auswahl des Technologieansatzes

»   Organisation der Sprachdaten

»   Definition der Qualitätssicherung

»   Bereitstellung der Dienstleistung

»   Fazit

Kundenspezifische KI-Übersetzungslösungen

Gemäss Nimdzi verwenden rund 45% der befragten Unternehmen keine kundenspezifischen Lösungen, sondern greifen für die maschinelle Übersetzung auf öffentliche und frei verfügbare Übersetzungsmaschinen zurück (wie z. B. Google Translate). 30% der Unternehmen haben eine vortrainierte maschinelle Übersetzungslösung über eine Schnittstelle integriert und rund 25% verwenden eine kundenspezifisch trainierte maschinelle Übersetzungslösung. Anhand der nachfolgenden Aspekte kann beurteilt werden, ob eine kundenspezifische KI-Übersetzungslösung Sinn macht und welche Ansätze weiterverfolgt werden sollen.

Auswahl des Technologieansatzes

Durch das Wachstum und die Weiterentwicklung des maschinellen Übersetzungsmarkts sind verschiedene Lösungsansätze für Unternehmen leichter zugänglich geworden. Neben den Produkten und Services von Google, Microsoft oder DeepL gibt es mittlerweile auch viele Lösungen von kleineren Anbietern. Grundsätzlich können die Lösungen den nachfolgenden drei Technologiesparten zugeordnet werden: Generische Plattformen (Cloud-Dienste), MT Toolkits (Open-Source-Frameworks) und kundenspezifisch trainierbare Lösungen. Es ist initial zu definieren, welcher Technologieansatz am besten zum eigenen Unternehmen passt.

24translate-BP-26-07-2022-KI-Uebersetzungen-Infografik_Update

Die MT-Tool Landschaft (Quelle: Nimdzi)

Generische Plattformen (Cloud-Dienste)

Hauptsächlich Tech-Giganten wie Google oder Microsoft bieten diese Dienste an. Meist gibt es die Übersetzungsmaschine im Paket mit anderen Leistungen wie Text-to-Speech oder Speech-to-Text. Der grösste Vorteil ist die beachtliche Grundqualität der Übersetzungen, da die Maschinen mit grossen Datenmengen vortrainiert wurden. Nicht alle Lösungen können jedoch mit kundenspezifischen Daten zusätzlich trainiert werden. Die Integration erfolgt normalerweise über die API, weshalb technisches Know-how benötigt wird. Die Kosten belaufen sich auf zwischen 10-20 USD pro 1 Million Zeichen, wobei zusätzliche Kosten für eine erhöhte Datensicherheit und weitere Funktionalitäten anfallen.

Kundenspezifisch trainierbare Lösungen

Bei dieser Lösung (in der Regel SaaS, lokale Server sind aber möglich) werden Basismaschinen, das Training der Maschinen sowie eine Unterstützung bei der Implementierung angeboten. Die Grundqualität der Übersetzungen ist eher durchschnittlich, weshalb eine relativ grosse Datenmenge für das weitere Training benötigt wird. Aufgrund des umfangreichen Kundensupports ist ein relativ geringes technisches Wissen erforderlich, was sich aber in einem höheren Preis wiederspiegelt. Web-Lösungen starten bei zwischen 1'500 bis 3'000 USD pro Monat. Ein lokales Serverprojekt kostet zwischen 20'000 und 30'000 USD.

MT Toolkits (Open-Source-Frameworks)

Falls im Unternehmen ein sehr umfangreiches technisches Wissen vorhanden ist, kann die Entwicklung einer eigenen MT-Infrastruktur mit neuronalen Netzwerk-Toolkits wie MarianMT oder OpenNMT in Betracht gezogen werden. Aufgrund des nur sehr eingeschränkten Vorabtrainings der Maschinen sind grossen Mengen an Trainingsdaten notwendig, um die Übersetzungsqualität verbessern zu können. Aufgrund der lokalen Infrastruktur handelt es sich hierbei jedoch um eine sehr datensichere Lösung.

Organisation der Sprachdaten

Um bestmögliche maschinelle Übersetzungen generieren zu können, werden KI-Systeme benötigt, welche mit einer sehr grossen Anzahl an qualitativ hochwertigen Daten trainiert wurden. Die besten und am häufigsten verwendeten Trainingsdaten sind zweisprachige Dateien mit abgestimmten und fehlerfreien Quell- und Zieltexten. Es ist darauf zu achten, dass keine als vertraulich klassifizierten oder personenbezogenen Daten in den Trainingsdaten enthalten sind. Laut MT-Spezialisten sollte mit dem Training einer Übersetzungsmaschine erst dann begonnen werden, wenn pro Sprachkombination mindestens 300'000 Satzsegmente vorhanden sind. Brauchbare Übersetzungsresultate können in der Regel erst ab 1 Million Satzsegmente pro Sprachkombination erwartet werden und einwandfreie Übersetzungsresultate sind erst mit mehreren Millionen perfekter Datensätze pro Sprachkombination möglich. Es ist an dieser Stelle zu prüfen, ob solche Datensätze überhaupt in guter Qualität vorhanden sind, inwiefern die Trainingsdaten noch bearbeitet werden müssen (z. B. durch eine Datenanonymisierung) und ob qualifizierte Ressourcen zur Verfügung stehen, welche diese Sprachdaten längerfristig managen können. Viele Unternehmen sahen sich dazu veranlasst, eigene Abteilungen für das Management von Sprachdaten aufzubauen, um diesen Anforderungen erfolgreich begegnen zu können.

Es ist ebenfalls möglich, unternehmens- und branchenspezifische Begriffe über mehrsprachige Glossardatensätze in die maschinelle Übersetzung einzufügen. Da es sich hierbei aber nicht um ein Training, sondern lediglich um einen 1-zu-1-Such- und Ersetzungsmechanismus handelt, ist die Anwendung insbesondere bei Glossaren mit kurzen und vagen Begriffen sehr fehleranfällig. Die Erfahrung zeigt, dass Glossare für die Verwendung in der maschinellen Übersetzung zusätzlich aufbereitet werden müssen. Einsprachige Dokumente und Wörterbücher finden als Trainingsdaten für die maschinelle Übersetzung kaum Verwendung. Sie sind für die ergänzende Wort- und Phrasenauswahl geeignet und unterstützen beispielsweise dabei, Quell- oder Zielzeichenketten automatisch anzupassen.

Definition der Qualitätssicherung

Eine wichtige und heikle Komponente einer kundenspezifischen KI-Übersetzungslösung ist die Strategie zur Messung der maschinellen Übersetzungsqualität. Grundsätzlich wird zwischen einer automatischen und menschlichen Qualitätsbewertung unterschieden. Automatische Kennzahlen wie BLEU (BiLingual Evaluation Understudy), LEPOR (LEngth penalty, Precision, n-gramm POsition difference penalty and Recall) oder COMET (Crosslingual Optimized Metric for Evaluation of Translation) evaluieren die Ähnlichkeit einer maschinellen Übersetzung zu einer menschlichen Übersetzung, wobei die Resultate als grobe Qualitätseinschätzungen zu interpretieren sind. Bei der aufwendigeren menschlichen Qualitätsbewertung, z. B. nach dem Dynamic Quality Framework von TAUS, validieren qualifizierte Linguisten die maschinellen Übersetzungen anhand verschiedener Kriterien wie z. B. Genauigkeit, Verständlichkeit oder Stil. Es ist vorneweg zu definieren, wie die Messung der maschinellen Übersetzungsqualität durchgeführt werden soll und welche qualifizierten Ressourcen (in der Regel mit computerlinguistischem Know-how) die Resultate auswerten und weiterverwenden sollen.

Bereitstellung der Dienstleistung

Schlussendlich gilt es zu definieren, wie die spezifische KI-Übersetzungslösung in die bestehenden Prozesse integriert werden soll. Aus welchen Systemen können mit welchen Parametern die maschinellen Übersetzungen beauftragt werden? Wo fliessen die Resultate hin? Welche Spielregeln, z. B. Dateigrössen, müssen in der Anwendung eingehalten werden? Sehr oft werden KI-Übersetzungslösungen über Schnittstellen oder Plugins in weitere Systeme integriert. Hierzu gilt es zu verifizieren, ob die technischen Ressourcen und Dokumentationen für eine Umsetzung zur Verfügung stehen.

Einen entscheidenden Einfluss auf die Qualität einer maschinellen Übersetzung hat die Qualität des Ausgangstexts. Insbesondere lange Sätze, komplizierte Satzstrukturen, satzübergreifende Zusammenhänge, viele Fremdwörter und Synonyme sowie eine fehlerhafte Grammatik und Rechtschreibung haben einen negativen Einfluss auf die Qualität von maschinellen Übersetzungen. Es ist ratsam, eine Strategie für das linguistische Präeditieren der Ausgangstexte zu entwickeln, damit die Qualität der maschinellen Übersetzung optimiert werden kann.

Aufgrund der limitierten Qualität von maschinellen Übersetzungen besteht in der Regel die Anforderung, dass die Übersetzungsresultate überprüft und gegebenenfalls manuell angepasst werden können. Das sogenannte Posteditieren unterscheidet sich dabei gemäss der Norm ISO 18587 von der klassischen Übersetzung, da es drei Texte einbezieht: den ausgangssprachlichen Text, das Ergebnis der maschinellen Übersetzung und den finalen (korrigierten) zielsprachlichen Text. Um ein professionelles Posteditieren gewährleisten zu können, müssen diese drei Texte auf einer Segmentbasis zur Bearbeitung bereitgestellt werden. Idealerweise stehen während des Posteditierens ebenfalls Satz- und Glossardatenbanken sowie Qualitätschecks unterstützend zur Verfügung. Letztendlich ist die Verfügbarkeit der benötigten Sprachspezialisten sowie deren Schulung in der Anwendung der eingesetzten Tools sicherzustellen.

Fazit

Künstliche Intelligenz ermöglicht die Übersetzung von Inhalten, welche in der Vergangenheit aus Zeit- und Kostengründen nicht übersetzt werden konnten. Für solche Fälle wurde damit der Qualitätsstandard «good enough» eingeführt sowie die Faustregel «lieber eine maschinelle Übersetzung als keine Übersetzung» aufgestellt. Die erfolgreiche Einführung einer massgeschneiderten, kundenspezifischen KI-Übersetzungslösung ist jedoch ein komplexes Unterfangen. Es lohnt sich, vor dem Start eines solchen Projekts eine saubere Auslegeordnung zu machen und neutral zu beurteilen, ob solche Investitionen wirklich sinnvoll sind. 24translate steht Ihnen mit langjähriger Erfahrung und umfassendem Fachwissen zur Seite, um KI-Übersetzungen in Ihrem Unternehmen aus mehreren Blickwinkeln beurteilen zu können.

Zur Blog Hauptseite

Willkommen auf unserem Blog!

Bei Fragen, Anmerkungen oder für eine unverbindliche Beratung stehen wir Ihnen gerne zur Verfügung:

 

Deutschland

Tel.: +49 (0)40 480 632-0

service@24translate.de

www.24translate.de

 

Schweiz

Tel.: +41 (0)71 226 46 56

info@24translate.ch

www.24translate.ch

24 | Insights

Melden Sie sich hier zu unserem Newsletter an: