Die Gefahren maschinellen Lernens
Google Translate ist ein Dienst, der nicht aus Wörterbüchern übersetzt, sondern aus Assoziationen über fremden Content. Diese Methode soll schnellere Anpassungen an sich ändernde Sprachgewohnheiten und so bessere Übersetzungen liefern. Aber das klappt nicht immer.
Die Funktionsweise ist einfach: Man sucht den zu übersetzenden Text auf einer anderen Webseite und schaut nach, ob es diese Webseite auch in einer anderen Sprache gibt. Wenn ja, kann man die Übersetzung einfach abschreiben. Zusätzlich garniert Google die vielen möglichen Fundstellen mit einer Nutzerinteraktion: Per Klick kann man die am besten passende Übersetzung auswählen. Und schon hat Google wieder etwas besser gelernt, den Text zu übersetzen.
Diese Anwendung von Big Data ist ein Spiel mit der Statistik: Die Masse macht's. Das was oft auftaucht, ist offenbar das, was typisch ist.
Abgesehen von der offenkundigen Tatsache, daß sich gute wie schlechte Gewohnheiten selbst verstärken, entdeckt dieses Verfahren auch die typischen Voreinstellungen. Voreinstellungen, die massenhaft auftauchen, sind vom korrekten Gebrauch eben nicht zu unterscheiden.
Der wohl bekannteste Fülltext für neue Webseiten ist "Lorem ipsum". Und schon lernt Google was die Menschen, die neue Webseiten entwickeln, so alles an anderen Fülltexten benutzen.
Lorem ipsum dolor sit amet. This is boring. Lorem ipsum dolor amet sit. It really is. Lorem ipsum amet dolor sit. This service is available. Lorem ipsum amet sit dolor. This guy is smart. Lorem ipsum sit dolor amet. This is a smart guy. Lorem ipsum sit amet dolor. It is a pain.
Diese und noch mehr Übersetzungen hat ein Finne zusammengesucht. Viel Spaß am Gerät.