Unfake Text
Bereinigt manipulierte Strings durch Mapping von Lookalikes auf lateinische Zeichen. Vollbreite-Zeichen validieren und Zeilenumbrüche beibehalten.
Bitte Parameter konfigurieren und Aktion ausführen.
Über Unfake Text
Unfake Text hilft dabei, täuschend echten Text wieder zu normalisieren, indem bekannte Homoglyphen ersetzt und Vollbreite-Zeichen normalisiert werden.
Funktionen
Dieses Tool bietet folgende Funktionen:
- Homoglyph Cleanup – Konvertiert häufig verwendete kyrillische/griechische Buchstaben zurück ins Lateinische.
- Normalisierung in voller Breite – Konvertiert Zeichen voller Breite in normale Breite.
- Layout bleibt erhalten – Leerzeichen und Zeilenumbrüche bleiben unverändert.
Beispiele
-
Ungefälschte kyrillische Doppelgänger
Eingabe: Passwort jetzt zurücksetzen Homoglyphen konvertieren: Ein Volle Breite konvertieren: Aus Ausgabe: Passwort jetzt zurücksetzen
-
Ungefälschter Text in voller Breite
Eingabe: Hello, world! Homoglyphen konvertieren: Aus Volle Breite konvertieren: Auf Ausgabe: Hallo Welt!
-
Unfake beider
Eingabe: VΕRΙFY ACCΟUNT Homoglyphen konvertieren: Ein Volle Breite konvertieren: Auf Ausgabe: KONTO VERIFIZIEREN
Praktische Anwendungsbeispiele
- Erkennung von Phishing-Angriffen durch Homoglyphen - Sicherheitsanalysten können verdächtige URLs oder E-Mail-Anzeigenamen prüfen. Das Tool macht versteckte kyrillische oder griechische Zeichen sichtbar, die legitime Markennamen imitieren, um Login-Daten bei Phishing-Attacken abzugreifen.
- Umgehung von Inhaltsfiltern in sozialen Medien - Moderatoren nutzen das Tool, um 'Fancy Fonts' oder mathematische Symbole zu normalisieren, mit denen Nutzer versuchen, Keyword-Filter zu umgehen. Die Umwandlung in Standard-Latein ermöglicht eine korrekte automatisierte Inhaltsprüfung.
- Datenbereinigung für Legacy-Software-Exporte - Beim Datenimport aus Altsystemen oder asiatischen Eingabemethoden führen vollbreite Zeichen (Full-width) oft zu Fehlern in Datenbank-Indizes. Das Tool standardisiert diese Zeichen auf Normalbreite, um Dubletten zu vermeiden.
- Text-Normalisierung für Machine Learning - Entwickler bereiten Textkorpora für LLMs vor, indem sie visuelles Rauschen entfernen. Eine einheitliche Normalisierung stellt sicher, dass die Tokenisierung konsistent bleibt, was die Genauigkeit von KI-Modellen deutlich erhöht.
Häufig gestellte Fragen
Wie geht das Tool mit gemischten Schriftsystemen um?
Es scannt den Text gezielt nach bekannten Verwechslungskandidaten (Homoglyphen) aus anderen Alphabeten und ersetzt diese durch die lateinische Entsprechung, während reguläre Zeichen unberührt bleiben.
Werden alle Homoglyphen-Varianten erfasst?
Das Tool deckt die am häufigsten für Betrug und Filterumgehung genutzten Zeichen ab. Es ist auf Glyphen optimiert, die in gängigen Webschriftarten visuell nicht vom Original zu unterscheiden sind.
Bleibt das Layout des Textes erhalten?
Ja. Die Konvertierung findet nur auf der Ebene der Zeichenkodierung statt. Leerzeichen, Zeilenumbrüche und die allgemeine Textstruktur werden nicht verändert.
Warum verursachen diese Zeichen Probleme in Datenbanken?
Für einen Computer sind ein lateinisches 'a' und ein kyrillisches 'а' zwei völlig unterschiedliche Datensätze, auch wenn sie für uns gleich aussehen. Das Tool vereinheitlicht diese Codes für eine fehlerfreie Verarbeitung.