Computer interpretieren Text als eine Abfolge von Nullen und Einsen, bekannt als Binärcode. Die Zeichenkodierung definiert, welcher Zahlenkette ein bestimmtes Zeichen zugeordnet ist.
Im Fall der ASCII-Kodierung wird beispielsweise das Zeichen "N" durch 01001110
repräsentiert. Umlaute haben in dieser Kodierung jedoch keine festgelegten Zahlenwerte, was zu Darstellungsproblemen führt. Daher ist es unerlässlich, eine passende Zeichenkodierung zu wählen und diese anzugeben, um Missverständnisse zu vermeiden.
In der Entwicklung der Zeichenkodierung hat sich in den letzten Jahren die UTF-8-Kodierung, als weit verbreitet und standardisiert durchgesetzt. UTF-8 steht für "Unicode Transformation Format – 8-bit" und ermöglicht die Darstellung von Zeichen aus nahezu allen Schriftsystemen weltweit. Im Gegensatz zu älteren Kodierungen wie ASCII kann UTF-8 sowohl einfache lateinische Buchstaben als auch Zeichen aus asiatischen, arabischen und anderen Schriftsystemen repräsentieren.