Alphabetische Sortierung

Die alphabetische Sortierung ist eine Sortierung, nach der Zeichenketten nach der Reihenfolge der Buchstaben im Alphabet angeordnet werden. Die herkömmliche Sortierung wird auch als initialalphabetische Sortierung bezeichnet, da die Ordnung der einzelnen Buchstaben in Schriftrichtung ermittelt wird.

Während für die Buchstaben des Alphabets üblicherweise die allgemein anerkannte Reihenfolge benutzt wird, gibt es für die Sortierung von Besonderheiten wie Sonderzeichen, diakritischen Zeichen, Leerzeichen, Groß- und Kleinschreibung, Bindestrichen sowie Ziffern unterschiedliche Regeln und Normen.

Um bei zwei gegebenen Zeichenketten zu entscheiden, welche in der (initial)alphabetischen Sortierung zuerst kommt, werden die Zeichenketten, beginnend vom ersten Zeichen, zeichenweise verglichen. Die erste Zeichenposition, an denen sich die beiden Zeichenketten unterscheiden, entscheidet die Reihenfolge: Die Zeichenkette, deren Zeichen an dieser Position weiter vorne im Alphabet steht, kommt zuerst. So kommt beispielsweise „elektrisch“ vor „fertig“ (e vor f) und „Fahrrad“ vor „Fahrstuhl“ (r vor s). Wenn eine Zeichenkette kürzer als die andere ist und gleich dem Anfang der anderen, kann diese Regel nicht angewandt werden. Dann wird üblicherweise die kürzere Zeichenkette zuerst sortiert. So kommt beispielsweise „Fahrrad“ vor „Fahrradkette“.

Für den Umgang mit Satzzeichen, Sonderzeichen und Groß- und Kleinschreibung gibt es verschiedene Regeln; siehe dazu Abschnitt Sortierregeln nach Sprachen.

Die alphabetische Sortierung ist die Vorlage für das mathematische Konzept der lexikographischen Ordnung. Umgekehrt ist die alphabetische Sortierung selber eine lexikographische Ordnung, mit der Reihenfolge der Buchstaben im Alphabet als zugrundeliegender linearer Ordnung.

Marcus Verrius Flaccus (* um 10 v. Chr.) ordnete als Erster ein lateinisches Wörterbuch alphabetisch an. Die Suda aus der 2. Hälfte des 10. Jahrhunderts ist die erste alphabetisch angeordnete byzantinische Enzyklopädie. Der Liber de proprietatibus rerum des Bartholomaeus Anglicus aus dem 13. Jahrhundert ist ebenfalls alphabetisch geordnet und wird oft als ein Vorläufer der Enzyklopädie angesehen. Das Prinzip, die Schriftzeichen überhaupt in einer bestimmten Abfolge anzuordnen, ist schon über dreitausend Jahre alt; siehe Ugaritische Schrift und allgemein Geschichte des Alphabets.

Das deutsche Alphabet ergänzt das moderne lateinische Alphabet um die Umlaute Ä, Ö und Ü sowie den Buchstaben ß. Diese zusätzlichen Buchstaben können auf vier Arten einsortiert werden:

Für alle sonstigen (fremdsprachigen) diakritischen Zeichen gilt im deutschsprachigen Raum, dass sie einheitlich weggelassen werden; so auch alle Akzente, Tilde, Makron: é und e, ç und c, ñ und n, č und c, ō und o sind gleich.

Die deutsche Norm DIN 5007-1 beschreibt unter dem Titel „Ordnen von Schriftzeichenfolgen (ABC-Regeln)“ das Sortieren.

DIN 5007 Variante 1 (für Wörter verwendet, etwa in Lexika; Abschnitt 6.1.1.4.1)

DIN 5007 Variante 2 (spezielle Sortierung für Namenslisten, etwa in Telefonbüchern; Abschnitt 6.1.1.4.2)

Dies berücksichtigt, dass bei Eigennamen unterschiedliche Schreibweisen möglich sind, während Begriffe in einem Lexikon oder Wörterbuch nur unter genau einer Schreibung einzutragen sind. Dagegen kann nicht erschlossen werden, ob jemand nun Moeller oder Möller heißt. Dies gilt vor allem für deutschsprachige Einzelpersonen, Institutionen und Ortsnamen.

Personennamen werden in Deutschland häufig (z. B. in Telefonbüchern) in der folgenden Art und Weise alphabetisch sortiert:

Diese Art der Sortierung ist in den bibliographischen Ordnungsregeln DIN 31638 geregelt.

Österreichische Sortierung (für Telefonbücher)

Im gedruckten österreichischen Telefonbuch finden sich unterschiedliche Sortierungen: Im Ortsverzeichnis werden Umlaute und ß wie eigene Buchstaben am Ende des Alphabets einsortiert. In den Infoseiten und Gelben Seiten wird nach DIN 5007 Variante 1 sortiert. Im Namensverzeichnis wird die Österreichische Sortierung verwendet.

In Bibliotheken folgt sch oft auf s, also erst nach sz.

Die beiden Schreibungen von Goethe stehen bei Variante 2 unmittelbar benachbart, nur durch Vornamen voneinander unterschieden. Johann Wolfgang von Goethe verwendete zu Lebzeiten beide Varianten; die Familie hieß zuvor Göthé. Die heute einheitliche Schreibweise wurde erst mehr als ein Vierteljahrhundert nach seinem Tod von Germanisten eingeführt.

Das albanische Alphabet besteht aus (sofern w nicht mitgerechnet) 36 Buchstaben, die zum Teil Digraphen sind.

Bei anderen Sprachen unterliegt die alphabetische Sortierung ebenfalls sprachabhängigen Zusatzregeln, die ihre Ursache in zusätzlichen Buchstaben oder speziellen Sonderregeln haben. So gibt es im Spanischen traditionell den Buchstaben Ch, der bis 1994 üblicherweise alphabetisch an anderer Stelle stand als ein C, was die Computeralgorithmen zur Sortierung vor Probleme stellte. Nach n folgt ñ. Noch kritischer wird die alphabetische Sortierung bei Sprachen wie Japanisch oder Chinesisch, die eine Vielzahl von Zeichen verwenden und deren Reihenfolge im Font (also deren Codierung) nicht der Reihenfolge einer dort üblichen Sortierung entspricht. Im Chinesischen ist zum Beispiel die Sortierung nach dem Pinyin-Äquivalent (in Computersystemen) oder nach einem System üblich, welches sich nach dem Basissymbol und der Anzahl der Striche in Uhrzeigerrichtung richtet (in Wörterbüchern).

Computersysteme codieren die gespeicherten Zeichenketten mittels eines systemweiten oder anwendungsspezifischen Standardcodes (ASCII und seine Varianten oder Ergänzungen, seltener EBCDIC, heute immer mehr Unicode) und ordnen die Zeichen (einschließlich Ziffern, Leerzeichen, Satz- und Sonderzeichen) im einfachsten Fall nach dem zugeordneten Zahlenwert dieses Codes, sodass beispielsweise auch alle lateinischen Großbuchstaben vor dem kleinen „a“ eingeordnet werden. Viele Programme wenden jedoch eine von den Benutzern kulturell erwartete traditionelle Sortierung an. Dabei gibt es Möglichkeiten, auf die Sortierreihenfolge durch individuelle Kodierung oder Parametrisierung Einfluss zu nehmen. Ein möglicher Algorithmus, der dabei Anwendung findet, ist der Unicode Collation Algorithm. Die Art der Sortierung wird durch Angabe einer sogenannten Kollation (von englisch collation ‚Sortierfolge‘) für Betriebssystemkonfigurationen und Anwendungen wie beispielsweise Datenbanksysteme festgelegt.

Die rückläufige Sortierung ist eine alphabetische Sortierung, bei der die Wörter von hinten nach vorne gelesen werden. Bei der Erstellung von Rückläufigen Wörterbüchern wird in dieser Weise sortiert. Sie kann auch in Reimlexika verwendet werden.