Berechnung von Information und Komplexität

Konzepte, Anforderungen und Grenzen

Frank Wolf

[English]

Dieser Artikel wurde aus der Dissertation des Autors extrahiert. Er gibt eine knappe Übersicht zur Berechnung einiger Maße für Information und Komplexität aus praktischer Sicht. Weitere Details und theoretische Hintergründe müssen in der Literatur nachgelesen werden und sind in der Dissertation zusammengestellt.


Gliederung:
1. Alphabete und Symbolfolgen
2. Verteilungen von Wörtern
3. Notation
4. Maße für Information
4.1 Shannon-Entropie
4.2 Metrische Entropie
4.3 Rényi-Entropie
4.4 Mittlerer Informationsgewinn
4.5 Mittlere wechselseitige Information
5. Maße für Komplexität
5.1 Effektive Maßkomplexität
5.2 Fluktuationskomplexität
5.3 Rényi-Komplexität
6. Erforderliche Datenmenge und maximale Wortlänge
6.1 Hintergrund
6.2 Rechner
7. Literatur

1. Alphabete und Symbolfolgen

Die Berechnung von Information und Komplexität beschränkt sich hier auf eindimensionale äquidistante Zeitreihen. Der Wertebereich einer Zeitreihe ist dabei auf die Symbole eines kleinen Alphabets beschränkt. Anstelle von Zeitreihen spricht man daher auch von Symbolfolgen. Beispiele für Alphabete sind etwa:

Eine Zeitreihe, die nicht als Symbolfolge vorliegt kann z. B. durch Partitionierung ihres Wertebereiches in eine Symbolfolge umgewandelt werden. Dabei können bestimmte Bereiche des Wertebereiches einem Symbol zugeordnet werden. Beliebt ist z. B. die Zuordnung aller Werte unterhalb des Medians der Zeitreihe zu dem Symbol '0' und aller Werte darüber zu dem Symbol '1'. Auf diese Weise entsteht eine binäre Symbolsequenz mit etwa gleich vielen Nullen und Einsen.

2. Verteilungen von Wörtern

Die Berechnung von Information und Komplexität erfolgt über die Verteilungen von Teilsequenzen der Symbolfolge – der sogenannten Wörter. Dazu wird zunächst eine Wortlänge L festgelegt. Die Wörter der Länge L werden auch L-Wörter genannt. Von jedem dieser L-Wörter wird dann die relative Häufigkeit pL,i in der Symbolfolge ermittelt. Darüber hinaus werden bei manchen Maßen auch noch die Übergangshäufigkeiten zwischen Wörtern berücksichtigt.

Ermittlung aller Wörter der Länge 5 und
Erstellung einer Liste der verschiedenen Wörter mit ihren Häufigkeiten.
In der Abbildung liegt eine binäre Symbolfolge vor. Ein Fenster der Länge 5 wird jeweils um ein Symbol verschoben über die Sequenz geschoben. Dabei wird eine Liste aller verschiedenen 5-Wörter erstellt. Die relative Häufigkeit jedes dieser Wörter wird ebenfalls in der Liste notiert.

3. Notation

Hinweis: Die Maße für Information und Komplexität sind über Wahrscheinlichkeits-Verteilungen definiert. Diese sind jedoch bei praktischen Daten (Meßreihen, Texte, DNA, etc.) unbekannt. Bei der Berechnung der Maße müssen in diesem Fall die Wahrscheinlichkeiten durch die relativen Häufigkeiten approximiert werden. In der Notation soll hier nicht zwischen relativen Häufigkeiten und Wahrscheinlichkeiten unterschieden werden.

In den Formeln werden die folgenden Größen und Symbole verwendet:
LWortlänge
i Index des i-ten L-Wortes, L-Wort i
λAnzahl der Symbole eines Alphabets, Alphabetgröße
nAnzahl der der verschiedenen L-Wörter, maximal λL
pi, pL,i Wahrscheinlichkeit für das Auftreten des i-ten L-Wortes
pL,ij Wahrscheinlichkeit für das gleichzeitige Auftreten des i-ten und des j-ten L-Wortes, wobei das Wort j ein auf das Wort i überlappend folgendes Wort ist. Die beiden Wörter haben daher L-1 Symbole gemeinsam.
pipL,i→j Wahrscheinlichkeit für das Auftreten des j-ten L-Wortes unter der Bedingung der vorherigen Beobachtung des i-ten L-Wortes

4. Maße für Information

4.1 Shannon-Entropie

Im Zusammenhang mit Untersuchungen zur Nachrichtenübertragung in Telefonleitungen definierte Shannon (1948) das historisch erste Maß für Information - die Shannon Entropie:
(1)
Der Informationsbegriff von Shannon bewertet nicht den semantischen Inhalt oder die Bedeutung einer Nachricht, sondern dessen Unvorhersagbarkeit (Zufälligkeit, Unordnung). Eine Nachricht ist umso informationsreicher, je unsicherer wir über ihren syntaktischen Inhalt sind. Die Shannon-Entropie ist das klassische Maß für Information und wird durch die folgenden Informationsmaße verfeinert. Der Name "Entropie" geht auf die analoge Bedeutung der Formel in der Thermodynamik zurück.

4.2 Metrische Entropie

Die Shannon-Entropie nimmt linear mit der Wortlänge zu. Durch Normierung mit der Wortlänge erhält man den gleichen Informationsbegriff aber unabhängig von der Wortlänge. Dieses Maß wird Metrische Entropie genannt:
(2)
Die Metrische Entropie ist 0 für konstante Folgen, nimmt monoton mit der Unordnung der Folgen zu und ist 1 bei gleichverteilten Zufallsfolgen.

4.3 Rényi-Entropie

Rényi (1960 u. 1961) schlug eine Verallgemeinerung der Shannon-Entropie vor - die Rényi-Entropie der Ordnung α:
(3)
Durch den Parameter α können seltene oder häufige Wörter unterschiedlich gewichtet werden. Für α > 1 werden die höheren Wahrscheinlichkeiten stärker gewichtet als die niedrigeren. Für α < 1 werden umgekehrt die niedrigeren Wahrscheinlichkeiten aufgewertet.

4.4 Mittlerer Informationsgewinn

Der mittlere Gewinn an Information, der durch die Kenntnis des auf ein L-Wort folgenden Symbols erhalten wird, definiert ein weiteres wichtiges Maß für Information. Den mittleren Informationsgewinn.
(4)
Diese Formel ist äquivalent zur Differenz der Shannon-Entropien
(5)
Die kompakte Formel benötigt weniger Rechenzeit und ist numerisch stabiler.
Dieser Informationsbegriff läßt sich anhand eines Beispiels für ein Wort leicht veranschaulichen: Wenn in diesem Text die Buchstabenfolge „Info” beobachtet wird, dann ist der darauffolgende Buchstabe mit Sicherheit ein „r”. Durch die Kenntnis des nachfolgenden Buchstabens gewinnen wir in diesem Fall keine Information dazu. Hätten wir die Folge „die_” beobachtet, dann ist es schwer den nächsten Buchstaben vorherzusagen. Nahezu jeder Buchstabe ist möglich, da es sich um den ersten Buchstaben eines beliebigen Wortes der deutschen Sprache handelt. Durch die Kenntnis des nächsten Buchstabens gewinnen wir hier also viel Information hinzu. Der mittlere Informationsgewinn HG gibt an, wieviel zusätzliche Information das nächste Zeichen einer Symbolfolge im Mittel bringt.

4.5 Mittlere wechselseitige Information

Die mittlere wechselseitige Information gibt an, wieviel Information im Mittel in der Abhängigkeit (Korreliertheit) von zwei aufeinanderfolgenden Wörten enthalten ist. Sie wird nach Wackerbauer et al. (1994) wie folgt definiert:
(6)
Diese Formel ist theoretisch äquivalent zu einer Differenz von Shannon-Entropien:
(7)
Die kompakte Formel benötigt weniger Rechenzeit als die Differenzen-Formel. Außerdem gibt es Unterschiede in der Genauigkeit, wie der Rechner zeigt.

5. Maße für Komplexität

5.1 Effektive Maßkomplexität

Die minimale Gesamtmenge an Information, die gespeichert werden muss, um zu jeder Zeit eine optimale Vorhersage über das nächste Symbol liefern zu können wird nach Grassberger (1986, S. 920) mit der Effektiven Maßkomplexität angegeben. Diese Größe ist als Grenzwert definiert und kann durch die Formel
(8)
approximiert werden. Schneller zu berechnen und numerisch stabiler ist die äquivalente Formel
(9)

5.2 Fluktuationskomplexität

Beim Übergang des L-Wortes i in das L-Wort j ist mit dem neuen Symbol ein Informationsgewinn verbunden. Dies führte zur Definition des Mittleren Informationsgewinns. Gleichzeitig ist mit dem Vergessen des ersten Symbols von Wort i ein Informationsverlust verbunden. Im Mittel über die gesamte Symbolfolge heben sich Informationsgewinn und -verlust auf. Die Schwankung zwischen diesen beiden Größen wird mit der Fluktuationskomplexität nach Bates & Shepard (1993) gemessen.
(10)
Im Beispiel zum Informationsgewinn wurde das 4-Wort „Info” betrachtet, auf das das 4-Wort „nfor” folgt. Der Informationsgewinn durch das „r” ist Null in diesem Text, während der Informationsverlust durch das Vergessen des „I” höher ist. Denn „nfor” kommt in diesem Text auch in den Wörtern „Anforderungen” und „informativ” mit kleinem „i” vor. Je mehr diese Bilanz aus Informationsgewinn und -verlust in dem untersuchten Text schwankt, desto komplexer ist der Text im Sinne der Fluktuationskomplexität.

5.3 Rényi-Komplexität

Nach einer mündlichen Empfehlung von Prof. Dr. Jürgen Kurths können die Differenzen von Rényi-Entropien konjugierter Ordnungen als Maß für Komplexität verstanden werden. Dies führt zu einer eigenen Definition eines Komplexitätsmaßes. Die Rényi-Komplexität CR(α) der Ordnung α > 1 einer Verteilung von L-Wörtern sei:
(11)
Der Normierungsfaktor schafft Unabhängigkeit von der Wortlänge und hebt die Nullstelle für α → 1 auf. Untersuchungen zeigten, dass CR nur für α ≈ 1 spezifisch im Sinne eines Maßes für Komplexität ist. Daher sei die Rényi-Komplexität definiert als
(12)
Es zeigte sich, dass eine gute numerisch stabile Approximation dieser Größe durch CR(1.0001) erreicht wird. Die Rényi-Komplexität liefert eine Bewertung von Dynamik, die qualitativ mit der Bewertung von Dynamik der Fluktuationskomplexität vergleichbar ist. Die Rényi-Komplexität erwies sich jedoch als die stabilere Alternative.

6. Erforderliche Datenmenge und maximale Wortlänge

6.1 Hintergrund

Wie bereits bei der Notation erwähnt, sind die Informations- und Komplexitätsmaße auf den Wahrscheinlichkeitsverteilungen der L-Wörter definiert. Diese sind aber bei praktischen Daten unbekannt und können nur aus den relativen Häufigkeiten geschätzt werden. Es ist leicht einzusehen, dass diese Schätzung bei großen Wortlängen im Vergleich zur Anzahl der Datenpunkte unmöglich sein kann und zu erheblichen Fehlern in den Maßen führt. Bei N Datenpunkten gibt es NL+1 Wörter. Theoretisch sind maximal λL verschiedene Wörter möglich. Daher können bereits bei kleinen Wortlängen nicht mehr alle theoretisch möglichen Wörter (genügend oft) beobachtet werden. Zur Erfassung der dynamischen Struktur der Daten sind jedoch meist hohe Wortlängen erforderlich. Damit wird die Wortlänge auf den maximalen Wert fixiert, der noch eine hinreichend genaue Berechnung eines Maßes erlaubt.

Ein solcher Wert kann jedoch nicht für alle Verteilungen ermittelt werden. Es kann jedoch eine Abschätzung für den schlimmsten Fall gemacht werden. Dies ist der Fall gleichverteilter Zufallsfolgen, da hier stets alle Wörter möglich sind und sich der Datenvorrat somit am schnellsten erschöpft. In diesem Fall kann die Wahrscheinlichkeit ein Wort gar nicht, einmal, zweimal etc. zu beobachten gemäß einer Binomial-Verteilung angegeben werden. Damit kann für jedes Informations- und Komplexitätsmaß ein Erwartungswert in Abhängigkeit von der Datenmenge, Wortlänge und Alphabetgröße berechnet werden. Die entsprechenden Formeln sind in der Dissertation hergeleitet. Der theoretische Wert der Maße ist in diesem Fall außerdem bekannt. Somit kann eine Toleranzbedingung für die Abweichung (relative Genauigkeit) des Erwartungswertes vom theoretischen Wert aufgestellt werden. Zu gegebener maximaler Genauigkeit kann damit für jede Alphabetgröße und Wortlänge die erforderliche Datenmenge bestimmt werden. Dies erfordert einen erheblichen Rechenaufwand, da sich die Gleichungen analytisch nicht lösen lassen. Entsprechende Rechnungen wurden in der Dissertation für einge relevante Parameterkombinationen durchgeführt. D. h. für 1 % und 2 % relative Genauigkeit, binäre, ternäre und quaternäre Alphabete und alle Wortlängen, bis mehr als 1000000 Datenpunkte erforderlich wurden. Die Ergebnisse werden hier durch den JavaScript Rechner zugänglich gemacht.

6.2 Rechner

Mit Hilfe des Javascript Rechners können Sie ermittlen, welche Wortlänge bei einer gegebenen Anzahl von Datenpunkten noch erlaubt ist, oder wieviele Datenpunkte für eine gegebene Wortlänge erforderlich ist. Der Rechner berücksichtigt den schlimmsten (Daten-intensivsten) Fall. Beachten Sie daher bitte Folgendes:

Genauigkeit:
1 %
5 %
Alphabet Größe: 2, binär
3, ternär
4, quaternär
Mindestens erforderliche Datenmenge für Wortlänge
Maximale Wortlänge für Datenpunkte






Die Angaben des Rechners beziehen sich auf die folgenden Formeln: Shannon-Entropie: (1), (2) und (3) mit α ≈ 1; Informationsgewinn: (4) und (5); Wechselseitige Information: diff. (7), kmpkt. (6); Effektive Maßkomplexität: (8) und (9); Fluktuationskomplexität: (10); Rényi-Komplexität: (11) mit α = 1.0001.

7. Literatur

Bates, JE; Shepard, HK (1993): Measuring complexity using information fluctuation. Physics Letters A, 172: 416–425.
Grassberger, P (1986): Toward a Quantitative Theory of Self-Generated Complexity. International Journal of Theoretical Physics, 25 (9): 907–938.
Rényi, A (1960): Some Fundamental Questions of Information Theory. In: Pál Turán (Hrsg.): Selected Papers of Alfréd Rényi. Vol. 2: 1956 — 1961. Budapest: Akadémiai Kiadó, 1976: 526–552.
Rényi, A (1961): On measures of entropy and information. In: Pál Turán (Hrsg.): Selected Papers of Alfréd Rényi. Vol. 2: 1956 — 1961. Budapest: Akadémiai Kiadó, 1976: 565–580.
Shannon, CE (1948): A Mathematical Theory of Communication. Bell System Technical Journal, 27: 379–423.
Wackerbauer, R; Witt, A; Atmanspacher, H; Kurths, J; Scheingraber, H (1994): A Comparative Classification of Complexity Measures. Chaos, Solitons & Fractals, 4: 133–173.
Eine ausführlichere Literaturliste findet sich in der Dissertation.
Letzte Änderung: 22. Dezember 2004 Zugriffe seit 21. Februar 2001: