Articles

Zipf’s Gesetz der Worthäufigkeiten durch Sample-Space-Kollaps in der Satzbildung verstehen

Einleitung

Geschriebene Texte zeigen das bemerkenswerte Merkmal, dass die Rangordnung der Worthäufigkeiten einem ungefähren Potenzgesetz folgt

Anzeigeformel

1.1

wobei r der Rang ist, der jedem Wort im Text zugewiesen wird. Für die meisten Texte, unabhängig von Sprache, Zeitpunkt der Erstellung, Genre der Literatur, ihrem Zweck usw. man findet das α ∼ 1, das als Zipfsches Gesetz bezeichnet wird . In Abbildung 1 wird die Worthäufigkeit für Darwins Text The origin of species angezeigt. Die Suche nach dem Verständnis des Ursprungs dieser statistischen Regelmäßigkeit dauert seit fast einem Jahrhundert an. Zipf selbst lieferte eine qualitative Erklärung, die auf den Bemühungen eines Senders und eines Empfängers in Kommunikationsereignisse beruhte . Diese Ideen wurden später in einem informationstheoretischen Rahmen formalisiert . Das erste quantitative Modell, das auf linguistischen Annahmen zur Texterzeugung basiert, wurde von Simon vorgeschlagen . Das Modell geht davon aus, dass Wörter, die bereits im Text erschienen sind, anderen vorgezogen werden, wenn der Kontext bei der Erstellung eines Textes entsteht. Durch die einfache Annahme, dass Wörter, die zuvor erschienen sind, dem Text mit einer Wahrscheinlichkeit hinzugefügt werden, die proportional zu ihrem vorherigen Auftreten ist (bevorzugter Anhang), und unter der Annahme, dass Wörter, die bisher nicht erschienen sind, mit einer konstanten Rate hinzugefügt werden, ist es möglich, das Zipf-Gesetz abzuleiten, da die letztere Rate niedrig ist. Dieses bevorzugte Bindungsmodell wurde verfeinert, indem die empirische Tatsache implementiert wurde, dass die Häufigkeit des Auftretens neuer Wörter mit zunehmender Länge der Texte abnimmt . In klassischen Werken wurde gezeigt, dass zufällige Schreibmaschinenmodelle zu Zipf-ähnlichen Verteilungen von Wortfrequenzen führen können . Diese Arbeiten basieren jedoch auf unrealistischen Annahmen über Wortlängenverteilungen und führen zu unstrukturierten und nicht interpretierbaren Texten. Wie wir jedoch zeigen werden, kann die Grammatikstruktur zusammen mit Diskurserzeugungsmechanismen eine wesentliche Rolle bei der Entstehung des Zipfschen Gesetzes in einem realistischen Kontext spielen. Es ist wichtig zu betonen, dass die detaillierte statistische Untersuchung der Spracheigenschaften hier nicht endet; Wichtige Arbeiten über das Zipf-Gesetz hinaus wurden vorgelegt (z. B. ). Neuere Studien befassen sich mit der detaillierten Abhängigkeit der Skalierungsexponenten von der Länge des untersuchten Textkörpers .

Abbildung 1.

Abbildung 1. Die ranggeordnete Verteilung der Worthäufigkeiten für den Ursprung von Arten (blau) zeigt ein ungefähres Potenzgesetz mit einer Steigung von ungefähr α ∼ 0,9. Das Modellergebnis (rote Linie) erklärt nicht nur den Potenzgesetzexponenten, sondern erfasst auch Details der Verteilung. Der exponentielle Cut-off kann durch die randomisierte Version des Modells erklärt werden.

Zipfs Gesetz ist nicht auf Worthäufigkeiten beschränkt, sondern erscheint in unzähligen, scheinbar nicht verwandten Systemen und Prozessen . Um nur einige zu nennen, es wurde in den Statistiken der Firmengrößen gefunden , Stadtgrößen , das Genom , Familiennamen , Einkommen , Finanzmärkte , Internet-Dateigrößen , oder menschliches Verhalten ; Weitere Beispiele finden Sie unter . Es gab enorme Anstrengungen, den Ursprung des Zipfschen Gesetzes und allgemeiner den Ursprung der Skalierung in komplexen Systemen zu verstehen. Es gibt drei Hauptwege zur Skalierung: multiplikative Prozesse , bevorzugte Prozesse und selbstorganisierte Kritikalität . Mehrere andere Mechanismen, die mehr oder weniger mit diesen grundlegenden Wegen zur Skalierung zusammenhängen, wurden vorgeschlagen (z. B. ).

Kürzlich wurde ein vierter, unabhängiger Weg zur Skalierung auf der Grundlage stochastischer Prozesse eingeführt, die ihre potenziellen Ergebnisse (Sample-Space) im Laufe der Zeit reduzieren . Dies sind geschichtsabhängige Zufallsprozesse, die in verschiedenen Kontexten in der mathematischen Literatur und in jüngerer Zeit im Zusammenhang mit Skalierungsgesetzen untersucht wurden . Ein Beispiel für probenraumreduzierende Prozesse ist das folgende. Stellen Sie sich einen Satz von N Würfeln vor, bei denen Würfel Nummer 1 ein Gesicht hat, Würfel Nummer 2 zwei Gesichter (Münze), Würfel Nummer 3 drei Gesichter und so weiter. Die Zahl N hat N Gesichter. Werfen Sie es und notieren Sie den erhaltenen Nennwert, Das war sagen k. Dann nimm die Würfelnummer k − 1 wirf es, hol j, nimm j auf, nimm die Würfelnummer j − 1, wirf es, etc. Halten Sie Würfel auf diese Weise zu werfen, bis Sie 1 zum ersten Mal werfen. Da es keine Matrize mit weniger als 1 Fläche gibt, endet der Prozess hier. Die Reihenfolge der aufgezeichneten Nennwerte im obigen Rezept (i, k, j, … , 1) ist offensichtlich streng geordnet oder verschachtelt, i > k > j >> 1. In , Es wurde streng gezeigt, dass, wenn dieser Vorgang viele Male wiederholt wird, Die Verteilung der Ergebnisse (Nennwerte 1, 2, … , N) ist ein exaktes Zipf−Gesetz, d.h. Die Wahrscheinlichkeit, einen Nennwert m im obigen Prozess zu beobachten (Wurffolge) ist genau PN(m) = m-1, vorausgesetzt, wir beginnen mit N Würfeln. Beachten Sie, dass es notwendig ist, N während der Wiederholungen des Prozesses fixiert zu halten, um das genaue Zipf-Gesetz zu erhalten. Wenn N während der Wiederholungen variiert, ist die Zipf-Skalierung für hohe Ränge asymptotisch vorhanden; Aufgrund der Vermischung verschiedener N treten jedoch Abweichungen vom genauen Zipf-Gesetz für niedrige Ränge auf.

Formal hat jeder Würfel N einen Sample-Space, bezeichnet mit ΩN = {1, 2, … , N} , der die Anzahl der möglichen Ergebnisse ist, dh die Anzahl der Gesichter des Würfels N. Wenn man diese Würfel auf die obige Weise wirft, entsteht eine Folge von verschachtelten Sample-Spaces

Anzeigeformel

1.2

Die Verschachtelung von Sample-Spaces in einer verlaufsabhängigen Sequenz ist das Herzstück des Ursprungs von Skalierungsgesetzen in dieser Art von Prozess. Einzelheiten finden Sie unter wo auch gezeigt wird, dass, wenn Rauschen zu den verlaufsabhängigen Prozessen hinzugefügt wird, das Skalierungsgesetz PN(m) ∝ m-λ erhalten wird, wobei 0 << 1 der Rauschpegel ist.

In diesem Beitrag stellen wir eine Ableitung des Zipfschen Gesetzes der Worthäufigkeiten vor, basierend auf einem einfachen Modell für die Satz- /Diskursbildung. Das Modell wird durch die Beobachtung motiviert, dass der Prozess der Bildung eines Satzes — oder allgemeiner eines Diskurses — ein geschichtsabhängiger Sample-Space-reduzierender Prozess ist. Wörter werden nicht zufällig aus dem Stichprobenraum aller möglichen Wörter gezogen, sondern in strengen Beziehungen zueinander verwendet. Die Verwendung bestimmter Wörter in einem Satz schränkt die Verwendung für aufeinanderfolgende Wörter stark ein, was zu einem Verschachtelungsprozess (oder einer Verringerung des Probenraums) führt, ähnlich dem oben beschriebenen. Sample-Space Collapse in Texten ist notwendig, um aussagekräftige Informationen zu vermitteln. Andernfalls würde jede Interpretation, auch in metaphorischer oder poetischer Hinsicht, unmöglich werden. Lassen Sie uns den Punkt mit einem Beispiel für die Bildung eines Satzes konkreter machen, bei dem sowohl grammatische als auch kontextuelle Einschränkungen (die den Probenraum reduzieren) am Werk sind (Abbildung 2). Wir bilden den Satz: ‚Der Wolf heult in der Nacht‘. Im Prinzip kann das erste Wort ‚Der Wolf‘ (Artikel und Präpositionen im Moment ignorieren) aus allen möglichen Wörtern gezogen werden. Angenommen, es gibt N mögliche Wörter und bezeichnen den jeweiligen Abtastraum mit ΩN = {1, 2, … , N} , wobei jede Zahl nun für ein Wort steht. Dies ist schematisch in Abbildung 2a dargestellt. Da wir ‚Der Wolf‘ aus ΩN = {1, 2, … , N}, Abbildung 2b, gewählt haben, wird das nächste Wort jetzt (normalerweise) nicht aus ΩN = {1, 2, … , N} , sondern aus einer Teilmenge davon ausgewählt (Abbildung 2c). Stellen Sie sich vor, die Teilmenge enthält L Wörter, wir haben ΩL ⊂ ΩN. Typischerweise erwarten wir, dass die Teilmenge Wörter enthält, die Eigenschaften von Eckzähnen, biologischen Funktionen, anderen Tieren usw. zugeordnet sind. aber nicht mehr alle möglichen Wörter. Sobald wir das zweite Wort ‚howls‘ ∈ ΩL spezifizieren, beschränken Kontext, Verständlichkeit und grammatikalische Struktur den Sample-Space für das dritte Wort weiter auf ΩM ⊂ ΩL, aus dem wir schließlich ’night‘ ziehen. Offensichtlich ähnelt die Verschachtelung bei der Satzbildung dem Beispiel der verschachtelten Würfel zuvor. Verschachtelung wird durch grammatikalische und / oder kontextuelle und / oder interpretative Einschränkungen auferlegt.

Abbildung 2.

Abbildung 2. Schematische Darstellung der Verschachtelung bei der Satzbildung. (a) Unter allen möglichen N Wörtern, die den anfänglichen Probenraum definieren, wählen wir ‚wolf‘ (b). Diese Auswahl beschränkt den Sample-Space für das nächste Wort (orangefarbener Kreis), das grammatisch und semantisch mit ‚wolf‘ kompatibel sein muss. (c) Aus dieser Menge wählen wir ‚howls‘, was den Sample-Raum wieder verkleinert (roter Kreis) (d), da das nächste Wort nun semantisch und grammatikalisch mit ‚The wolf howls‘ konsistent sein muss. Die Wortfolge zeigt eine verschachtelte Struktur. Der Effekt des Sample-Space-Collapses ist auch im breiteren Kontext der Diskursbildung präsent, da ein Thema und seine rhetorische Entwicklung dem Sample-Space eine sukzessive verschachtelte Einschränkung auferlegen. (Online-Version in Farbe.)

Die Rolle der Grammatik für die Verschachtelung ist offensichtlich. Typischerweise ist das erste Wort im Englischen ein Substantiv mit der grammatikalischen Rolle des Subjekts. Die Tatsache, dass das erste Wort ein Substantiv ist, beschränkt die Möglichkeiten für das nächste Wort auf die Teilmenge der verbalen Phrasen. Abhängig vom gewählten Verb spielen die Wörter, die jetzt folgen können, typischerweise die grammatikalische Rolle des Objekts und sind wiederum eingeschränkter. Wir verwenden die Begriffe Sample-space reduction und nested hierarchical structure in Sätzen synonym. Es ist nicht nur die grammatikalische Struktur, die dem Sample-Space von Wörtern im Verlauf des Satzes fortlaufende Einschränkungen auferlegt; Das Bedürfnis nach Verständlichkeit hat den gleichen Effekt. Ohne (zumindest teilweise) hierarchische Strukturen bei der Satzbildung wäre ihre Interpretation sehr schwierig geworden . Verschachtelte Strukturen in Sätzen werden jedoch im Allgemeinen nicht strikt realisiert. Andernfalls würde der kreative Gebrauch und die Flexibilität der Sprache ernsthaft eingeschränkt. Manchmal können Wörter als sprachliches Scharnier fungieren, was bedeutet, dass viel mehr aufeinanderfolgende Wörter zulässig sind, als für das vorhergehende Wort verfügbar waren. Man erwartet, dass die Verschachtelung nur bis zu einem gewissen Grad realisiert wird. Die unvollkommene Verschachtelung ermöglicht ein gewisses Maß an Mehrdeutigkeit im Sprachcode und ist eine der Quellen seiner erstaunlichen Vielseitigkeit .

In dieser Arbeit quantifizieren wir den Verschachtelungsgrad eines Textes aus seiner Wortübergangsmatrix M (Netzwerk). Um die hierarchische Struktur eines Textes mit einer einzigen Zahl zu charakterisieren, definieren wir seine Verschachtelung n als eine Eigenschaft von M durch

Anzeigeformel

1.3

wobei der Durchschnitt über alle möglichen Wortpaare (i, j) genommen wird. Die Verschachtelung ist eine Zahl zwischen 0 und 1 und gibt an, inwieweit die Sample-Space-Reduktion im Durchschnitt im Text vorhanden ist.1 Ein streng verschachteltes System, wie das in Gleichung (1.2) gezeigte, hat n(M) = 1. In sprachlicher Hinsicht ist eine strikte Verschachtelung eindeutig unrealistisch.

Wir verwenden Wortübergangsmatrizen aus tatsächlichen englischen Texten, die als Eingabe für ein einfaches Modell zur Satzbildung dienen. Wir untersuchen dann die Worthäufigkeitsverteilungen dieser künstlich erzeugten Texte und vergleichen sie mit den Verteilungen der Originaltexte. Zum ersten Mal zeigen wir, dass es möglich ist, das topologische Merkmal der (lokalen) Verschachtelung in der Satzbildung mit den globalen Merkmalen der Worthäufigkeitsverteilungen langer Texte in Beziehung zu setzen. In dieser Hinsicht schlagen wir einen Weg vor, die Statistik der Worthäufigkeiten — insbesondere das Zipfsche Gesetz — durch das tatsächliche strukturelle Merkmal der Sprache, die Verschachtelung, zu verstehen, ohne auf frühere Versuche zurückgreifen zu müssen, einschließlich multiplikativer Prozesse, bevorzugter Bindung oder selbstorganisierter Kritikalität, die im Kontext der Sprache manchmal auf starken und unplausiblen Annahmen zu beruhen scheinen.

Modell

Wir nehmen ein endliches Vokabular von N Wörtern an. Aus jedem gegebenen Text erhalten wir eine empirische Wortübergangsmatrix M. Wörter sind mit lateinischen Indizes gekennzeichnet. Mij = 1 bedeutet, dass wir im Text mindestens eine Gelegenheit finden, bei der Wort j direkt auf i folgt; Wenn Mij = 0 ist, folgt Wort j im gesamten Text niemals i. Abbildung 3a zeigt die Übergangsmatrix für den Ursprung der Arten. Um den Probenraum für einzelne Wörter zu quantifizieren, beachten Sie, dass eine Zeile i in M die Menge der Wörter Ωi = {k | Mik = 1} enthält, die direkt auf das Wort i folgen. Mit | Ωi | bezeichnen wir die Größe (Anzahl der Elemente) von Ωi , dh die Anzahl der verschiedenen Wörter, die auf i folgen können. Ωi ist eine Näherung für das Probenraumvolumen, auf das nach dem Auftreten des Wortes i zugegriffen werden kann. Verschiedene Wörter haben unterschiedliche Sample-Space-Volumina (Abbildung 3b), wobei das Sample-Space-Profil gezeigt wird. Wir parametrisieren das Profil als yk = x, wobei x dem Probenraumvolumen entspricht, |Ωi|, und y dem Probenraumindex i. Wir nennen ein System linear verschachtelt, wenn κ = 1 (wie in Gleichung (1.2)), schwach verschachtelt für κ < 1 und stark verschachtelt, wenn κ > 1 (wie in Abbildung 3b). Ein Beispiel für ein schwach verschachteltes Profil ist in einem der Einfügungen von Abbildung 4c zu sehen. Der Parameter κ lässt sich intuitiv als Maß für die Strukturiertheit von Wortübergängen interpretieren. Im Falle eines schwach verschachtelten Profils (κ < 1) gibt es viele Wörter, denen viele verschiedene Wörter folgen können, während es in einem stark verschachtelten Profil (κ > 1) einige Wörter gibt, denen viele andere Wörter folgen, und viele Wörter, denen nur sehr wenige folgen können. In diesem Sinne misst es, inwieweit Wortübergänge effektiv eingeschränkt werden.

Abbildung 3.

Abbildung 3. Abschnitt der Wortübergangsmatrix M für die 250 Wörter, die das größte Probenraumvolumen aufeinanderfolgender Wörter aufweisen (a). Ein schwarzer Eintrag (Mij = 1) bedeutet, dass auf ein gegebenes Wort i (y-Achse) das Wort j (x-Achse) folgt. Nicht-triviale Verschachtelung wird durch die ungefähre trichterartige Form der Wortdichte gesehen. Der tatsächliche Wert des Abtastraum-Volumens für jedes Wort i, |Ωi|, ist in (b) dargestellt, der durch Verschieben aller Einträge der Zeilen i an die äußerste linke Position erhalten wird. Wir nennen (b) das Sample-Space-Profil.

Abbildung 4.

Abbildung 4. α Exponenten aus ranggeordneten Worthäufigkeitsverteilungen von 10 Büchern im Vergleich zu Modellergebnissen für amodel (a). Klar, das Modell erklärt die tatsächlichen Werte zu einem großen Teil. (b) α Exponenten versus Verschachtelung n (M) der 10 Bücher. (c) Amodel-Exponenten gegenüber dem Sample-Space-Profilparameter κ. Für große Vokabulare N = 100 000 tritt bei κ ∼ 1 ein schneller Übergang von der schwachen Verschachtelung zur starken Verschachtelung auf, wobei wir amodel ∼ 0 bzw. amodel ∼ 1 finden. Schwache und starke Verschachtelungsprofile sind schematisch angedeutet. Für kleinere (realistische) N erscheint der Übergang bei κ < 1 , und amodel deckt in der Skalierungsphase einen Bereich zwischen ungefähr 0,85 und 1,1 ab, was dem empirischen Bereich in (a) entspricht. (Online-Version in Farbe.)

Beachten Sie, dass das Profil in Abbildung 3b eigentlich nicht gut mit einem Potenzgesetz ausgestattet ist; der Grund für die Parametrisierung ist ein rein theoretisches Argument, das im Folgenden deutlich wird. Wir schließen Wörter aus, denen im gesamten Text weniger als zwei verschiedene Wörter folgen, dh wir entfernen alle Zeilen i aus M, für die |Ωi| < 2 . Strenge Verschachtelung ist nicht mit starker oder schwacher Verschachtelung zu verwechseln. Letztere sind Eigenschaften des Probenraumprofils.

Für statistische Tests konstruieren wir zwei randomisierte Versionen von M und bezeichnen sie mit Mrand bzw. Mrow-perm. Dies hält die Anzahl der Einträge ungleich Null in jeder Zeile gleich wie in der ursprünglichen Matrix M, zerstört jedoch ihre Verschachtelung und die Information, welche Wörter aufeinander folgen. Die zweite randomisierte Version Mrow-perm wird erhalten, indem die (gesamten) Zeilen der Matrix M permutiert werden.

Bei M konstruieren wir zufällige Sätze der Länge L mit dem folgenden Modell:

— Wählen Sie eines der N Wörter zufällig aus. Schreiben Sie i in eine Wortliste W , so dass W = {i} .

— Springe zu Zeile i in M und wähle zufällig ein Wort aus dem Set Ωi . Sagen Sie, das gewählte Wort ist k; Aktualisieren Sie die Wortliste W = {i, k}.

— Springe zu Zeile k und wähle eines der Wörter aus Ωk; Sag, du bekommst j und aktualisiere W = {i, k, j} .

— Wiederholen Sie den Vorgang L mal. In diesem Stadium wird ein zufälliger Satz gebildet.

— Wiederholen Sie den Vorgang, um Nsent-Sätze zu erzeugen.

Auf diese Weise erhalten wir eine Wortliste mit L × Nsent Einträgen, die ein zufälliges Buch ist, das mit der Wortübergangsmatrix eines tatsächlichen Buches generiert wird. Aus der Wortliste erhalten wir die Worthäufigkeitsverteilung fmodel. Das vorliegende Modell ähnelt dem in, unterscheidet sich jedoch in drei Aspekten: es ermöglicht eine nicht perfekte Verschachtelung n < 1, es hat keine explizite Rauschkomponente und es hat eine feste Sequenzlänge (Satz).

Ergebnisse

Wir analysieren das Modell mit Computersimulationen unter Angabe von L = 10 und Nsent = 100 000. Wir verwenden 10 zufällig ausgewählte Bücher2 aus Project Gutenberg (www.gutenberg.org ). Für jedes Buch bestimmen wir seinen Wortschatz N, seine Matrix M, seine Ωi für alle Wörter, seine Verschachtelung n (M) und den Exponenten der Rangordnungsworthäufigkeitsverteilung α (kleinste quadratische Anpassung an f (r), Anpassungsbereich zwischen 5 ≤ r ≤ 200). f (r) ist für den Ursprung der Arten in Abbildung 1 (blau) dargestellt; Der Exponent ist α ∼ 0,90. Wir führen das Modell für die Parameter jedes einzelnen Buches aus, um einen zufälligen Text zu generieren. Die Verwendung der empirischen Kerne für das Modell stellt sicher, dass dieser zufällige Text genau das gleiche Musterraumprofil und die gleiche Verschachtelung wie das Buch aufweist.

Die aus dem Modell fmodel erhaltene Verteilung ist eindeutig in der Lage, den ungefähren Potenzgesetz-Exponenten für den Ursprung der Spezies, amodel ∼ 0,86 (gleicher Anpassungsbereich), zu reproduzieren. Darüber hinaus erfasst es Details der Verteilung f. Für große Werte von r in fmodel (r) bildet sich ein Plateau, bevor der exponentielle Grenzwert endlicher Größe beobachtet wird. Sowohl Plateau als auch Cut-Off können mit dem randomisierten Modell vollständig verstanden werden.

In Abbildung 4a vergleichen wir die α-Exponenten, wie sie aus den Büchern extrahiert wurden, mit den Modellergebnissen amodel. Das Modell erklärt offensichtlich die tatsächlichen Werte weitgehend und unterschätzt die tatsächlichen Exponenten leicht. Wir erhalten einen Korrelationskoeffizienten von ρ = 0,95 (p < 3,7 × 10-5). In Abbildung 4b zeigen wir, dass die Verschachtelung n(M) ungefähr linear mit den Exponenten α zusammenhängt. Wir testen die Hypothese, dass durch die Zerstörung der Verschachtelung die Exponenten verschwinden. Mit dem randomisierten Mrand finden wir Inline-Formel (gleicher Anpassungsbereich), die das Potenzgesetz effektiv zerstört. Verwenden der anderen randomisierten Version, die die Verschachtelung intakt hält, Mrow-perm, für Wörter mit niedrigem Rang (bis ungefähr Rang ca. 10), finden wir ähnliche Worthäufigkeitsverteilungen wie für M; wie erwartet verschwindet jedoch der Potenzgesetz-Schwanz (hohe Ränge) für Mrow-perm aufgrund des Rauschbeitrags der Randomisierung (nicht gezeigt). Um unsere Annahme zu bestätigen, dass die Wortreihenfolge wesentlich ist, haben wir die Modellrangverteilungen mithilfe der transponierten Matrix MT berechnet, was bedeutet, dass wir den Zeitfluss im Modell umkehren. Wir finden zwei Ergebnisse. Erstens verschwindet die Korrelation zwischen den Exponenten der Formel α und dem Modell Inline-Formel, was sich in einem unbedeutenden Korrelationskoeffizienten ρ = 0,47 (p = 0,17) widerspiegelt. Zweitens sind die Exponenten (gemittelt über die 10 Bücher) signifikant kleiner, Inline-Formel als für den korrekten Zeitfluss, wo wir erhalten Inline-Formel Der entsprechende p-Wert eines t-Tests ist 0,039.

Schließlich versuchen wir, die Bedeutung des Sample-Space-Profils für die Skalierungsexponenten zu verstehen. Dazu generieren wir eine Reihe von M Matrizen, deren Profil mit einem Potenzwert parametrisiert ist. In Abbildung 4c sind die Modellexponenten amodel aus diesen künstlich erzeugten M als Funktion von κ für verschiedene Größen des Vokabulars N dargestellt. Für κ < 1 (schwache Verschachtelung) finden wir Exponenten amodel ≈ 0, d. H. Kein Skalierungsgesetz. Für großes N bei κ = 1 tritt ein schneller Übergang zu amodel ≈ 1 (Zipf) auf. Für kleinere N finden wir ein komplizierteres Verhalten des Übergangs, indem wir einen maximalen Exponenten bei κ < 1 . Der Bereich der Buchexponenten α liegt zwischen 0,85 und 1.1, was genau der beobachtete Bereich für realistische Vokabulargrößen N ∼ 1000-10 000 ist. Wir haben überprüft, dass Variationen in der Satzlänge (mit Ausnahme von L = 1) die gemeldeten Ergebnisse nicht ändern. Für Ein-Wort-Sätze (L = 1) erhalten wir offensichtlich eine einheitliche Worthäufigkeitsverteilung und folglich eine flache Rangverteilung, da die meisten Wörter fast den gleichen Rang haben. Wir variierten die Anzahl der Sätze von Nsent = 104 bis 106 und fanden praktisch keinen Einfluss auf die berichteten Ergebnisse.

Diskussion

In diesem Artikel konzentrieren wir uns auf die grundlegende Eigenschaft der Verschachtelung in jedem Code, der aussagekräftige Informationen wie Sprache vermittelt. Wir argumentieren, dass, wenn keine Verschachtelung vorhanden wäre, man leicht in verwirrende Situationen geraten würde, wie in La Biblioteca de Babel von JL Borges beschrieben, wo eine hypothetische Bibliothek alle Bücher besitzt, die aus allen möglichen Zeichenkombinationen bestehen, die 410 Seiten füllen. Wir definieren und quantifizieren einen Verschachtelungsgrad im linguistischen Code. Niedrige Verschachtelungsgrade implizieren typischerweise eine weniger strenge Hierarchie der Wortverwendung oder eine egalitärere Verwendung des Vokabulars als Texte mit hoher Verschachtelung. Wie erwartet, haben Texte eine klar definierte, aber nicht streng verschachtelte Struktur, die sich aus einem Kompromiss zwischen Spezifität (um eindeutige Botschaften zu vermitteln) und Flexibilität (um einen kreativen Sprachgebrauch zu ermöglichen) ergeben kann. Wir finden, dass die Verschachtelung zwischen verschiedenen Texten variiert, was darauf hindeutet, dass verschiedene Arten der Verwendung des Vokabulars und der Grammatik am Werk sind. Unsere Textprobe umfasste drei Stücke von Shakespeare, drei wissenschaftliche Texte und vier Romane. Wir finden, dass die Stücke, vielleicht der gesprochenen Sprache am nächsten, zeigen eine geringere Verschachtelung als die Wissenschaftsbücher. Die Romane zeigen das höchste Maß an Verschachtelung. Die Stichprobe ist zu klein, um Rückschlüsse darauf zu ziehen, ob verschiedene Textarten durch typische Werte der Verschachtelung gekennzeichnet sind; Es ist jedoch bemerkenswert, dass die Verschachtelung mit den Variationen der Skalierungsexponenten von Worthäufigkeiten buchweise korreliert.

Das Hauptergebnis dieser Arbeit ist, dass ein einfaches Sample-Space-reduzierendes Modell zeigen kann, dass die Verschachtelung tatsächlich die Entstehung von Skalierungsgesetzen in Wortfrequenzen erklärt, insbesondere das Zipf-Gesetz. Genauer, Wir konnten die Entstehung von Skalierungsgesetzen mit der topologischen Struktur der Wortübergangsmatrix in Beziehung setzen, oder ‚Phasespace‘. Das Ergebnis ist bemerkenswert, da die Matrix keine Informationen darüber codiert, wie oft Wort j Wort i folgt, sondern nur, dass j mindestens einmal im gesamten Text i gefolgt ist. Zufällige Permutationen der Matrix, die ihre Verschachtelung zerstören, können die Skalierung nicht mehr erklären, während Permutationen, die die Verschachtelung intakt halten, auf die Existenz der Potenzgesetze hinweisen. Es ist ferner bemerkenswert, dass keine (nicht lokalen) präferenziellen, multiplikativen oder selbstorganisierten kritischen Annahmen erforderlich sind, um die beobachtete Skalierung zu verstehen, und dass keine Parameter über die Wortübergangsmatrizen hinaus benötigt werden.Die Tatsache, dass das einfache Modell die detaillierte Skalierungseigenschaft in der Worthäufigkeitsstatistik so erfolgreich reproduziert, könnte auf einen wichtigen Aspekt der Sprache hinweisen, der bisher nicht beachtet wurde; die Tatsache, dass die allgemeine Wortverwendung statistisch stark von der Verwendung lokaler hierarchischer Strukturen und Einschränkungen beeinflusst wird, die wir bei der Satzgenerierung verwenden. Wir glauben, dass die enge Beziehung zwischen Verschachtelung und dem Skalierungsexponenten die Tür für eine Interpretation von Worthäufigkeitsverteilungen als statistische beobachtbare öffnet, die stark von der Verwendung des Wortschatzes und der Grammatik innerhalb einer Sprache abhängt. Dementsprechend vermuten wir, dass das Zipf-Gesetz möglicherweise nicht universell ist, aber dass die Wortgebrauchsstatistik von lokalen Strukturen abhängt, die sich in Texten und sogar innerhalb von Sätzen unterscheiden können. Weitere Untersuchungen sind erforderlich, um diesen Punkt zu klären.Schließlich ist anzumerken, dass die Klasse der Sample-Space-reduzierenden Prozesse einen unabhängigen Weg zur Skalierung bietet, der eine breite Palette von Anwendungen für verlaufsabhängige und alternde Prozesse haben könnte . In der statistischen Physik ist bekannt, dass Prozesse, die ihren Phasenraum sukzessive reduzieren, während sie sich entfalten, durch Potenzgesetze oder gestreckte Exponentialverteilungsfunktionen gekennzeichnet sind. Diese Verteilungen entstehen im Allgemeinen als Folge des Zusammenbruchs von Phasenräumen .

Beiträge der Autoren

S.T. entwarf die Forschung, führte numerische Analysen durch und schrieb das Manuskript. R.H. und B.C.-M. führten numerische Analysen durch und schrieben das Manuskript. B.L. hat die Bücher vorverarbeitet und numerische Analysen durchgeführt.

Konkurrierende Interessen

Die Autoren erklären keine konkurrierenden finanziellen Interessen.

Förderung

Diese Arbeit wurde vom Wissenschaftsfonds FWF unter KPP23378FW gefördert.

Fußnoten

Endnoten

1 Beachten Sie, dass der Verschachtelungsindikator in Gleichung (1.3) ist nur für den Fall sinnvoll, dass die Wahrscheinlichkeit, dass zwei Wörter i, j denselben Abtastraum haben, sehr gering ist, p(Ωi = Ωj) ≈ 0. Dies ist für die betrachteten Übergangsmatrizen der Fall.

2 Insbesondere verwenden wir eine amerikanische Tragödie von Theodore Dreiser; Der Ursprung der Arten, die Abstammung des Menschen und verschiedene Pflanzenformen von Charles Darwin; Geschichte zweier Städte und David Copperfield von Charles Dickens; Romeo und Julia, Henry V und Hamlet von William Shakespeare; und Odysseus von James Joyce. Das Vokabular variiert von N = 3102 (Romeo und Julia) bis 22 000 (Odysseus) Wörtern.

© 2015 Der Autor(en) Veröffentlicht von der Royal Society. Alle Rechte vorbehalten.
  • 1
    Zipf GK. 1949menschliches Verhalten und das Prinzip der geringsten Anstrengung. Lesen, MA: Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953eine Informationstheorie der statistischen Struktur der Sprache. Kommunikationstheorie (Hrsg. & ( W). London, Vereinigtes Königreich: Butterworths. Google Scholar
  • 3
    Harremoës P& Topsøe F. 2001 Grundlagen der maximalen Entropie. Entropie 3, 191-226. (doi:10.3390/e3030191). Crossref, Google Scholar
  • 4
    Ferrer Ich kann R& Solé RV. 2003Least effort und die Ursprünge der Skalierung in der menschlichen Sprache. Prok. In: Natl Acad. Sci. USA 100, 788-791. (doi:10.1073/pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& Solé RV. 2011aufleben des Zipfschen Gesetzes in der Evolution der Kommunikation. Phys. Offb. E 83, 036115. (doi:10.1103/PhysRevE.83.036115). Crossref, ISI, Google Scholar
  • 6
    Simon HA. 1955auf eine Klasse von Skew-Verteilungsfunktionen. Biometrika 42, 425-440. (doi:10.1093/biomet/42.3-4.425). Crossref, ISI, Google Scholar
  • 7
    Zanette DH& Montemurro MA. 2005dynamik der Texterzeugung mit realistischer Zipf-Verteilung. In: J. Quant. Linguist. 12, 29–40. (doi:10.1080/09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992zufällige Texte weisen eine Zipf-Gesetz-ähnliche Worthäufigkeitsverteilung auf. In: IEEE Trans. Informieren. Theorie 38, 1842-1845. (doi:10.1109/18.165464). Querverweis, ISI, Google Scholar
  • 9
    Miller GA. 1957einige Auswirkungen der intermittierenden Stille. Uhr. In: J. Psychol. 70, 311–314. (doi:10.2307/1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller GA& Chomsky N. 1963einheitliche Modelle von Sprachnutzern. Handbuch der mathematischen Psychologie, vol. 2 (hrsg. , Luce RD, Bush R& Galanter E), S. 419-491. New York, NY: Wiley. Google Scholar
  • 11
    Kosmidis K, Kalampokis A& Argyrakis P. 2006statistischer mechanischer Ansatz zur menschlichen Sprache. Phys. A 366, 495-502. (doi:10.1016/j.physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005On the power-law distribution of language family sizes. J. Linguist. 41, 117–131. (doi:10.1017/S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini A& Menczer F. 2009modellierung statistischer Eigenschaften von geschriebenem Text. Plus EINS 4, e5372. (doi:10.1371/Zeitschrift.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette DH& Montemurro MA. 2011Universal entropy of word ordering across linguistic families. Plus EINS 6, e19875. (doi:10.1371/Zeitschrift.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda G& Corral A. 2013A Skalierungsgesetz jenseits des Zipf-Gesetzes und seiner Beziehung zum Heaps-Gesetz. In: N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan X-Y& Minnhagen P. 2014kommentar zu ‚A scaling law beyond Zipf’s law and its relation to Heaps‘.’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K& Hatano N. 2002universalität des Zipfschen Gesetzes. In: J. Phys. Soc. JPN 71, 1211-1213. (doi:10.1143/JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. 2001Zipf Vertrieb von US-Firmengrößen. Wissenschaft 293, 1818-1820. (doi:10.1126/Wissenschaft.1062081). Crossref, PubMed, ISI, Google Scholar
  • 19
    Makse H-A, Havlin S& Stanley ER. 1995modellierung städtischer Wachstumsmuster. Natur 377, 608-612. (doi:10.1038/377608a0). Crossref, ISI, Google Scholar
  • 20
    Krugman P. 1996das Rätsel der urbanen Hierarchie. J. Jpn Int. Econ. 10, 399–418. (doi:10.1006/jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blank A& Solomon S. 2000Macht Gesetze in Städten Bevölkerung, Finanzmärkte und Internet-Sites. Phys. A 287, 279-288. (doi:10.1016/S0378-4371(00)00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J& Moses M-E. 2007globale Muster von Stadtgrößenverteilungen und ihre grundlegenden Treiber. PLoS ONE 2, 934. (doi:10.1371/Zeitschrift.pone.0000934). Crossref, ISI, Google Scholar
  • 23
    Stanley HE, Buldyrev S, Goldberger A, Havlin S, Peng C& Simons M. 1999 Skalierungsmerkmale nicht kodierender DNA. Phys. A 273, 1-18. (doi:10.1016/S0378-4371(99)00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-H& Manrubia S-C. 2001vertikale Übertragung von Kultur und die Verteilung von Familiennamen. Phys. A 295, 1-8. (doi:10.1016/S0378-4371(01)00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V. 1896Cours d’Economy Politique. Genf, Schweiz: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu M& Takayasu H. 1999Zipf-Gesetz zur Einkommensverteilung von Unternehmen. Phys. A 269, 125-131. (doi:10.1016/S0378-4371(99)00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003A Theorie der Potenzverteilungen bei Finanzmarktschwankungen. Natur 423, 267-270. (doi:10.1038/201624). Crossref, PubMed, ISI, Google Scholar
  • 28
    Reed WJ& Hughes BD. 2002von Genfamilien und Gattungen bis hin zu Einkommen und Internetdateigrößen: Warum Machtgesetze in der Natur so verbreitet sind. Phys. Offb. E 66, 067103. (doi:10.1103/PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner S, Szell M& Sinatra R. 2012Aufkommen von gutem Verhalten, Skalierung und Zipf-Gesetzen in menschlichen Verhaltenssequenzen in einer Online-Welt. Plus EINS 7, e29796. (doi:10.1371/Zeitschrift.pone.0029796). Crossref, PubMed, ISI, Google Scholar
  • 30
    Newman MEJ. 2005 Machtgesetze, Pareto-Verteilungen und Zipf-Gesetz. Contemp. Phys. 46, 323–351. (doi:10.1080/00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon S& Levy M. 1996spontane Skalierung in generischen stochastischen Systemen. Int. In: J. Mod. Phys. C 7, 745-751. (doi:10.1142/S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai O, Biham O& Solomon S. 1999Power-Law-Verteilungen und Lévy-stabile intermittierende Fluktuationen in stochastischen Systemen vieler autokatalytischer Elemente. Phys. Offenbarung E 60, 1299-1303. (doi:10.1103/PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu UND& Hamilton RJ. 1991lawinen der Verteilung von Sonneneruptionen. Astrophysiker. J. 380, 89–92. (doi:10.1086/186180). Crossref, ISI, Google Scholar
  • 34
    Barabási A-L& Albert R. 1999Aufkommen der Skalierung in zufälligen Netzwerken. Wissenschaft 286, 509-512. (doi:10.1126/Wissenschaft.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang C& Wiesenfeld K. 1987selbstorganisierte Kritikalität: eine Erklärung des 1 / f-Rauschens. Phys. Rev. Lett. 59, 381–384. (doi:10.1103/PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y& Sornette D. 2008theorie des Zipfschen Gesetzes und der allgemeinen Potenzgesetzverteilungen mit Gibrats Gesetz des proportionalen Wachstums. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001Die ungleiche Verteilung von Zahlen in der Natur erklären: die Gesetze von Benford und Zipf. Phys. A 293, 297-304. (doi:10.1016/S0378-4371(00)00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner S& Tsallis C. 2005Nonextensive aspects of self-organized scale-free gas-like networks. In: Europhys. Lett. 72, 197–203. (doi:10.1209/epl/i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra B& Solé RV. 2010universalität des Zipf-Gesetzes. Phys. Offenbarung E 82, 011102. (doi:10.1103/PhysRevE.82.011102). Querverweis, ISI, Google Scholar
  • 40
    Montroll E-W& Shlesinger M-F. 1982On 1 / f Rauschen und andere Verteilungen mit langen Schwänzen. Prok. In: Natl Acad. Sci. USA 79, 3380-3383. (doi:10.1073/pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel R& Thurner S. 2015verständnis der Skalierung durch verlaufsabhängige Prozesse mit kollabierendem Probenraum. Prok. In: Natl Acad. Sci. USA 112, 5348-5353. (doi:10.1073/pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
  • 42
    Kac M. 1989EINE von Ulam definierte verlaufsabhängige Zufallssequenz. In: Adv. Appl. Mathematik. 10, 270–277. (doi:10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI, Google Scholar
  • 45
    Hanel R& Thurner S. 2013generalisiert (c, d) – Entropie und alternde Zufallsläufe. Entropie 15, 5324-5337. (doi:10.3390/e15125324). Crossref, ISI, Google Scholar
  • 46
    Partee BH. 1976Montague Grammatik. New York, NY: Academic Press. Google Scholar
  • 47
    Fortuny J& Corominas-Murtra B. 2013Auf den Ursprung der Mehrdeutigkeit in der effizienten Kommunikation. J. Logik Lang. Informieren. 22, 249–267. (doi:10.1007/s10849-013-9179-3). Crossref, ISI, Google Scholar

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.