Articles

zrozumienie prawa Zipf o częstotliwościach wyrazów poprzez załamanie przestrzeni próbkowej w tworzeniu zdań

wstęp

teksty pisane pokazują niezwykłą cechę, że uporządkowany rozkład częstotliwości wyrazów wynika z przybliżonego prawa mocy

wyświetl wzór

1.1
div >

gdzie R jest rangą przypisaną do każdego słowa w tekście. Dla większości tekstów, niezależnie od języka, czasu powstania, gatunku literatury, jej przeznaczenia itp. stwierdza się, że α ∼ 1, co jest określane jako prawo Zipfa . Na rysunku 1 pokazano częstotliwość słowa dla tekstu Darwina, Pochodzenie gatunków. Poszukiwanie zrozumienia pochodzenia tej statystycznej prawidłowości trwa już prawie sto lat. Sam Zipf zaproponował jakościowe Wyjaśnienie oparte na wysiłkach zainwestowanych w wydarzenia komunikacyjne przez nadawcę i odbiorcę . Idee te zostały później sformalizowane w ramach informacyjno-teoretycznych . Pierwszy model ilościowy oparty na założeniach językowych dotyczących generowania tekstu został zaproponowany przez Simona . Model zakłada, że w miarę pojawiania się kontekstu w generowaniu tekstu, słowa, które już się w nim pojawiły, są faworyzowane nad innymi. Przy prostym założeniu, że słowa, które pojawiły się wcześniej, są dodawane do tekstu z prawdopodobieństwem proporcjonalnym do ich wcześniejszego pojawienia się (załącznik preferencyjny) i przy założeniu, że słowa, które dotychczas się nie pojawiły, są dodawane ze stałą szybkością, można wyprowadzić prawo Zipfa, biorąc pod uwagę, że ta ostatnia szybkość jest niska. Ten preferencyjny model załączników został udoskonalony poprzez wdrożenie empirycznego faktu, że tempo pojawiania się nowych słów maleje wraz ze wzrostem długości tekstów . W klasycznych pracach wykazano, że modele losowego pisania mogą prowadzić do rozkładów częstotliwości wyrazów podobnych do Zipf . Prace te opierają się jednak na nierealistycznych założeniach dotyczących rozkładów długości słów i prowadzą do tekstów niestrukturalnych i nieinterpretowalnych. Jak jednak pokażemy, struktura gramatyczna, wraz z mechanizmami generowania dyskursu, może odgrywać istotną rolę w powstaniu prawa Zipfa w realistycznym kontekście. Należy podkreślić, że szczegółowe badania statystyczne właściwości języka nie kończą się na tym; przedstawiono ważne prace wykraczające poza prawo Zipfa (np. ). Najnowsze badania dotyczą szczegółowej zależności wykładników skalowania od długości ciała badanego tekstu .

Rysunek 1.

Rysunek 1. Uporządkowany rozkład częstotliwości wyrazów dla pochodzenia gatunku (niebieski) pokazuje przybliżone prawo mocy o nachyleniu około α ∼ 0,9. Wynik modelu (czerwona linia) wyjaśnia nie tylko wykładnik prawa mocy, ale także rejestruje szczegóły rozkładu. Wykładniczy odcięcia można wyjaśnić przez randomizowaną wersję modelu.

prawo Zipf nie ogranicza się do częstotliwości wyrazów, ale pojawia się w niezliczonych, pozornie niepowiązanych ze sobą systemach i procesach . Aby wymienić tylko kilka, zostało to Znalezione w statystykach wielkości firm, wielkości miast , genomu , nazwisk rodzin , dochodów , rynków finansowych , rozmiarów plików internetowych lub ludzkich zachowań ; więcej przykładów można znaleźć w . Podjęto ogromne wysiłki, aby zrozumieć pochodzenie prawa Zipf, a bardziej ogólnie pochodzenie skalowania w złożonych systemach. Istnieją trzy główne drogi do skalowania: procesy multiplikatywne, procesy preferencyjne i samoorganizacja krytyczna . Zaproponowano kilka innych mechanizmów, które są mniej lub bardziej związane z tymi podstawowymi drogami skalowania (np.).

Ostatnio, czwarta, niezależna droga do skalowania została wprowadzona na podstawie procesów stochastycznych, które zmniejszają ich potencjalne wyniki (przykładowa przestrzeń) w czasie . Są to zależne od historii procesy losowe, które były badane w różnych kontekstach w literaturze matematycznej, a ostatnio w kontekście praw skalowania . Przykład procesów redukujących przestrzeń próbki jest następujący. Pomyśl o zestawie N kości, gdzie die numer 1 ma jedną twarz, die numer 2 ma dwie twarze (moneta), die numer 3 ma trzy twarze, i tak dalej. Die numer N ma N twarzy. Zacznij od wybrania jednej z losowych kości N, powiedz liczbę kości i. rzuć ją i zapisz uzyskaną wartość nominalną, która była powiedzmy K. następnie weź liczbę K-1 rzuć ją, zdobądź J, Zapisz J, weź liczbę J-1, rzuć ją itp. Rzucaj kostkami w ten sposób, aż rzucisz 1 po raz pierwszy. Ponieważ nie ma matrycy z mniej niż 1 twarzami, proces kończy się tutaj. Sekwencja zapisanych wartości nominalnych w powyższej recepcie (i, k, j, … , 1) jest oczywiście ściśle uporządkowana lub zagnieżdżona, i > k > j >> 1. W , wykazano rygorystycznie, że jeśli proces ten powtarza się wiele razy, rozkład wyników (wartości nominalne 1, 2,…, N) jest dokładnym prawem Zipf, tj. prawdopodobieństwo zaobserwowania wartości nominalnej m w powyższym procesie (Sekwencja rzutów) jest dokładnie PN(M) = M−1, biorąc pod uwagę, że zaczynamy od N kości. Należy pamiętać, że konieczne jest utrzymanie N stałe podczas powtórzeń procesu, aby uzyskać dokładne prawo Zipf. Jeśli N zmienia się podczas powtórzeń, wyraźnie skalowanie Zipf jest obecne asymptotycznie dla wysokich rang; jednak ze względu na mieszanie różnych N, odchylenia od dokładnego prawa Zipf pojawią się dla niskich Rang.

bardziej formalnie, każda kostka N ma przestrzeń próbkową, oznaczoną ΩN = {1, 2,…, N}, która jest liczbą potencjalnych wyników, tj. liczbą twarzy kości N. Rzucanie tymi kostkami w powyższy sposób powoduje powstanie sekwencji zagnieżdżonych spacji z próbkami

wyświetl wzór

1.2

zagnieżdżenie spacji z próbkami w sekwencji zależnej od historii jest podstawą powstania praw skalowania w tego typu procesie. Aby uzyskać szczegółowe informacje, zobacz, gdzie pokazano również, że jeśli hałas zostanie dodany do procesów zależnych od historii, uzyskuje się prawo skalowania PN (M) ∝ M-λ, gdzie 0 << 1 oznacza poziom hałasu.

w artykule przedstawiamy derywację prawa częstotliwości wyrazów Zipfa, opartą na prostym modelu kształtowania zdania/dyskursu. Model ten jest motywowany obserwacją, że proces formowania zdania – lub bardziej ogólnie dyskursu-jest zależnym od historii procesem redukcji przestrzeni próbkowej. Słowa nie są losowane z przykładowej przestrzeni wszystkich możliwych słów, ale są używane w ścisłych relacjach ze sobą. Użycie konkretnych słów w zdaniu mocno ogranicza użycie kolejnych słów, prowadząc do procesu zagnieżdżania (lub zmniejszania przestrzeni próbkowej), podobnego do opisanego powyżej. Sample-spacja w tekstach jest niezbędna do przekazania znaczących informacji. W przeciwnym razie każda interpretacja, nawet metaforyczna czy poetycka, stałaby się niemożliwa. Uczyńmy ten punkt bardziej konkretny za pomocą przykładu tworzenia zdania, w którym działają zarówno ograniczenia gramatyczne, jak i kontekstowe (zmniejszające przestrzeń próbną) (rysunek 2). Tworzymy zdanie: „wilk wyje w nocy”. Zasadniczo pierwsze słowo „Wilk” (ignorując na razie artykuły i przyimki) można wyciągnąć ze wszystkich możliwych słów. Załóżmy, że istnieje N możliwych słów i oznacz odpowiednią przestrzeń próbki przez ΩN = {1, 2,…, N}, gdzie każda liczba oznacza teraz jedno słowo. Jest to schematycznie zilustrowane na rysunku 2a. biorąc pod uwagę, że wybraliśmy 'wilka’ z ΩN = {1, 2, … , N}, rysunek 2b, następne słowo nie będzie teraz (Zwykle) wybrane z ΩN = {1, 2, … , N}, ale z jego podzbioru (rysunek 2c). Wyobraźmy sobie, że podzbiór zawiera słowa L, mamy ΩL ⊂ ΩN. Zazwyczaj oczekujemy, że podzbiór zawiera słowa, które są związane z właściwościami psów, funkcjami biologicznymi, innymi zwierzętami itp. ale nie wszystkie możliwe słowa. Po określeniu drugiego wyrazu „wyje” ∈ ΩL, kontekst, zrozumiałość i struktura gramatyczna dodatkowo ograniczają przykładową przestrzeń dla trzeciego wyrazu do ΩM ⊂ ΩL, z którego w końcu rysujemy „noc”. Oczywiście zagnieżdżenie w tworzeniu zdań jest podobne do przykładu zagnieżdżonych kości wcześniej. Zagnieżdżanie jest narzucane przez ograniczenia gramatyczne i/lub kontekstowe i / lub interpretacyjne.

Rysunek 2.

Rysunek 2. Schematyczne ujęcie zagnieżdżenia w tworzeniu zdań. (a) spośród wszystkich potencjalnych N słów definiujących początkową próbkę-przestrzeń wybieramy’ Wilk ’ (B). Wybór ten ogranicza przestrzeń próbną dla następnego słowa (pomarańczowego koła), które musi być gramatycznie i semantycznie zgodne z „wilkiem”. (c) z tego zbioru wybieramy „wycie”, co ponownie zmniejsza przestrzeń próbkowania (czerwone kółko) (d), ponieważ następne słowo musi być teraz zgodne zarówno semantycznie, jak i gramatycznie z „wilczym wyciem”. Sekwencja słów pokazuje zagnieżdżoną strukturę. Efekt załamania sample-space jest obecny również w szerszym kontekście kształtowania dyskursu, jako temat i jego retoryczny rozwój narzucają kolejne zagnieżdżone ograniczenie na przestrzeń sample. (Wersja Online w Kolorze.)

rola gramatyki w zagnieżdżaniu jest oczywista. Zazwyczaj w języku angielskim pierwsze słowo jest rzeczownikiem z gramatyczną rolą podmiotu. Fakt, że pierwsze słowo jest rzeczownikiem, ogranicza możliwości następnego słowa do podzbioru fraz słownych. W zależności od konkretnego wybranego czasownika, słowa, które mogą teraz następować, zwykle odgrywają rolę gramatyczną przedmiotu i są ponownie bardziej ograniczone. W zdaniach używamy terminów sample-space reduction oraz zagnieżdżonej struktury hierarchicznej. Nie tylko struktura gramatyczna nakłada kolejne ograniczenia na przykładową przestrzeń słów w miarę postępu zdania; potrzeba zrozumiałości ma taki sam skutek. Bez (przynajmniej częściowych) struktur hierarchicznych w tworzeniu zdań ich interpretacja byłaby bardzo trudna . Jednak zagnieżdżone struktury w zdaniach na ogół nie będą ściśle realizowane. W przeciwnym razie twórcze wykorzystanie i elastyczność języka byłyby poważnie ograniczone. Czasami słowa mogą działać jako zawias językowy, co oznacza, że pozwala na wiele więcej następujących po sobie słów, niż było dostępne dla poprzedzającego słowa. Oczekuje się, że zagnieżdżenie zostanie zrealizowane tylko do pewnego stopnia. Niedoskonałe zagnieżdżenie pozwala na pewien stopień niejednoznaczności w kodzie językowym i jest jednym ze źródeł jego zdumiewającej wszechstronności .

w niniejszym artykule określamy stopień zagnieżdżenia tekstu na podstawie jego macierzy przejścia wyrazów M (sieci). Aby scharakteryzować hierarchiczną strukturę tekstu z pojedynczą liczbą, definiujemy jego zagnieżdżenie N jako właściwość m poprzez

wyświetl formułę

1.3

, gdzie średnia jest przejmowana przez wszystkie możliwe pary słów (i, j). Zagnieżdżenie jest liczbą z zakresu od 0 do 1 i określa, w jakim stopniu redukcja odstępów między próbkami występuje średnio w tekście.1 Układ ściśle zagnieżdżony, taki jak ten pokazany w równaniu (1.2), mA n(M) = 1. Pod względem językowym ścisłe gniazdowanie jest wyraźnie nierealne.

używamy macierzy przejścia wyrazów z rzeczywistych tekstów angielskich, które służą jako wejście do prostego modelu tworzenia zdań . Następnie badamy rozkład częstotliwości tych sztucznie wytworzonych tekstów i porównujemy je z rozkładami oryginalnych tekstów. Po raz pierwszy pokazujemy, że możliwe jest powiązanie topologicznej cechy (lokalnej) zagnieżdżenia w tworzeniu zdań z globalnymi cechami rozkładów częstotliwości wyrazów długich tekstów. W tym kontekście proponujemy sposób rozumienia Statystyki częstotliwości wyrazów-w szczególności prawa Zipfa – przez rzeczywistą strukturalną cechę języka, zagnieżdżenie, bez konieczności uciekania się do wcześniejszych prób obejmujących procesy multiplikatywne, preferencyjne przywiązanie czy samoorganizującą się krytyczność, która w kontekście języka zdaje się niekiedy opierać na mocnych i nieprawdopodobnych założeniach.

Model

Zakładamy skończony słownik N wyrazów. Z dowolnego tekstu otrzymujemy empiryczną macierz przejścia wyrazów M. słowa oznaczane są indeksami łacińskimi. Mij = 1 oznacza, że w tekście znajdujemy co najmniej jeden przypadek, w którym słowo j bezpośrednio podąża za i; jeśli Mij = 0, słowo j nigdy nie podąża za i w całym tekście. Rysunek 3a przedstawia macierz przejścia dla pochodzenia gatunków. Aby obliczyć próbkę-spację dla poszczególnych słów, zauważ, że linia i w M zawiera zbiór słów Ωi = {k|Mik = 1}, które bezpośrednio następują po słowie i. przez |Ωi|, oznaczamy rozmiar (liczbę elementów) Ωi, która jest liczbą różnych słów, które mogą następować po i. Ωi jest przybliżeniem objętości próbki-spacji, która jest dostępna po wystąpieniu słowa I. Różne słowa mają różne objętości próbki przestrzeni (rysunek 3b), gdzie pokazany jest profil próbki przestrzeni. Parametryzujemy profil jako yk = x, gdzie X odpowiada objętości przestrzeni próbki, |ω/, a y indeksowi przestrzeni próbki i. nazywamy układ liniowo zagnieżdżonym, jeśli κ = 1 (Jak w równaniu (1.2)), słabo zagnieżdżonym dla κ < 1 i silnie zagnieżdżonym, jeśli κ > 1 (Jak na rysunku 3b). Przykład słabo zagnieżdżonego profilu można zobaczyć w jednej z wstawek na rysunku 4c. Parametr κ ma intuicyjną interpretację pod względem miary „strukturyzacji” przejść wyrazowych. W przypadku profilu słabo zagnieżdżonego (κ < 1) Istnieje wiele słów, po których może następować wiele różnych słów, podczas gdy w profilu silnie zagnieżdżonym (κ > 1) jest kilka słów, po których następuje wiele innych słów, a wiele słów, po których może następować tylko kilka. W tym sensie κ mierzy, do jakiego stopnia przejścia wyrazów są skutecznie ograniczane.

Rysunek 3.

Rysunek 3. Sekcja macierzy przejścia wyrazów M dla 250 wyrazów, które pokazują największą próbkę – przestrzeń objętości kolejnych wyrazów (a). Czarny wpis (Mij = 1) oznacza, że po danym słowie i (oś y) następuje słowo j (oś x). Nietrywialne zagnieżdżenie jest postrzegane przez przybliżony lejkowaty kształt gęstości słów. Rzeczywista wartość objętości przestrzeni próbkowej dla każdego słowa i,| ω/, jest pokazana w (B), która jest uzyskiwana przez przesunięcie wszystkich wpisów linii i do pozycji najbardziej wysuniętych na lewo. Nazywamy (b) profilem przestrzeni próbkowej.

Rysunek 4.

Rysunek 4. wykładniki α z rzędowych rozkładów częstotliwości wyrazów 10 książek w porównaniu z wynikami modelu dla modelu (a). Oczywiście, model wyjaśnia rzeczywiste wartości w dużym stopniu. B) wykładniki α a nestedness n (M) z 10 ksiąg. (C) wykładniki amodela a parametr profilu próbki przestrzeni κ. Dla dużych słowników N=100 000, przy κ ∼ 1 następuje szybkie przejście od słabego gniazdowania do silnego gniazdowania, gdzie znajdujemy odpowiednio model ∼ 0 imodel ∼ 1. Słabe i silne profile zagnieżdżania są schematycznie wskazane. Dla mniejszego (realistycznego) N, Przejście pojawia się przy κ < 1, A Model obejmuje zakres pomiędzy około 0,85 a 1,1 w fazie skalowania, co pasuje do zakresu empirycznego widzianego w (a). (Wersja Online w Kolorze.)

zauważ, że profil na rysunku 3b nie jest dobrze wyposażony w prawo mocy; powodem parametryzacji jest czysto teoretyczny argument, który stanie się jasny poniżej. Wykluczamy słowa, po których następuje mniej niż dwa różne słowa w całym tekście, tzn. usuwamy wszystkie wiersze i z M dla których / Ωi / < 2. Ścisłe gniazdowanie nie należy mylić z mocnym lub słabym gniazdowaniem. Te ostatnie są właściwościami profilu próbki-przestrzeni.

do testów statystycznych konstruujemy dwie losowe wersje M i oznaczamy je odpowiednio Mrandem i mrow-Permem. Mrand otrzymuje się przez przypadkowe permutowanie rzędów poszczególnych linii macierzy M. dzięki temu liczba niezerowych wpisów w każdym wierszu jest taka sama jak w oryginalnej macierzy m, ale niszczy jej zagnieżdżenie i informację, które słowa następują po sobie. Druga randomizowana wersja Mrow-perm jest otrzymywana przez permutację (całych) rzędów macierzy M. utrzymuje to zagnieżdżenie macierzy niezmienione, ale niszczy informacje o przejściach wyrazów.

biorąc pod uwagę M, konstruujemy losowe zdania o długości L według następującego Modelu:

— wybieramy losowo jedno z N słów. Powiedz słowo było i. napisz i w liście słów W, tak, że W = {i}.

— Przeskocz do linii i w M i losowo wybierz słowo z zestawu. Powiedz, że wybrane słowo to k; zaktualizuj listę słów W = {i, k}.

— Przeskocz do linii k i wybierz jedno ze słów z Ωk; powiedz, że dostajesz j i zaktualizuj W = {I, k, j}.

— powtórz procedurę L razy. Na tym etapie powstaje losowe zdanie.

— powtórz proces, aby utworzyć zdania Nsent.

w ten sposób otrzymujemy listę słów z wpisami L × nsent, która jest losową księgą generowaną za pomocą macierzy przejścia słów rzeczywistej książki. Z listy słów otrzymujemy rozkład częstotliwości słowa fmodel. Obecny model jest podobny do tego w, ale różni się w trzech aspektach: pozwala na niedokładne zagnieżdżanie n < 1, nie ma jawnego komponentu szumu i ma stałą długość sekwencji (zdania).

wyniki

analizujemy model za pomocą symulacji komputerowych, określając L = 10 i Nsent = 100 000. Korzystamy z 10 losowo wybranych książek2 z Projektu Gutenberg (www.gutenberg.org). dla każdej książki określamy jego słownictwo N, jego macierz M, jego Ωi dla wszystkich słów, jego zagnieżdżenie n (M) i wykładnik uporządkowanego rzędu rozkładu częstotliwości słowa α(najmniejszy kwadrat pasuje do f (r), zakres dopasowania między 5 ≤ r ≤ 200). f (r) pokazano Dla pochodzenia gatunków na rysunku 1 (Niebieski); wykładnik wynosi α ∼ 0,90. Uruchamiamy model parametrów każdej książki, aby wygenerować losowy tekst. Zastosowanie empirycznej Ωi dla modelu zapewnia, że ten losowy tekst ma dokładnie taki sam profil przestrzeni próbkowej i zagnieżdżenie jak książka.

rozkład uzyskany z modelu fmodel jest wyraźnie w stanie odtworzyć przybliżony wykładnik prawa Mocy Dla pochodzenia gatunku, model ∼ 0,86 (ten sam zakres dopasowania). Ponadto rejestruje szczegóły rozkładu f. Dla dużych wartości r w fmodelu (r) tworzy się płaskowyż przed obserwacją wykładniczej skończonej wielkości odcięcia. Zarówno plateau, jak i cut-off można w pełni zrozumieć za pomocą modelu randomizowanego.

na rysunku 4a porównujemy wykładniki α wyciągnięte z książek z wynikami modelu. Model oczywiście wyjaśnia rzeczywiste wartości w dużym stopniu, lekko nie doceniając rzeczywistych wykładników. Otrzymujemy współczynnik korelacji ρ = 0,95 (p < 3,7 × 10-5). Na fig. 4b pokazujemy, że zagnieżdżanie N(M) jest związane z wykładnikami α w przybliżeniu liniowo. Testujemy hipotezę, że niszcząc zagnieżdżenie wykładniki znikną. Korzystając z randomizowanego Mrand, znajdujemywzór Inline (ten sam zakres dopasowania), który skutecznie niszczy prawo mocy. Użycie drugiej wersji randomizowanej, która utrzymuje gniazdo w Nienaruszonym Stanie, Mrow-perm, dla słów o niskiej randze (do około rangi ok. 10), znajdujemy podobne rozkłady częstotliwości słowa jak dla M; jednak, zgodnie z oczekiwaniami, ogon prawa mocy (wysokie stopnie) znika dla Mrow-perm z powodu udziału szumu randomizacji (nie pokazano). Aby potwierdzić nasze założenie, że porządkowanie słów jest niezbędne, obliczyliśmy rozkłady Rang modelu za pomocą transponowanej macierzy MT, co oznacza, że odwracamy przepływ czasu w modelu. Znajdujemy dwa wyniki. Po pierwsze, korelacja między wykładnikami książek α a modelem wzór Inline zanika, odzwierciedlając nieistotny współczynnik korelacji ρ = 0,47 (p = 0,17). Po drugie, wykładniki (uśrednione w 10 księgach) są znacznie mniejsze, wzór Inline niż dla prawidłowego przepływu czasu, gdzie otrzymujemy wzór inline odpowiadający wartość P W teście t wynosi 0,039.

na koniec staramy się zrozumieć znaczenie profilu przestrzeni próbki dla wykładników skalowania. W tym celu generujemy szereg macierzy M, które mają profil parametryzowany mocą κ. Na fig. 4c modelowe wykładniki modelu z tych sztucznie wygenerowanych M są pokazane jako funkcja κ, dla różnych rozmiarów słownictwa N. dla κ < 1 (słabe zagnieżdżenie) znajdujemy wykładniki modelu ≈ 0, tzn. brak prawa skalowania. Dla dużych n przy κ = 1 następuje szybkie przejście do modelu ≈ 1 (Zipf). Dla mniejszych N znajdujemy bardziej skomplikowane zachowanie przejścia, budując maksymalny wykładnik w κ < 1. Zakres wykładników książkowych α mieści się w przedziale od 0,85 do 1.1, co jest dokładnie obserwowanym zakresem dla realistycznych rozmiarów słownictwa N ∼ 1000-10 000. Sprawdziliśmy, że różnice w długości zdania (z wyjątkiem L = 1) nie zmieniają podawanych wyników. W przypadku zdań jednowyrazowych (L = 1) otrzymujemy oczywiście jednolity rozkład częstotliwości wyrazów i, w konsekwencji, rozkład płaskiej rangi, ponieważ większość słów ma prawie taką samą rangę. Zmieniliśmy liczbę zdań od Nsent = 104 do 106 i praktycznie nie znajdujemy wpływu na zgłaszane wyniki.

dyskusja

w tym artykule skupiamy się na podstawowej własności zagnieżdżenia w każdym kodzie, który przekazuje znaczące informacje, takie jak język. Argumentujemy, że gdyby nie było zagnieżdżania, łatwo byłoby skończyć w mylących sytuacjach, jak opisano w La Biblioteca de Babel J. L. Borges, gdzie hipotetyczna biblioteka posiada wszystkie książki złożone ze wszystkich możliwych kombinacji znaków wypełniających 410 stron. Definiujemy i kwantyfikujemy stopień zagnieżdżenia w kodzie językowym. Niskie stopnie zagnieżdżenia zazwyczaj implikują mniej rygorystyczną hierarchię użycia słów lub bardziej egalitarne użycie słownictwa niż teksty o wysokim zagnieżdżeniu. Zgodnie z oczekiwaniami teksty mają dobrze zdefiniowaną, ale nie ściśle zagnieżdżoną strukturę, która może wynikać z kompromisu specyfiki (w celu przekazania jednoznacznych komunikatów) i elastyczności (w celu umożliwienia twórczego posługiwania się językiem). Stwierdzamy, że nestedness różni się między różnymi tekstami, co sugeruje, że działają różne sposoby korzystania ze słownictwa i gramatyki. Do naszych tekstów należały trzy sztuki Szekspira, trzy teksty naukowe i cztery powieści. Okazuje się, że Sztuki, być może najbliższe językowi mówionemu, wykazują niższe zagnieżdżenie niż książki naukowe. Powieści ukazują najwyższy poziom gniazdowania. Próba jest zbyt mała, aby wyciągnąć wnioski na temat tego, czy różne typy tekstów charakteryzują się typowymi wartościami zagnieżdżenia; jednak godne uwagi jest to, że zagnieżdżenie jest skorelowane z wariacjami wykładników skalowania częstotliwości słów na podstawie książki po książce.

głównym odkryciem tego artykułu jest to, że prosty model zmniejszania przestrzeni próbkowej może pokazać, że nestedness rzeczywiście wyjaśnia pojawienie się praw skalowania w częstotliwościach słowa, w szczególności prawa Zipfa. Dokładniej, udało nam się powiązać pojawienie się praw skalowania ze strukturą topologiczną macierzy wyrazowo-przejściowej, czyli „phasespace”. Wynik jest niezwykły, ponieważ matryca nie koduje żadnych informacji o tym, jak często słowo j podąża za słowem i, po prostu mówi, że j podąża za i przynajmniej raz w całym tekście. Losowe permutacje matrycy, które niszczą jej zagnieżdżenie, nie mogą już wyjaśniać skalowania, podczas gdy permutacje, które utrzymują zagnieżdżenie w stanie nienaruszonym, wskazują na istnienie praw mocy. Ponadto godne uwagi jest to, że nie są potrzebne (nielokalne) preferencyjne, multiplikatywne lub samoorganizujące się założenia krytyczne, aby zrozumieć obserwowane skalowanie, i że nie są potrzebne żadne parametry poza matrycami Word-transition.

fakt, że prosty model jest tak skuteczny w odtwarzaniu szczegółowej właściwości skalowania w statystyce częstotliwości słowa, może wskazywać na ważny aspekt języka, który nie został do tej pory zauważony; fakt, że ogólne użycie słowa jest statystycznie silnie uzależnione od użycia lokalnych struktur hierarchicznych i ograniczeń, których używamy w generowaniu zdań. Uważamy, że ścisły związek między zagnieżdżeniem a wykładnikiem skalowania otwiera drzwi do interpretacji rozkładów częstotliwości słowa jako obserwowalnej statystycznie, która silnie zależy od użycia słownictwa i gramatyki w języku. W związku z tym przypuszczamy, że prawo Zipfa może nie być uniwersalne, ale że statystyka użycia słów zależy od lokalnych struktur, które mogą być różne w różnych tekstach, a nawet w zdaniach. W celu wyjaśnienia tej kwestii konieczne są dalsze badania.

na koniec warto zauważyć, że Klasa procesów redukujących przestrzeń próbki zapewnia niezależną drogę do skalowania, która może mieć szeroki zakres zastosowań dla procesów zależnych od historii i starzenia się . W fizyce statystycznej wiadomo, że procesy, które sukcesywnie zmniejszają swoją przestrzeń fazową w miarę ich rozwoju, charakteryzują się prawem mocy lub rozciągniętymi funkcjami rozkładu wykładniczego. Rozkłady te powstają w wyniku załamania fazowego.

wkład autorów

S. T. zaprojektował badania, przeprowadził analizę numeryczną i napisał rękopis. R. H. I B. C.-M. przeprowadzili analizę numeryczną i napisali rękopis. B. L. zajmował się wstępnym przetwarzaniem książek i przeprowadzał analizy numeryczne.

konkurencyjne interesy

autorzy nie deklarują konkurencyjnych interesów finansowych.

finansowanie

prace te zostały wsparte przez Austriacki Fundusz naukowy FWF w ramach KPP23378FW.

Przypisy

przypisy końcowe

1 Należy zauważyć, że wskaźnik zagnieżdżenia w równaniu (1.3) jest uzasadnione tylko w przypadku, gdy prawdopodobieństwo dwóch słów i, j o tej samej przestrzeni próbki jest bardzo niskie, P(Ωi = Ωj) ≈ 0. Tak jest w przypadku rozważanych macierzy przejściowych.

2 w szczególności wykorzystujemy amerykańską tragedię Theodora Dreisera; Pochodzenie gatunków, pochodzenie człowieka i różne formy roślin Karola Darwina; opowieść o dwóch miastach i David Copperfield Karola Dickensa; Romeo i Julia, Henryk V i Hamlet Williama Szekspira; i Ulissesa Jamesa Joyce ’ a. Słownictwo waha się od N = 3102 (Romeo i Julia) do 22 000 (Ulisses) słów.

© 2015 the Author(s) Published by the Royal Society. Wszelkie prawa zastrzeżone.
  • 1
    Zipf GK. 1949ludzkie zachowanie i zasada najmniejszego wysiłku. Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953an informatyczna teoria statystycznej struktury języka. Teoria komunikacji (wyd. & Londyn, Wielka Brytania: Butterworths. Google Scholar
  • 3
    Harremoës P& Topsøe F. 2001maximum Entropy fundamentals. Entropia 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
  • 4
    & 2003 least effort and the origins of scaling in human language. Proc. Natl Acad. Sci. USA 100, 788-791. (doi:10.1073/pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& Solé RV. 2011wymaganie prawa Zipf w ewolucji komunikacji. Phys. Rev. E 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, ISI, Google Scholar
  • 6
    Simon HA. 1955w klasie funkcji rozkładu skośnego. Biometrika 42, 425-440. (doi: 10.1093 / biomet / 42.3-4.425). Crossref, ISI, Google Scholar
  • 7
    Zanette DH& Montemurro MA. 2005Dynamics of text generation with realistic Zipf ’ s distribution. J. Quant. Lingwista. 12, 29–40. (doi:10.1080/09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992 teksty zipfa wykazują rozkład częstotliwości wyrazów podobny do prawa. IEEE Trans. Inform. Teoria 38, 1842-1845. (doi:10.1109/18.165464). Crossref, ISI, Google Scholar
  • 9
    1957Some effects of intermittent silence. Am. J. Psychol. 70, 311–314. (doi:10.2307/1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller GA& Chomsky N. 1963 Handbook of mathematical psychology, vol. 2 (eds , Luce RD, Bush r& Galanter E), S. 419-491. Nowy Jork, NY: Wiley. Google Scholar
  • 11
    Kosmidis K, Kalampokis a & Argyrakis P. 2006Statistical mechanical approach to human language. Phys. A 366, 495-502. (doi: 10.1016 / j.physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005 on the power-law distribution of language family sizes. J. Lingwista. 41, 117–131. (doi: 10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini a& Menczer F. 2009modelowanie właściwości statystycznych tekstu pisanego. PLoS ONE 4, e5372. (doi:10.1371/journal.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette Dh& Montemurro MA. 2011Universal entropy of word ordering across linguistic families. PLoS ONE 6, e19875. (doi:10.1371/journal.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda g& N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan X-Y& Minnhagen P. 2014 – „a Scal law beyond Zipf’ s law and its relation to Heaps”.’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K& Hatano N. 2002uniwersalność prawa Zipf. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143 / JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. 2001zipf Dystrybucja rozmiarów firm amerykańskich. Nauka 293, 1818-1820. (doi:10.1126/nauka.1062081). Crossref, PubMed, ISI, Google Scholar
  • 19
    Makse H-A, Havlin s& Stanley HE. 1995Modelling urban growth patterns. Nature 377, 608-612. (doi:10.1038/377608a0). Crossref, ISI, Google Scholar
  • 20
    Krugman P. 1996.tajemnica miejskiej hierarchii. J. Jpn Int. Econ. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blank a & Phys. A 287, 279-288. (doi:10.1016/S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J& Moses M-E. 2007globalne wzorce rozkładów wielkości miast i ich podstawowe czynniki. PLoS 12, 934. (doi:10.1371/journal.pone.0000934). Crossref, ISI, Google Scholar
  • 23
    Stanley HE, Buldyrev S, Goldberger a, Havlin s, Peng c& Simons M. 1999scaling features of noncoding DNA. Phys. A 273, 1-18. (doi:10.1016/S0378-4371 (99)00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-H& Manrubia S-C. 2001 Phys. A 295, 1-8. (doi:10.1016/S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V.1896cours d ’ Economie Politique. Genewa, Szwajcaria: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu m& Phys. A 269, 125-131. (doi:10.1016/S0378-4371 (99)00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V& Stanley H – E. 2003a teoria rozkładów mocy w fluktuacjach rynku finansowego. Nature 423, 267-270. (doi:10.1038/nature01624). Crossref, PubMed, ISI, Google Scholar
  • 28
    Reed WJ& 2002 from gene families and genera to incomes and internet file sizes: why power laws are so common in nature. Phys. Rev. E 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner S, Szell m& PLoS ONE 7, e29796. (doi:10.1371/journal.pone.0029796). Crossref, PubMed, ISI, Google Scholar
  • 30
    2005 prawa energetyczne, dystrybucje Pareto i prawo Zipf. Contemp. Phys. 46, 323–351. (doi:10.1080/00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon S& 1996Spontaneous scaling emergence in generic Stochastic systems. Int. J. Mod. Phys. C 7, 745-751. (doi:10.1142/S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai O, Biham O& Solomon S. 1999power-law distributions and Lévy-stable intermittent fluctions in Stochastic systems of many autocatalytic elements. Phys. Rev. E 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu ET& 1991Avalanches of the distribution of solar flares. Astrofizyka. J. 380, 89–92. (doi:10.1086/186180). Crossref, ISI, Google Scholar
  • 34
    Barabási A-L& Albert R. 1999emergencja skalowania w sieciach losowych. Nauka 286, 509-512. (doi:10.1126/nauka.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang C& Wiesenfeld K. 1987 Phys. Wielebny Lett. 59, 381–384. (doi: 10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y& Sornette D. 2008theory of Zipf 's law and of general power law distributions with Gibrat’ s law of proportional growth. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001wyjaśnianie nierównomiernego rozkładu liczb w przyrodzie: prawa Benforda i Zipf. Phys. A 293, 297-304. (doi:10.1016/S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner S& Tsallis C. 2005nonextensive aspects of self-organised scale-free gas-like networks. Europhys. Lett. 72, 197–203. (doi:10.1209/epl/i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra B& Solé RV. 2010uniwersalność prawa Zipf. Phys. Rev. E 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
  • 40
    Montroll E-W& Shlesinger M-F. 1982on 1 / F noise i inne dystrybucje z długimi ogonami. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi:10.1073/pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel R& Thurner S. 2015poznanie skalowania poprzez procesy zależne od historii z zapadającą się przestrzenią próbek. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi:10.1073/pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
  • 42
    Kac M. 1989a zależna od historii Sekwencja losowa zdefiniowana przez Ulama. ADV.Appl. Matematyka. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI,Google Scholar
  • 45
    Hanel R& Thurner S. 2013generalizowane (c, d)-Entropia i starzejące się spacery losowe. Entropia 15, 5324-5337. (doi:10.3390/e15125324). Crossref, ISI, Google Scholar
  • 46
    Partee BH. 1976montague grammar. New York, NY: Academic Press. Google Scholar
  • 47
    Fortuny J & Corominas-Murtra B. 2013w początkach niejednoznaczności w efektywnej komunikacji. J. Logic Lang. Inform. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *