Articles

înțelegerea legii Zipf a frecvențelor cuvintelor prin colapsul spațiului eșantion în formarea propoziției

Introducere

textele scrise arată caracteristica remarcabilă că distribuția ordonată de rang a frecvențelor cuvintelor urmează o lege aproximativă a puterii

formula de afișare

1.1

unde R este rangul care este atribuit fiecărui cuvânt din text. Pentru majoritatea textelor, indiferent de limbă, timpul creației, genul literaturii, scopul acesteia etc. se constată că articolul 1, Care este denumit legea Zipf . În Figura 1, frecvența cuvântului este prezentată pentru textul lui Darwin, Originea speciilor. Căutarea unei înțelegeri a originii acestei regularități statistice se desfășoară de aproape un secol. Zipf însuși a oferit o explicație calitativă bazată pe eforturile investite în evenimente de comunicare de către un expeditor și un receptor . Aceste idei au fost ulterior formalizate într-un cadru teoretic Informațional . Primul model cantitativ bazat pe ipoteze lingvistice despre generarea textului a fost propus de Simon . Modelul presupune că, pe măsură ce contextul apare în generarea unui text, cuvintele care au apărut deja în text sunt favorizate față de altele. Prin simpla presupunere că cuvintele care au apărut anterior sunt adăugate la text cu o probabilitate proporțională cu aspectul lor anterior (atașament preferențial) și presupunând că cuvintele care până acum nu au apărut sunt adăugate la o rată constantă, este posibil să se deducă legea lui Zipf, având în vedere că ultima rată este scăzută. Acest model de atașament preferențial a fost rafinat prin implementarea faptului empiric că rata de apariție a cuvintelor noi scade pe măsură ce lungimea textelor crește . S-a arătat în lucrările clasice că modelele de scriere aleatorie pot duce la distribuții asemănătoare Zipf ale frecvențelor cuvintelor . Cu toate acestea, aceste lucrări se bazează pe ipoteze nerealiste privind distribuțiile de lungime a cuvintelor și conduc la texte nestructurate și neinterpretabile. Cu toate acestea, după cum vom arăta, structura gramaticală, împreună cu mecanismele de generare a discursului, poate juca un rol esențial în originea legii Zipf într-un context realist. Este important să subliniem că studiul statistic detaliat al proprietăților limbajului nu se încheie aici; a fost prezentată o lucrare importantă dincolo de legea lui Zipf (de exemplu.). Studiile recente tratează dependența detaliată a exponenților de scalare de lungimea corpului textului studiat .

Figura 1.

Figura 1. Distribuția ordonată în funcție de rang a frecvențelor cuvintelor pentru Originea speciilor (albastru) arată o lege aproximativă a puterii cu o pantă de aproximativ 0,9. Rezultatul modelului (linia roșie) explică nu numai exponentul Legii Puterii, ci și surprinde detalii despre distribuție. Întreruperea exponențială poate fi explicată prin versiunea randomizată a modelului.

legea lui Zipf nu se limitează la frecvențele cuvintelor, ci apare în nenumărate sisteme și procese, aparent fără legătură . Pentru a menționa doar câteva, s-a găsit în Statisticile dimensiunilor firmelor , dimensiunilor orașelor , genomului , numelor de familie , veniturilor , piețelor financiare , dimensiunilor fișierelor de Internet sau comportamentului uman ; pentru mai multe exemple a se vedea . Au existat eforturi extraordinare pentru a înțelege originea legii Zipf și, în general, originea scalării în sisteme complexe. Există trei căi principale de scalare: procese multiplicative , procese preferențiale și criticitate autoorganizată . Au fost propuse mai multe alte mecanisme care sunt mai mult sau mai puțin legate de aceste căi de bază pentru scalare (de exemplu ).

recent, o a patra cale independentă de scalare a fost introdusă pe baza proceselor stocastice care reduc rezultatele lor potențiale (spațiul eșantionului) în timp . Acestea sunt procese aleatorii dependente de istorie care au fost studiate în diferite contexte în literatura matematică și , mai recent, în contextul legilor de scalare . Un exemplu de procese de reducere a spațiului eșantionului este următorul. Gândiți-vă la un set de n zaruri unde die numărul 1 are o față, die numărul 2 are două fețe (monedă), die numărul 3 are trei fețe și așa mai departe. Die numărul n are n fețe. Începeți prin a alege unul dintre n zaruri la întâmplare, spuneți numărul de zaruri i. aruncați − l și înregistrați valoarea nominală obținută, care a fost spus k. apoi luați numărul de matriță k − 1 aruncați-l, obțineți j, înregistrați j, luați numărul de matriță j-1, aruncați-l etc. Continuați să aruncați zaruri în acest fel până când aruncați 1 pentru prima dată. Deoarece nu există o matriță cu mai puțin de 1 fețe, procesul se termină aici. Secvența valorilor nominale înregistrate în prescripția de mai sus (i, k, j, … , 1) este în mod evident strict ordonată sau imbricată, i > k > j >> 1. În , Sa demonstrat riguros că, dacă acest proces se repetă de mai multe ori, distribuția rezultatelor (valori nominale 1, 2,…, N) este o lege exactă Zipf, adică probabilitatea de a observa o valoare nominală m în procesul de mai sus (secvență de aruncări) este exact PN(m) = m−1, dat începem cu n zaruri. Rețineți că este necesar să păstrați n fix în timpul repetărilor procesului pentru a obține legea exactă Zipf. Dacă n variază în timpul repetițiilor, în mod clar scalarea Zipf este prezentă asimptotic pentru rangurile înalte; cu toate acestea, datorită amestecării diferitelor N, abaterile de la Legea exactă Zipf vor apărea pentru rangurile joase.

mai formal, fiecare matriță N are un spațiu-eșantion, notat cu hectolitru = {1, 2,…, N}, care este numărul de rezultate potențiale, adică numărul de fețe ale zarurilor N. Aruncarea acestor zaruri în modul de mai sus dă naștere unei secvențe de spații-eșantion imbricate

formula de afișare

1.2

cuibărirea spațiilor-eșantion într-o secvență dependentă de istorie se află în centrul originii legilor de scalare în acest tip de proces. Pentru detalii, a se vedea în cazul în care este, de asemenea, a arătat că, dacă zgomotul este adăugat la istoria dependente de procese, legi de scalare PN(m) ∝ m−λ se obține, în cazul în care 0 << 1 este nivelul de zgomot.

în această lucrare, prezentăm o derivare a legii lui Zipf a frecvențelor cuvintelor, bazată pe un model simplu de formare a propoziției / discursului. Modelul este motivat de observația că procesul de formare a unei propoziții—sau mai general a unui discurs—este un proces de reducere a spațiului eșantion dependent de istorie. Cuvintele nu sunt extrase aleatoriu din spațiul de probă al tuturor cuvintelor posibile, ci sunt folosite în relații stricte între ele. Utilizarea cuvintelor specifice într-o propoziție restricționează foarte mult utilizarea cuvintelor consecutive, ducând la un proces de cuibărit (sau de reducere a spațiului eșantionului), similar cu cel descris mai sus. Colapsul spațiului de probă în texte este necesar pentru a transmite informații semnificative. În caz contrar, orice interpretare, chiar și în termeni metaforici sau poetici, ar deveni imposibilă. Să facem punctul mai concret cu un exemplu pentru formarea unei propoziții, în care atât constrângerile gramaticale, cât și cele contextuale (care reduc spațiul eșantionului) sunt la lucru (figura 2). Formăm propoziția: ‘lupul urlă noaptea’. În principiu, primul cuvânt ‘lupul ‘(ignorând articolele și prepozițiile pentru moment) poate fi extras din toate cuvintele posibile. Să presupunem că există n cuvinte posibile și să denotăm spațiul-eșantion respectiv cu ZECQUTN = {1, 2, … , n}, unde fiecare număr reprezintă acum un cuvânt. Acest lucru este ilustrat schematic în figura 2a. având în vedere că am ales ‘lupul’ din cifra 2B, următorul cuvânt nu va fi acum (de obicei) ales din cifra 1, 2,…, N}, ci dintr-un subset al acestuia (figura 2c). Imaginați-vă că subsetul conține cuvinte L, avem o sută la sută. De obicei, ne așteptăm ca subsetul să conțină cuvinte care sunt asociate proprietăților caninilor, funcțiilor biologice, altor animale etc. dar nu toate cuvintele posibile mai. Odată ce specificăm al doilea cuvânt ‘urlete’ (urlete), contextul, inteligibilitatea și structura gramaticală restricționează și mai mult spațiul-eșantion al celui de-al treilea cuvânt la (urlete), din care tragem în sfârșit ‘noapte’. Evident, cuibărirea în formarea propozițiilor este similară cu exemplul zarurilor imbricate înainte. Cuibărirea este impusă prin constrângeri gramaticale și/sau contextuale și / sau interpretative.

Figura 2.

Figura 2. Vedere schematică a cuibăririi în formarea propoziției. (a) dintre toate potențialele n cuvinte care definesc spațiul-eșantion inițial, alegem ‘lup’ (b). Această alegere restricționează spațiul-eșantion pentru următorul cuvânt (cerc portocaliu) care trebuie să fie compatibil din punct de vedere gramatical și semantic cu ‘lup’. (c) din acest set, alegem ‘urlete’, care reduce din nou spațiul eșantionului (cerc roșu) (d), deoarece următorul cuvânt trebuie să fie acum consecvent atât semantic, cât și gramatical cu ‘urletele lupului’. Secvența cuvintelor arată o structură imbricată. Efectul colapsului spațiu-eșantion este prezent și în contextul mai larg al formării discursului, deoarece un subiect și dezvoltarea sa retorică impun o constrângere imbricată succesivă asupra spațiului eșantion. (Versiunea Online în culori.)

rolul gramaticii pentru cuibărit este evident. De obicei în limba engleză, primul cuvânt este un substantiv cu rolul gramatical al subiectului. Faptul că primul cuvânt este un substantiv limitează posibilitățile pentru următorul cuvânt la subsetul de fraze verbale. În funcție de verbul ales, cuvintele care pot urma acum joacă de obicei rolul gramatical al obiectului și sunt din nou mai restricționate. Folosim termenii reducerea spațiului eșantionului și structura ierarhică imbricată în propoziții în mod interschimbabil. Nu numai structura gramaticală impune restricții consecutive asupra spațiului-eșantion al cuvintelor pe măsură ce propoziția progresează; nevoia de inteligibilitate are același efect. Fără structuri ierarhice (cel puțin parțiale) în formarea propozițiilor, interpretarea lor ar deveni foarte grea . Cu toate acestea, structurile imbricate în propoziții nu vor fi, în general, strict realizate. În caz contrar, utilizarea creativă și flexibilitatea limbajului ar fi serios constrânse. Uneori, cuvintele pot acționa ca o balama lingvistică, ceea ce înseamnă că permite mult mai multe cuvinte consecutive decât erau disponibile pentru cuvântul său precedent. Se așteaptă ca cuibărirea să se realizeze doar într-o oarecare măsură. Cuibărirea imperfectă permite un grad de ambiguitate în codul lingvistic și este una dintre sursele uimitoarei sale versatilități .

în această lucrare, cuantificăm gradul de cuibărit al unui text din matricea sa de tranziție de cuvinte M (rețea). Pentru a caracteriza structura ierarhică a unui text cu un singur număr, definim cuibărirea sa n ca proprietate a lui M prin

formula de afișare

1.3

unde media este preluată peste toate perechile de cuvinte posibile (i, j). Nestedness este un număr între 0 și 1 și specifică în ce măsură reducerea spațiului eșantionului este prezentă în medie în text.1 un sistem strict imbricat, ca cel prezentat în ecuația (1.2), are n(M) = 1. În termeni lingvistici, cuibărirea strictă este în mod clar nerealistă.

folosim matrice de tranziție de cuvinte din texte englezești reale, care servesc drept intrare la un model simplu de formare a propozițiilor. Apoi studiem distribuțiile de frecvență ale acestor texte produse artificial și le comparăm cu distribuțiile textelor originale. Pentru prima dată, arătăm că este posibil să se raporteze caracteristica topologică a cuibăririi (locale) în formarea propozițiilor la caracteristicile globale ale distribuțiilor de frecvență a cuvintelor textelor lungi. În acest sens, propunem o modalitate de a înțelege Statisticile frecvențelor cuvintelor—în special legea lui Zipf—prin caracteristica structurală reală a limbajului, nestingherirea, fără a fi nevoie să recurgem la încercări anterioare, inclusiv procese multiplicative, atașament preferențial sau criticitate autoorganizată, care, în contextul limbajului, par uneori să se bazeze pe ipoteze puternice și implauzibile.

Model

presupunem un vocabular finit de N cuvinte. Din orice text dat, obținem o matrice empirică de tranziție a cuvintelor M. cuvintele sunt etichetate cu indici latini. Mij = 1 înseamnă că în text găsim cel puțin o ocazie în care cuvântul j îl urmează direct pe i; Dacă Mij = 0, cuvântul j nu îl urmează niciodată pe i în întregul text. Figura 3a prezintă matricea de tranziție pentru Originea speciilor. Pentru a cuantifica spațiul-eșantion pentru cuvinte individuale, rețineți că o linie i în M conține setul de cuvinte, o mie = {k|Mik = 1}, care urmează direct cuvântul i. prin |o mie|, notăm dimensiunea (numărul de elemente) A O mie, care este numărul de cuvinte diferite care pot urma o mie. o mie este o aproximare pentru volumul spațiului-eșantion care este accesibil după apariția cuvântului I. Cuvintele diferite au volume diferite de spațiu eșantion (figura 3b), unde este afișat profilul spațiu eșantion. Parametrizăm profilul ca yk = x, unde X corespunde volumului spațiului eșantionului | / Unqti/, și y indicelui spațiului eșantionului i. numim un sistem imbricat liniar dacă hectx = 1 (ca în ecuația (1.2)), slab imbricat pentru octox < 1 și puternic imbricat dacă octox > 1 (ca în figura 3b). Un exemplu pentru un profil slab imbricat poate fi văzut într-una din inserțiile din figura 4c. Parametrul XV are o interpretare intuitivă în ceea ce privește o măsură de ‘structurare’ a tranzițiilor de cuvinte. În cazul unui profil slab imbricat (< 1), Există multe cuvinte care pot fi urmate de multe cuvinte diferite, în timp ce într-un profil puternic imbricat (> 1), Există câteva cuvinte care sunt urmate de multe alte cuvinte și multe cuvinte care pot fi urmate doar de foarte puține. În acest sens, măsurile de măsură în ce măsură tranzițiile de cuvinte sunt efectiv constrânse.

Figura 3.

Figura 3. Secțiunea matricei de tranziție a cuvintelor M pentru cele 250 de cuvinte care arată cel mai mare volum de spațiu eșantion de cuvinte consecutive (a). O intrare neagră (Mij = 1) înseamnă că un cuvânt dat i (axa y) este urmat de cuvântul j (axa x). Cuibărirea non-banală este văzută de forma aproximativă de pâlnie a densității cuvintelor. Valoarea reală a volumului spațiului-eșantion pentru fiecare cuvânt i, |Oquti|, este prezentată în litera (B), care se obține prin deplasarea tuturor intrărilor liniilor i în pozițiile cele mai din stânga. Numim (b) profilul spațiului de probă.

Figura 4.

Figura 4. exponenți de la exponenții de frecvență a cuvintelor ordonate în rang de 10 cărți față de rezultatele modelului pentru amodel (a). În mod clar, modelul explică în mare măsură valorile reale. (B) exponenți în valoare de zecimal față de cuibărit n (M) din cele 10 cărți. (c) exponenți amodel versus parametrul profilului spațiu-eșantion (esantion-space profile), de la numărul unu la unu. Pentru vocabularele mari N = 100 000, la ora 1, se produce o tranziție rapidă de la regimul de cuibărit slab la cel de cuibărit puternic, unde găsim amodelul 0, respectiv amodelul 0, respectiv amodelul 1. Profilurile de cuibărire slabe și puternice sunt indicate schematic. Pentru n mai mic (realist), tranziția apare la < 1, iar amodelul acoperă un interval cuprins între aproximativ 0,85 și 1,1 în faza de scalare, care se potrivește cu intervalul empiric văzut în (a). (Versiunea Online în culori.)

rețineți că profilul din figura 3b nu este de fapt bine echipat cu o lege a puterii; motivul parametrizării este pentru un argument pur teoretic care va deveni clar mai jos. Excludem cuvintele care sunt urmate de mai puțin de două cuvinte diferite în întregul text, adică eliminăm toate liniile i din M pentru care |Unqaci| < 2. Cuibărirea strictă nu trebuie confundată cu cuibărirea puternică sau slabă. Acestea din urmă sunt proprietăți ale profilului eșantionului-spațiu.

pentru testarea statistică, construim două versiuni randomizate ale lui M și le desemnăm prin Mrand și, respectiv, Mrow-perm. Mrand se obține prin permutarea aleatorie a rândurilor liniilor individuale ale matricei M. aceasta păstrează numărul de intrări diferite de zero în fiecare linie la fel ca în matricea originală M, dar distruge cuibul și informațiile pe care cuvintele le urmează reciproc. A doua versiune randomizată Mrow-perm este obținută prin permutarea rândurilor (întregi) ale matricei M. Aceasta menține cuibărirea matricei neschimbată, dar distruge informațiile despre tranzițiile cuvintelor.

având în vedere M, construim propoziții aleatorii de lungime L cu următorul model:

— alegeți unul dintre N cuvinte aleatoriu. Spune cuvântul a fost i. scrie i într-o listă de cuvinte W, astfel încât W = {i}.

— sari la linia i în M și alege aleatoriu un cuvânt din setul Oquti. Spuneți că cuvântul ales este k; actualizați lista de cuvinte W = {I, k}.

— sari la linia k și alege unul dintre cuvintele de la Inktik; spune că te j, și actualizare W = {I, k, j}.

— repetați procedura de L ori. În acest stadiu, se formează o propoziție aleatorie.

— repetați procesul pentru a produce propoziții Nsent.

în acest fel, obținem o listă de cuvinte cu intrări Nsent L, care este o carte aleatorie care este generată cu matricea de tranziție cuvânt a unei cărți reale. Din lista de cuvinte, obținem cuvântul distribuție de frecvență fmodel. Modelul actual este similar cu cel din dar diferă în trei aspecte: acesta permite non-perfectă cuiburi n< 1, nu are nici o componentă de zgomot explicit, și are o secvență fixă (propoziție) lungime.

rezultate

analizăm modelul cu simulări computerizate, specificând L = 10 și Nsent = 100 000. Folosim 10 cărți alese aleator2 din Proiectul Gutenberg (www.gutenberg.org). pentru fiecare carte, determinăm vocabularul său N, matricea sa M, Oqqui pentru toate cuvintele, cuibărirea sa n (M) și exponentul distribuției frecvenței cuvântului ordonat de rang(cel mai mic pătrat se potrivește cu f (r), interval de potrivire între 5 oktt r oktttt 200). f (r) este prezentat pentru Originea speciilor în Figura 1 (Albastru); exponentul este 0,90. Rulăm modelul pentru parametrii fiecărei cărți individuale pentru a genera un text aleatoriu. Utilizarea Unqfi empiric pentru model asigură faptul că acest text aleatoriu are exact același profil de spațiu eșantion și cuibărirea ca și cartea.

distribuția obținută din modelul fmodel este în mod clar capabilă să reproducă exponentul aproximativ al Legii Puterii pentru Originea speciilor, amodel 0,86 (același interval de potrivire). Mai mult, surprinde detalii despre distribuția f. Pentru valori mari ale r în fmodel (r), se formează un platou înainte de a se observa limita de dimensiune finită exponențială. Atât platoul, cât și decupajul pot fi pe deplin înțelese cu modelul randomizat.

în figura 4a, comparăm exponenții din cifra de afaceri a cifrei de afaceri, extrași din cărți, cu rezultatele modelului amodel. Modelul explică în mod evident valorile reale într-o mare măsură, subestimând ușor exponenții reali. Obținem un coeficient de corelație de 0,95 (p < 3,7, 10-5). În figura 4b, arătăm că cuibăritul n(M) este legat de exponenții XV într-un mod aproximativ liniar. Testăm ipoteza că prin distrugerea cuiburilor exponenții vor dispărea. Folosind mrand randomizat, găsimFormula Inline (aceeași gamă de potrivire), care distruge efectiv legea puterii. Folosind cealaltă versiune randomizată care păstrează cuibărirea intactă, Mrow-perm, pentru cuvinte de rang inferior (până la aproximativ rang aprox. 10), găsim distribuții de frecvență de cuvinte similare ca pentru M; cu toate acestea, așa cum era de așteptat, coada Legii Puterii (rangurile înalte) dispare pentru Mrow-perm din cauza contribuției de zgomot a randomizării (nu este prezentată). Pentru a valida ipoteza noastră că ordonarea cuvintelor este esențială, am calculat distribuțiile de rang de model folosind matricea transpusă MT, ceea ce înseamnă că inversăm fluxul de timp în model. Găsim două rezultate. În primul rând, dispare corelația dintre exponenții cărților de la circulatia sangvina și modelul formula Inline, reflectată de un coeficient de corelație nesemnificativ de la circulatia sangvina (0,47). În al doilea rând, exponenții (în medie pe cele 10 cărți) sunt semnificativ mai mici, Formula Inline decât pentru fluxul de timp corect, unde obținem Formula Inline valoarea p a unui test t este de 0,039.

în cele din urmă, încercăm să înțelegem importanța profilului spațiu-eșantion pe exponenții de scalare. Pentru aceasta, generăm o serie de matrici M care au un profil parametrizat cu o putere centimetrică. În figura 4c, exponenții model amodel din acești m generați artificial sunt prezentați ca o funcție a lui XV, pentru diferite dimensiuni ale vocabularului N. Pentru < 1 (cuibărire slabă), găsim exponenții amodel 0, adică nici o lege de scalare. Pentru n mare la XV = 1, are loc o tranziție rapidă la amodel 1 (Zipf). Pentru N mai mici, găsim un comportament mai complicat al tranziției, construind un exponent maxim la < 1. Gama exponenților de carte variază între 0,85 și 1.1, Care este exact intervalul observat pentru dimensiuni de vocabular realiste n 1000-10 000. Am verificat că variațiile lungimii propoziției (cu excepția L = 1) nu modifică rezultatele raportate. Pentru propozițiile cu un singur cuvânt (L = 1), obținem în mod evident o distribuție uniformă a frecvenței cuvintelor și, în consecință, o distribuție de rang plat, deoarece majoritatea cuvintelor au aproape același rang. Am variat numărul de propoziții de la Nsent = 104 la 106 și nu am găsit practic nicio influență asupra rezultatelor raportate.

discuție

în această lucrare, ne concentrăm asupra proprietății fundamentale a cuibăririi în orice cod care transmite informații semnificative, cum ar fi limbajul. Susținem că, dacă cuibăritul nu ar fi prezent, s-ar ajunge cu ușurință în situații confuze, așa cum este descris în La Biblioteca de Babel de J. L. Borges, unde o bibliotecă ipotetică deține toate cărțile compuse din toate combinațiile posibile de caractere care umple 410 pagini. Definim și cuantificăm un grad de cuibărire în codul lingvistic. Gradele scăzute de cuibărit implică de obicei o ierarhie mai puțin strictă în ceea ce privește utilizarea cuvintelor sau o utilizare mai egalitară a vocabularului, decât textele cu cuibărit ridicat. Așa cum era de așteptat, textele au o structură bine definită, dar nu strict imbricată, care ar putea apărea dintr-un compromis de specificitate (pentru a transmite mesaje lipsite de ambiguitate) și flexibilitate (pentru a permite o utilizare creativă a limbajului). Constatăm că cuibărirea variază între diferite texte, sugerând că există diferite moduri de utilizare a vocabularului și a gramaticii. Eșantionul nostru de texte a inclus trei piese de Shakespeare, trei texte științifice și patru romane. Descoperim că piesele, poate Cele mai apropiate de limba vorbită, arată o cuibărire mai mică decât cărțile științifice. Romanele arată cele mai înalte niveluri de cuibărit. Eșantionul este prea mic pentru a trage concluzii cu privire la faptul dacă Diferite tipuri de texte sunt caracterizate de valori tipice ale cuibăritului; cu toate acestea, este remarcabil faptul că cuibăritul este corelat cu variațiile exponenților de scalare a frecvențelor cuvintelor pe bază de carte cu carte.

principala constatare a acestei lucrări este că un model simplu de reducere a spațiului eșantionului poate arăta că cuibărirea explică într-adevăr apariția legilor de scalare în frecvențele cuvintelor, în special legea lui Zipf. Mai exact, am putut relaționa apariția legilor de scalare cu structura topologică a matricei cuvânt-tranziție sau ‘fazespațiu’. Rezultatul este remarcabil, deoarece matricea nu codifică nicio informație despre cât de des cuvântul j urmează cuvântul i, ci doar spune că j L-a urmat pe i cel puțin o dată în întregul text. Permutările aleatorii ale matricei care îi distrug cuibărirea nu mai pot explica scalarea, în timp ce permutările care păstrează cuibăritul intacte indică existența legilor puterii. În plus, este remarcabil faptul că nu sunt necesare ipoteze critice preferențiale, multiplicative sau autoorganizate (non-locale) pentru a înțelege scalarea observată și că nu sunt necesari parametri dincolo de matricile de tranziție cuvânt.

faptul că modelul simplu este atât de reușit în reproducerea proprietății detaliate de scalare în statisticile de frecvență a cuvintelor ar putea indica un aspect important al limbajului care nu a fost remarcat până acum; faptul că utilizarea generală a cuvintelor este influențată statistic puternic de utilizarea structurilor ierarhice locale și a constrângerilor pe care le folosim în generarea propozițiilor. Credem că relația strânsă dintre cuibărire și exponentul de scalare deschide ușa pentru o interpretare a distribuțiilor de frecvență a cuvintelor ca un observabil statistic care depinde puternic de utilizarea vocabularului și a gramaticii într-o limbă. În consecință, presupunem că legea lui Zipf ar putea să nu fie universală, dar că statisticile de utilizare a cuvintelor depind de structurile locale care pot fi diferite între texte și chiar în propoziții. Sunt necesare cercetări suplimentare pentru a clarifica acest punct.

în cele din urmă, merită menționat faptul că clasa de procese de reducere a spațiului eșantionului oferă o cale independentă de scalare care ar putea avea o gamă largă de aplicații pentru procesele dependente de Istorie și de îmbătrânire . În fizica statistică, se știe că procesele care își reduc succesiv fazaspațiul pe măsură ce se desfășoară sunt caracterizate de legea puterii sau de funcții de distribuție exponențială întinse. Aceste distribuții apar generic ca o consecință a colapsului fazespațiu .

contribuțiile autorilor

S. T. a proiectat cercetarea, a efectuat analize numerice și a scris manuscrisul. R. H. și B. C.-M. au efectuat analize numerice și au scris manuscrisul. B. L. a făcut preprocesarea cărților și a efectuat analize numerice.

interese concurente

autorii declară că nu există interese financiare concurente.

finanțare

această lucrare a fost susținută de Fondul științific austriac FWF în cadrul KPP23378FW.

note de subsol

note finale

1 rețineți că indicatorul de cuibărire din ecuația (1.3) este rezonabil numai pentru cazul în care probabilitatea ca două cuvinte i, j să aibă același spațiu de probă este foarte scăzută, p(Oqti = Oqtij) 0. Acesta este cazul matricelor de tranziție considerate.2 în special, folosim o tragedie americană, de Theodore Dreiser; Originea speciilor, descendența omului și diferite forme de plante de Charles Darwin; povestea a două orașe și David Copperfield de Charles Dickens; Romeo și Julieta, Henry V și Hamlet de William Shakespeare; și Ulise de James Joyce. Vocabularul variază de la N = 3102 (Romeo și Julieta) la 22 000 (Ulise) cuvinte.

2015 autorul(autorii) publicat (e) de Societatea Regală. Toate drepturile rezervate.
  • 1
    Zipf GK. 1949comportamentul uman și principiul celui mai mic efort. Reading, MA: Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953o teorie informațională a structurii statistice a limbajului. Teoria comunicării (ed. & Jackson W). Londra, Marea Britanie: Butterworths. Google Scholar
  • 3
    Harremo Okts p & Tops Oktube F. 2001maximum entropia fundamentale. Entropia 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
  • 4
    Ferrer i Cancho r & sol RV. 2003cel mai mic efort și originile scalării în limbajul uman. Proc. Natl Acad. Sci. SUA 100, 788-791. (doi: 10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& sol RV. 2011apariția legii Zipf în evoluția comunicării. Fizică. Rev. E 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, ISI, Google Scholar
  • 6
    Simon HA. 1955pe o clasă de funcții de distribuție oblică. Biometrika 42, 425-440. (doi: 10.1093/biomet / 42.3-4.425). Crossref, ISI, Google Scholar
  • 7
    Zanette DH& Montemurro MA. 2005dynamics de generare de text cu distribuție realist Zipf lui. J. Quant. Lingvist. 12, 29–40. (doi:10.1080 / 09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992textele aleatorii prezintă distribuția frecvenței cuvintelor asemănătoare Legii Zipf. IEEE Trans. Informează. Teoria 38, 1842-1845. (doi: 10.1109 / 18.165464). Crossref, ISI, Google Scholar
  • 9
    Miller GA. 1957 unele efecte ale tăcerii intermitente. Am. J. Psychol. 70, 311–314. (doi: 10.2307 / 1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller Ga & Chomsky N. 1963modele militare ale utilizatorilor de limbă. Manual de psihologie matematică, vol. 2 (eds , Luce RD, Bush R & Galanter E), PP.419-491. New York, NY: Wiley. Google Scholar
  • 11
    Kosmidis K, Kalampokis a & Argyrakis P. 2006abordarea mecanică statistică a limbajului uman. Fizică. Un 366, 495-502. (doi: 10.1016 / j. physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005 privind distribuția puterii-lege a dimensiunilor familiei de limbi. J. Lingvist. 41, 117–131. (doi:10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini a & Menczer F. 2009modeling proprietățile statistice ale textului scris. PLoS unu 4, e5372. (doi: 10.1371/jurnal.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette DH & Montemurro MA. 2011 entropia universală a ordonării cuvintelor în familiile lingvistice. PLoS unu 6, e19875. (doi: 10.1371/jurnal.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda g & Corral A. 2013a scalarea legea dincolo de legea Zipf și relația sa cu legea grămezi. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan X-Y & Minnhagen P. 2014Comment on ‘a scaling law beyond Zipf’ s law and its relationship to Heaps ‘ law.’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K & Hatano N. 2002universalitatea legii lui Zipf. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143/JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. Distribuția 2001Zipf a dimensiunilor firmelor din SUA. Știință 293, 1818-1820. (doi: 10.1126/știință.1062081). Crossref, PubMed, ISI, Google Scholar
  • 19
    Makse H-A, Havlin S & Stanley el. 1995modelarea modelelor de creștere urbană. Natură 377, 608-612. (doi: 10.1038 / 377608a0). Crossref, ISI, Google Scholar
  • 20
    Krugman P. 1996confruntând misterul ierarhiei urbane. J. Jpn Int. Econ. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blank a & Solomon S. 2000legile puterii în orașe populație, piețele financiare și site-uri de internet. Fizică. Un 287, 279-288. (doi:10.1016 / S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J & Moses M-E. 2007modele globale ale distribuțiilor de dimensiuni ale orașului și driverele lor fundamentale. PLoS unu 2, 934. (doi: 10.1371/jurnal.pone.0000934). Crossref, ISI, Google Scholar
  • 23
    Stanley he, Buldyrev s, Goldberger a, Havlin S, Peng c& Simons M. 1999scaling caracteristici ale ADN-ului necodificat. Fizică. Un 273, 1-18. (doi:10.1016 / S0378-4371 (99)00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-h & Manrubia S-C. 2001transmiterea verticală a culturii și distribuirea numelor de familie. Fizică. Un 295, 1-8. (doi: 10.1016 / S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V. 1896Cours d ‘ Economie Politique. Geneva, Elveția: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu m & Legea Takayasu H. 1999zipf în distribuția veniturilor companiilor. Fizică. Un 269, 125-131. (doi: 10.1016 / S0378-4371 (99)00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V & Stanley H-E. 2003a teoria distribuțiilor de putere-lege în fluctuațiile pieței financiare. Natură 423, 267-270. (doi: 10.1038 / nature01624). Crossref, PubMed, ISI, Google Scholar
  • 28
    Reed WJ& Hughes bd. 2002de la familii de gene și genuri la venituri și dimensiuni de fișiere pe internet: de ce legile puterii sunt atât de comune în natură. Fizică. Rev. E 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner s, Szell m& Sinatra R. 2012emergența legilor de bună conduită, scalare și Zipf în secvențele comportamentale umane într-o lume online. PLoS unu 7, e29796. (doi: 10.1371/jurnal.pone.0029796). Crossref, PubMed, ISI, Google Scholar
  • 30
    Newman MEJ. 2005 legile puterii, distribuțiile Pareto și Legea lui Zipf. Contemp. Fizică. 46, 323–351. (doi:10.1080 / 00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon s& Levy M. 1996apariția scalării spontane în sistemele stocastice generice. Int. J. Mod. Fizică. C 7, 745-751. (doi:10.1142 / S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai o, Biham o& Solomon S. 1999putere-distribuții de drept și l Otrivy-fluctuații intermitente stabile în sistemele stocastice ale multor elemente autocatalitice. Fizică. Rev. E 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu et& Hamilton RJ. 1991Avalanches de distribuție a exploziilor solare. Astrofizică. J. 380, 89–92. (doi: 10.1086 / 186180). Crossref, ISI, Google Scholar
  • 34
    Barab Unktssi a-l & Albert R. 1999apariția scalării în rețele aleatorii. Știință 286, 509-512. (doi: 10.1126/știință.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang c & Wiesenfeld K. 1987auto-organizat criticitate: o explicație a zgomotului 1 / F. Fizică. Rev. Lett. 59, 381–384. (doi: 10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y & Sornette D. 2008teoria legii lui Zipf și a distribuțiilor generale ale Legii Puterii cu Legea lui Gibrat a creșterii proporționale. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero l, Tosatti e, Tosatti v & Vespignani A. 2001explicând distribuția inegală a numerelor în natură: legile lui Benford și Zipf. Fizică. Un 293, 297-304. (doi:10.1016 / S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner s& Tsallis C. 2005aspecte nonextensive ale rețelelor de gaze fără scară auto-organizate. Europhys. Let. 72, 197–203. (doi: 10.1209/epl / i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra B & sol RV. 2010universalitatea legii Zipf. Fizică. Rev. E 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
  • 40
    Montroll E-W & Shlesinger M-F. 1982pe 1 / F zgomot și alte distribuții cu cozi lungi. Proc. Natl Acad. Sci. SUA 79, 3380-3383. (doi: 10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel r& Thurner S. 2015înțelegerea scalării prin procese dependente de istorie cu spațiu eșantion în colaps. Proc. Natl Acad. Sci. SUA 112, 5348-5353. (doi: 10.1073 / pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
  • 42
    KAC M. 1989a secvență aleatoare dependentă de istorie definită de Ulam. ADV. Appl. Matematica. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI, Google Scholar
  • 45
    Hanel R & Thurner S. 2013generalized (c,d)-entropie și îmbătrânire plimbări aleatorii. Entropia 15, 5324-5337. (doi: 10.3390 / e15125324). Crossref, ISI, Google Scholar
  • 46
    Partee BH. 1976 gramatica Montague. New York, NY: presă academică. Google Scholar
  • 47
    Fortuny J & Corominas-Murtra B. 2013pe originea ambiguității în comunicarea eficientă. J. Logica Lang. Informează. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *