Articles

förstå ZIPFS lag om ordfrekvenser genom prov-rymdkollaps i meningsbildning

introduktion

skriftliga texter visar den anmärkningsvärda funktionen att rangordnad fördelning av ordfrekvenser följer en ungefärlig kraftlag

Visningsformel

1.1

där R är den rang som tilldelas varje ord i texten. För de flesta texter, oavsett språk, skapande tid, litteraturgenre, dess syfte etc. man finner att det är 1, som kallas Zipf: s lag . I Figur 1 visas ordfrekvensen för Darwins text, artens ursprung. Strävan efter en förståelse för ursprunget till denna statistiska regelbundenhet har pågått i nästan ett sekel. Zipf själv erbjöd en kvalitativ förklaring baserad på de ansträngningar som investerats i kommunikationshändelser av en avsändare och en mottagare . Dessa tankar formaliserades senare inom en informationsteoretisk ram . Den första kvantitativa modellen baserad på språkliga antaganden om textgenerering har föreslagits av Simon . Modellen förutsätter att när kontext framträder i generationen av en text, ord som redan har dykt upp i texten gynnas framför andra. Genom det enkla antagandet att ord som tidigare har dykt upp läggs till texten med en sannolikhet som är proportionell mot deras tidigare utseende (förmånlig bilaga), och förutsatt att ord som hittills inte har dykt upp läggs till med en konstant hastighet, är det möjligt att härleda ZIPFS lag, med tanke på den senare hastigheten är låg. Denna preferensbilagemodell har förfinats genom att implementera det empiriska faktumet att utseendet på nya ord minskar när textens längd ökar . Det har visats i klassiska verk att slumpmässiga skrivmaskiner kan leda till Zipf-liknande distributioner av ordfrekvenser . Dessa verk bygger dock på orealistiska antaganden om ordlängdsfördelningar och leder till ostrukturerade och otydliga texter. Men som vi kommer att visa kan grammatikstruktur, tillsammans med diskursgenereringsmekanismer, spela en viktig roll i ZIPFS lags ursprung i ett realistiskt sammanhang. Det är viktigt att betona att den detaljerade statistiska studien av språkegenskaper inte slutar här; viktigt arbete utöver ZIPFS lag har lagts fram (t.ex.). Nya studier handlar om det detaljerade beroendet av skalningsexponenterna på längden på texten som studeras .

Figur 1.

Figur 1. Rangordnad fördelning av ordfrekvenser för arternas ursprung (blå) visar en ungefärlig kraftlag med en lutning på ungefär 0,9. Modellresultatet (röd linje) förklarar inte bara power law-exponenten utan fångar också detaljer om distributionen. Den exponentiella avstängningen kan förklaras av den randomiserade versionen av modellen.

ZIPFS lag är inte begränsad till ordfrekvenser utan förekommer i otaliga, till synes orelaterade system och processer . Bara för att nämna några, det har hittats i statistiken över fasta storlekar , stadsstorlekar , genomet , efternamn , inkomst , finansmarknader , internetfilstorlekar , eller mänskligt beteende ; för fler exempel se . Det har gjorts enorma ansträngningar för att förstå ursprunget till Zipf: s lag, och mer allmänt ursprunget till skalning i komplexa system. Det finns tre huvudvägar till skalning: multiplikativa processer , förmånsprocesser och självorganiserad kritik . Flera andra mekanismer som är mer eller mindre relaterade till dessa grundläggande vägar till skalning har föreslagits (t.ex.).

nyligen har en fjärde, oberoende väg till skalning införts på grundval av stokastiska processer som minskar deras potentiella resultat (provutrymme) över tiden . Dessa är historieberoende slumpmässiga processer som har studerats i olika sammanhang i matematisk litteratur och mer nyligen i samband med skalningslagar . Ett exempel på prov-rymdreducerande processer är följande. Tänk på en uppsättning n tärningar där die Nummer 1 har ett ansikte, die Nummer 2 har två ansikten (mynt), die Nummer 3 har tre ansikten, och så vidare. Die Nummer N har n ansikten. Börja med att plocka en av n tärningarna slumpmässigt, säg tärningsnummer i. kasta den och spela in det erhållna nominella värdet, vilket var säga k. ta sedan dö nummer k − 1 kasta den, få j, spela in j, Ta dö nummer j − 1, kasta den, etc. Fortsätt kasta tärningar på detta sätt tills du kastar 1 för första gången. Eftersom det inte finns någon dö med mindre än 1 ansikten slutar processen här. Sekvensen av inspelade ansiktsvärden i ovanstående recept (i, k, j,…, 1) är uppenbarligen strikt beställd eller kapslad, i > k > j >> 1. I, det visades rigoröst att om denna process upprepas många gånger, fördelningen av resultat (ansiktsvärden 1, 2, … , N) är en exakt Zipf lag, dvs sannolikheten att observera ett nominellt värde m i ovanstående process (sekvens av kast) är exakt PN(m) = m−1, med tanke på att vi börjar med n tärningar. Observera att det är nödvändigt att hålla N fast under repetitionerna av processen för att få den exakta Zipf-lagen. Om N varierar under repetitionerna är tydligt Zipf-skalning närvarande asymptotiskt för höga led; men på grund av blandningen av olika N kommer avvikelser från den exakta Zipf-lagen att visas för låga LED.

mer formellt har varje die N ett provutrymme, betecknat med ACIGN = {1 , 2,…, N}, vilket är antalet potentiella resultat, dvs antalet ansikten av tärningar N. Att kasta dessa tärningar på ovanstående sätt ger upphov till en sekvens av kapslade provutrymmen

Visningsformel

1.2

nestedness av provutrymmen i en historikberoende sekvens är kärnan i ursprunget för skalningslagar i denna typ av process. För mer information, se var det också visas att om buller läggs till de historikberoende processerna, erhålls skalningslagen PN(m), M -, M−, M−, där 0 << 1 är ljudnivån.

i detta dokument presenterar vi en härledning av ZIPFS lag om ordfrekvenser, baserat på en enkel modell för mening/diskursbildning. Modellen motiveras av observationen att processen att bilda en mening—eller mer generellt en diskurs—är en historiaberoende prov-rymdreducerande process. Ord dras inte slumpmässigt från provutrymmet för alla möjliga ord, men används i strikta relationer till varandra. Användningen av specifika ord i en mening begränsar starkt användningen för på varandra följande ord, vilket leder till en häckande (eller prov-rymdreducerande) process, liknande den som beskrivits ovan. Prov-rymdkollaps i texter är nödvändig för att förmedla meningsfull information. Annars skulle någon tolkning, även i metaforiska eller poetiska termer, bli omöjlig. Låt oss göra punkten mer konkret med ett exempel på bildandet av en mening, där både grammatiska och kontextuella begränsningar (som minskar provutrymmet) är på jobbet (figur 2). Vi bildar meningen:’vargen ylar på natten’. I princip kan det första ordet ’vargen’ (ignorerar artiklar och prepositioner för tillfället) dras från alla möjliga ord. Antag att det finns n möjliga ord och beteckna respektive provutrymme med UBISN = {1, 2,…, N}, där varje nummer nu står för ett ord. Detta illustreras schematiskt i figur 2a.med tanke på att vi valde ’vargen’ från ACIGN = {1, 2, … , N}, Figur 2B, kommer nästa ord nu (vanligtvis) inte att väljas från ACIGN = {1, 2, … , N}, men från en delmängd av den (figur 2C). Föreställ dig att delmängden innehåller L ord, vi har UBICL UBICN. Vanligtvis förväntar vi oss att delmängden innehåller ord som är associerade med egenskaper hos hundar, biologiska funktioner, andra djur etc. men inte alla möjliga ord längre. När vi anger det andra ordet ’ylar’ ubil, sammanhang, begriplighet och grammatisk struktur ytterligare begränsa prov utrymme för det tredje ordet till ubicm UBICL, som vi slutligen dra ’natt’. Självklart liknar bostedness i bildandet av meningar exemplet på de kapslade tärningarna tidigare. Häckning införs genom grammatiska och/eller kontextuella och / eller tolkningsbegränsningar.

Figur 2.

Figur 2. Schematisk bild av nestedness i meningsbildning. (a) bland alla potentiella n-ord som definierar det ursprungliga provutrymmet väljer vi ’varg’ (b). Detta val begränsar provutrymmet för nästa ord (orange cirkel) som måste vara grammatiskt och semantiskt kompatibelt med ’varg’. (c) från denna uppsättning väljer vi ’tjut’, vilket minskar provutrymmet igen (röd cirkel) (d), eftersom nästa ord nu måste vara konsekvent både semantiskt och grammatiskt med ’vargens tjut’. Ordsekvensen visar en kapslad struktur. Effekten av prov-rymdkollaps är också närvarande i det bredare sammanhanget av diskursbildning, eftersom ett ämne och dess retoriska utveckling innebär en successiv kapslad begränsning av provutrymmet. (Onlineversion i färg.)

grammatikens roll för häckning är uppenbar. Vanligtvis på engelska är det första ordet ett substantiv med ämnets grammatiska Roll. Det faktum att det första ordet är ett substantiv begränsar möjligheterna för nästa ord till delmängden verbala fraser. Beroende på det valda verbet spelar orden som nu kan följa vanligtvis objektets grammatiska roll och är återigen mer begränsade. Vi använder termerna sample – Space reduction och kapslade hierarkisk struktur i meningar omväxlande. Det är inte bara grammatisk struktur som ställer på varandra följande begränsningar av provutrymme av ord när meningen fortskrider; behovet av begriplighet har samma effekt. Utan (åtminstone delvis) hierarkiska strukturer i bildandet av meningar skulle deras tolkning bli mycket svår . Kapslade strukturer i meningar kommer emellertid i allmänhet inte att genomföras strikt. Annars skulle språkets kreativa användning och flexibilitet allvarligt begränsas. Ibland kan ord fungera som ett språkligt gångjärn, vilket innebär att det tillåter många fler ord i följd än vad som var tillgängliga för dess föregående ord. Man förväntar sig att nestedness endast kommer att realiseras till viss del. Ofullständig nestedness möjliggör en viss tvetydighet i den språkliga koden och är en av källorna till dess häpnadsväckande mångsidighet .

i detta dokument kvantifierar vi graden av nestedness av en text från dess ordövergångsmatris M (nätverk). För att karakterisera den hierarkiska strukturen för en text med ett enda tal definierar vi dess nestedness n som en egenskap av M med

Visningsformel

1.3

där medelvärdet tas över alla möjliga ordpar (i, j). Nestedness är ett tal mellan 0 och 1, och anger i vilken utsträckning provrymdsreduktion finns i genomsnitt i texten.1 ett strikt kapslat system, som det som visas i ekvation (1.2), har n(M) = 1. I språkliga termer är strikt nestedness klart orealistiskt.

vi använder ordövergångsmatriser från faktiska engelska texter, som fungerar som inmatning till en enkel modell för meningsbildning. Vi studerar sedan ordfrekvensfördelningarna för dessa artificiellt producerade texter och jämför dem med fördelningarna av originaltexterna. För första gången visar vi att det är möjligt att relatera den topologiska egenskapen hos (lokal) nestedness i meningsbildning till de globala funktionerna i ordfrekvensfördelningar av långa texter. I detta avseende föreslår vi ett sätt att förstå statistiken över ordfrekvenser—särskilt Zipf: s lag—genom det faktiska strukturella inslaget i språk, nestedness, utan att behöva tillgripa tidigare försök inklusive multiplikativa processer, förmånlig anknytning eller självorganiserad kritik, som i språkets sammanhang ibland verkar vila på starka och osannolika antaganden.

Modell

vi antar ett begränsat ordförråd av n-ord. Från en viss text får vi en empirisk ordövergångsmatris M. ord är märkta med latinska index. Mij = 1 betyder att vi i texten hittar minst ett tillfälle där ord j direkt följer i; om Mij = 0 följer ord j aldrig i hela texten. Figur 3a visar övergångsmatrisen för artens ursprung. För att kvantifiera provutrymme för enskilda ord, notera att en rad i I M innehåller uppsättningen ord, Ubigi = {k|Mik = 1}, som direkt följer ord I. av |Ubigi|, vi betecknar storleken (antal element) av Ubigi, vilket är antalet olika ord som kan följa i. Ubigi är en approximation för provutrymmets volym som är tillgänglig efter ord i har inträffat. Olika ord har olika prov-rymdvolymer (figur 3b), där prov-rymdprofilen visas. Vi parametriserar profilen som yk = x, där x motsvarar provutrymmets volym, / Ubigi / och y till provutrymmeindexet i. vi kallar ett system linjärt kapslat om Ubiq = 1 (som i ekvation (1.2)), svagt kapslat för Ubiq < 1 och starkt kapslat om Ubiq > 1 (som i figur 3b). Ett exempel på en svagt kapslad profil kan ses i en av insatserna i figur 4c. Parametern har en intuitiv tolkning när det gäller ett mått på ordövergångarnas struktur. När det gäller en svagt kapslad profil (Xiaomi < 1) finns det många ord som kan följas av många olika ord, medan det i en starkt kapslad profil (> 1) finns några ord som följs av många andra ord och många ord som bara kan följas av ett fåtal. I denna mening mäter ozi i vilken utsträckning ordövergångar effektivt begränsas.

Figur 3.

Figur 3. Avsnitt av ordövergångsmatris M för de 250 ord som visar den största provutrymmevolymen av på varandra följande ord (a). En svart post (Mij = 1) betyder att ett givet ord i (y-axel) följs av ord j (x-axel). Icke-trivial nestedness ses av den ungefärliga trattliknande formen av tätheten av ord. Det faktiska värdet av provutrymmets volym för varje ord i, |CI|, visas i (b), vilket erhålls genom att flytta alla poster i linjerna i till vänster. Vi kallar (b) prov-rymdprofilen.

Figur 4.

Figur 4. exponenter från rangordnade ordfrekvensfördelningar av 10 böcker kontra modellresultat för amodel (a). Modellen förklarar tydligt de faktiska värdena i stor utsträckning. (B) kubanska exponenter kontra nestedness n (M) av de 10 böcker. (c)amodelexponenter jämfört med prov-rymdprofilparametern oz. För stora vokabulärer N = 100 000, vid 1, sker en snabb övergång från den svaga häckningen till den starka häckningsregimen, där vi hittar AModel 0 respektive AModel 1. Svaga och starka häckningsprofiler indikeras schematiskt. För mindre (realistiskt) N, övergången visas vid Kubi < 1, och amodel täcker ett intervall mellan ungefär 0,85 och 1,1 i skalningsfasen, vilket passar det empiriska intervallet som ses i (a). (Onlineversion i färg.)

Observera att profilen i figur 3b faktiskt inte är väl utrustad med en kraftlag; anledningen till parametriseringen är för ett rent teoretiskt argument som kommer att bli tydligt nedan. Vi utesluter ord som följs av mindre än två olika ord i hela texten, d.v. s. vi tar bort alla rader i från M för vilka |Bigi| < 2. Strikt nestedness ska inte förväxlas med stark eller svag häckning. De senare är egenskaper hos prov-rymdprofilen.

för statistisk testning konstruerar vi två randomiserade versioner av M och betecknar dem av Mrand respektive Mrow-perm. Mrand erhålls genom att slumpmässigt permutera raderna av de enskilda linjerna i matrisen M. Detta håller antalet icke-nollposter i varje rad samma som i den ursprungliga matrisen M, men förstör dess bo och den information som ord följer varandra. Den andra randomiserade versionen Mrow-perm erhålls genom att permutera (hela) raderna i matrisen M. Detta håller matrisens nestedness oförändrad, men förstör informationen om ordövergångar.med tanke på M konstruerar vi slumpmässiga meningar med längd L med följande modell:

— Välj ett av N-orden slumpmässigt. Säg att Ordet var jag. Skriv jag i en ordlista W, så att W = {i}.

— Hoppa till rad i I M och slumpmässigt välja ett ord från uppsättningen Ubigi. Säg att det valda ordet är k; uppdatera ordlistan W = {i, k}.

— Hoppa till rad k och välj ett av orden från Acik; säg att du får j och uppdatera W = {i, k, j}.

— upprepa proceduren l gånger. I detta skede bildas en slumpmässig mening.

— upprepa processen för att producera nsent meningar.

på det här sättet får vi en ordlista med L C. Nsent-poster, som är en slumpmässig bok som genereras med ordövergångsmatrisen för en faktisk bok. Från ordlistan får vi ordet frekvensfördelning fmodel. Den nuvarande modellen liknar den i men skiljer sig åt i tre aspekter: det möjliggör icke-perfekt nestning n < 1, Den har ingen uttrycklig ljudkomponent och den har en fast sekvens (mening) längd.

resultat

vi analyserar modellen med datorsimuleringar och specificerar L = 10 och Nsent = 100 000. Vi använder 10 slumpmässigt utvalda boker2 från Project Gutenberg (www.gutenberg.org). för varje bok bestämmer vi dess ordförråd N, dess matris M, Dess ugii för alla ord, dess nestedness n (M) och exponenten för den rangordnade ordfrekvensfördelningen Kubi (minst kvadratisk passar till f(r), passningsområde mellan 5 megapixlar r 200). f (r) visas för artens ursprung i Figur 1 (Blå); exponenten är 0,90. Vi kör modellen för parametrarna för varje enskild bok för att generera en slumpmässig text. Genom att använda den empiriska bizi för modellen säkerställs att denna slumpmässiga text har exakt samma provrymdsprofil och nestedness som boken.

fördelningen som erhållits från modellen fmodel kan tydligt reproducera den ungefärliga power law-exponenten för artens ursprung, amodel 0.86 (samma passningsområde). Dessutom fångar den detaljer om distributionen f. För stora värden på r i fmodel (r) bildas en platå innan exponentiell ändlig storlek cut-off observeras. Både platå och cut-off kan förstås fullt ut med den randomiserade modellen.

i figur 4a jämför vi de kubanska exponenterna som extraherats från böckerna med modellresultaten amodel. Modellen förklarar uppenbarligen de faktiska värdena i stor utsträckning, vilket underskattar de faktiska exponenterna något. Vi får en korrelationskoefficient på Xiaomi = 0,95 (p < 3,7 10-5 10-5). I figur 4b visar vi att nestning n(M) är relaterad till exponenterna Kubi på ett ungefär linjärt sätt. Vi testar hypotesen att exponenterna kommer att försvinna genom att förstöra nestedness. Med hjälp av den randomiserade Mrand hittar vi inline formel (samma passningsområde), som effektivt förstör kraftlagen. Använda den andra randomiserade versionen som håller nestedness intakt, Mrow-perm, för lågrankade ord(upp till ungefär rang ca. 10), hittar vi liknande ordfrekvensfördelningar som För M; men som förväntat försvinner power law-svansen (höga led) för Mrow-perm på grund av randomiseringens bullerbidrag (visas inte). För att validera vårt antagande att ordbeställning är viktigt, beräknade vi modellrankningsfördelningarna med hjälp av den transponerade matrisen MT, vilket innebär att vi vänder tidsflödet i modellen. Vi hittar två resultat. För det första försvinner korrelationen mellan exponenterna för böckerna Kubi och modellen inline-formel, reflekterad av en obetydlig korrelationskoefficient kub = 0,47 (p = 0,17). För det andra är exponenterna (i genomsnitt över de 10 böckerna) betydligt mindre, inline formel än för rätt tidsflöde, där vi får Inline formel motsvarande p-värdet för ett T-test är 0,039.

slutligen försöker vi förstå vikten av provrymdsprofilen på skalningsexponenterna. För detta genererar vi en serie m-matriser som har en profil parametriserad med en effekt-kub. I figur 4c visas modellens exponenter amodel från dessa artificiellt genererade M som en funktion av Kubi, för olika storlekar av ordförråd N. För Kubi < 1 (svag häckning), hittar vi exponenter amodel Jacobi 0, dvs ingen skalningslag. För stora n vid 6 = 1 sker en snabb övergång till amodel 1 (Zipf). För mindre N hittar vi ett mer komplicerat beteende av övergången, bygga en maximal exponent vid Xiaomi < 1. Utbudet av bokexponenter varierar mellan 0,85 och 1.1, vilket är exakt det observerade intervallet för realistiska vokabulärstorlekar n 2000-10 000. Vi verifierade att variationer i meningslängd (med undantag för L = 1) inte ändrar de rapporterade resultaten. För meningar med ett ord (L = 1) får vi uppenbarligen en enhetlig ordfrekvensfördelning och som en följd en platt rangfördelning, eftersom de flesta ord har nästan samma rang. Vi varierade antalet meningar från Nsent = 104 till 106 och finner praktiskt taget inget inflytande på de rapporterade resultaten.

diskussion

i detta dokument fokuserar vi på den grundläggande egenskapen hos nestedness i någon kod som förmedlar meningsfull information, till exempel språk. Vi hävdar att om häckning inte var närvarande skulle man lätt hamna i förvirrande situationer som beskrivs i La Biblioteca de Babel av J. L. Borges, där ett hypotetiskt bibliotek äger alla böcker som består av alla möjliga kombinationer av tecken som fyller 410 sidor. Vi definierar och kvantifierar en grad av nestedness i den språkliga koden. Låga grader av nestedness innebär vanligtvis en mindre strikt hierarki på ordanvändning eller en mer jämlik användning av ordförrådet, än texter med hög nestedness. Som förväntat har texter en väldefinierad, men inte strikt kapslad struktur, som kan uppstå genom en kompromiss av specificitet (för att förmedla entydiga meddelanden) och flexibilitet (för att möjliggöra en kreativ språkanvändning). Vi finner att nestedness varierar mellan olika texter, vilket tyder på att olika sätt att använda ordförråd och grammatik är på jobbet. Vårt urval av texter inkluderade tre pjäser av Shakespeare, tre vetenskapliga texter och fyra romaner. Vi finner att pjäserna, kanske närmast talat språk, visar en lägre nestedness än vetenskapsböckerna. Romanerna visar de högsta nivåerna av nestedness. Provet är för litet för att dra slutsatser om huruvida olika typer av texter kännetecknas av typiska värden på nestedness; det är dock anmärkningsvärt att nestedness är korrelerat med variationerna i skalningsexponenterna för ordfrekvenser bok för bok.

huvudfyndet i detta dokument är att en enkel prov-rymdreducerande modell kan visa att nestedness verkligen förklarar uppkomsten av skalningslagar i ordfrekvenser, i synnerhet ZIPFS lag. Mer exakt kunde vi relatera uppkomsten av skalningslagar med topologisk struktur av ordövergångsmatrisen eller ’fasutrymme’. Resultatet är anmärkningsvärt eftersom matrisen inte kodar för någon information om hur ofta ord j följer ord i, det berättar bara att j följde i minst en gång i hela texten. Slumpmässiga permutationer av matrisen som förstör dess nestedness kan inte förklara skalningen längre, medan permutationer som håller häckning intakt indikerar förekomsten av kraftlagarna. Det är vidare anmärkningsvärt att inga (icke-lokala) förmånliga, multiplikativa eller självorganiserade kritiska antaganden behövs för att förstå den observerade skalningen, och att inga parametrar behövs utöver ordövergångsmatriserna.

det faktum att den enkla modellen är så framgångsrik när det gäller att reproducera den detaljerade skalningsegenskapen i ordfrekvensstatistik kan peka på en viktig aspekt av språk som hittills inte har noterats; det faktum att övergripande ordanvändning statistiskt påverkas starkt av användningen av lokala hierarkiska strukturer och begränsningar som vi använder för att generera meningar. Vi tror att den nära relationen mellan nestedness och skalningsexponenten öppnar dörren för en tolkning av ordfrekvensfördelningar som en statistisk observerbar som starkt beror på användningen av ordförråd och grammatik inom ett språk. Följaktligen antar vi att Zipf: s lag kanske inte är universell, men den ordanvändningsstatistiken beror på lokala strukturer som kan vara olika över texter och till och med inom meningar. Ytterligare forskning behövs för att klargöra denna punkt.

slutligen är det värt att notera att klassen av prov-rymdreducerande processer ger en oberoende väg till skalning som kan ha ett brett utbud av applikationer för historikberoende och åldringsprocesser . I statistisk fysik är det känt att processer som successivt minskar deras fasutrymme när de utvecklas kännetecknas av kraftlag eller sträckta exponentiella fördelningsfunktioner. Dessa fördelningar uppstår generellt som en följd av phasespace kollaps .

författarnas bidrag

S. T. designade forskningen, utförde numerisk analys och skrev manuskriptet. R. H. och B. C.-M. utförde numerisk analys och skrev manuskriptet. B. L. gjorde förbehandling av böckerna och utförde numerisk analys.

konkurrerande intressen

författarna förklarar inga konkurrerande ekonomiska intressen.

finansiering

detta arbete stöddes av den österrikiska Vetenskapsfonden FWF under KPP23378FW.

fotnoter

slutnoter

1 Observera att häckningsindikatorn i ekvation (1.3) är rimligt endast för det fall där sannolikheten för två ord i, j som har samma provutrymme är mycket låg, p(Ubigi = Ubigj) 0. Så är fallet för de övervägda övergångsmatriserna.

2 i synnerhet använder vi en amerikansk tragedi av Theodore Dreiser; arternas ursprung, människans härkomst och olika former av växter av Charles Darwin; Tale of two cities och David Copperfield av Charles Dickens; Romeo och Juliet, Henry V och Hamlet av William Shakespeare; och Ulysses av James Joyce. Ordförråd varierar från N = 3102 (Romeo och Juliet) till 22 000 (Ulysses) ord.

2015 författaren(erna) publicerad av Royal Society. Alla rättigheter förbehållna.
  • 1
    Zipf GK. 1949mänskligt beteende och principen om minsta ansträngning. Läsning, MA: Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953en informativ teori om språkets statistiska struktur. Kommunikationsteori (ed. & Jackson W). London, Storbritannien: Butterworths. Google Scholar
  • 3
    Harremo Ubics P& Tops Ubibe F. 2001maximal entropi fundamenta. Entropi 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
  • 4
    Ferrer i Cancho R& Sol kub RV. 2003minst ansträngning och ursprunget till skalning på mänskligt språk. Proc. Natl Acad. Sci. USA 100, 788-791. (doi: 10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& Sol kub RV. 2011framkomsten av Zipf: s lag i utvecklingen av kommunikation. Phys. Rev. E 83, 036115. (doi: 10.1103/PhysRevE.83.036115). Crossref, ISI, Google Scholar
  • 6
    Simon HA. 1955på en klass av skeva distributionsfunktioner. Biometrika 42, 425-440. (doi: 10.1093 / biomet / 42.3-4.425). Crossref, ISI, Google Scholar
  • 7
    Zanette DH& Montemurro MA. 2005dynamik av textgenerering med realistisk Zipf: s distribution. J. Quant. Lingvist. 12, 29–40. (doi: 10.1080 / 09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992Random texter uppvisar Zipf: s lagliknande ordfrekvensfördelning. IEEE Trans. Informera. Teori 38, 1842-1845. (doi: 10.1109 / 18.165464). Crossref, ISI, Google Scholar
  • 9
    Miller GA. 1957några effekter av intermittent tystnad. Är. J. Psychol. 70, 311–314. (doi: 10.2307 / 1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller GA& Chomsky N. 1963slutliga modeller av språkanvändare. Handbok för matematisk Psykologi, vol. 2 (eds , Luce RD, Bush r& Galanter E), s.419-491. New York, NY: Wiley. Google Scholar
  • 11
    Kosmidis K, Kalampokis a& Argyrakis P. 2006statistisk mekanisk inställning till mänskligt språk. Phys. En 366, 495-502. (doi: 10.1016/j.physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005på kraftlagfördelningen av språkfamiljstorlekar. J. Lingvist. 41, 117–131. (doi: 10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini a& Menczer F. 2009modellering statistiska egenskaper skriftlig text. PLoS EN 4, e5372. (doi: 10.1371 / tidskrift.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette DH& Montemurro MA. 2011universell entropi av ordbeställning över språkliga familjer. PLoS EN 6, e19875. (doi: 10.1371 / tidskrift.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda G& Corral A. 2013a skalningslag utöver ZIPFS lag och dess förhållande till Heaps lag. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan X-Y& Minnhagen P. 2014kommentera om ’en skalningslag bortom Zipf: s lag och dess förhållande till högar’ lag.’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K& Hatano N. 2002universalitet av Zipf: s lag. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143/JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. 2001zipf distribution av amerikanska företag storlekar. Vetenskap 293, 1818-1820. (doi: 10.1126 / vetenskap.1062081). Crossref, PubMed, ISI, Google Scholar
  • 19
    Makse H-A, Havlin s& Stanley HE. 1995modellering av urbana tillväxtmönster. Natur 377, 608-612. (doi: 10.1038 / 377608a0). Crossref, ISI, Google Scholar
  • 20
    Krugman P. 1996konfrontera mysteriet med stadshierarkin. J. Jpn Int. Econ. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blank A & Solomon S. 2000power lagar i städer befolkning, finansiella marknader och webbplatser. Phys. EN 287, 279-288. (doi: 10.1016 / S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff a-J& Moses M-E. 2007globala mönster av stadsstorleksfördelningar och deras grundläggande drivrutiner. PLoS EN 2, 934. (doi: 10.1371 / tidskrift.pone.0000934). Crossref, ISI, Google Scholar
  • 23
    Stanley HE, Buldyrev s, Goldberger A, Havlin S, Peng C& Simons M. 1999skalningsfunktioner av icke-kodande DNA. Phys. En 273, 1-18. (doi: 10.1016 / S0378-4371 (99) 00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-H& Manrubia S-C. 2001vertikal överföring av kultur och distribution av efternamn. Phys. En 295, 1-8. (doi: 10.1016 / S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V.1896Cours d ’ Economie Politique. Geneve, Schweiz: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu M& Takayasu H. 1999zipf: s lag i inkomstfördelning av företag. Phys. En 269, 125-131. (doi: 10.1016 / S0378-4371 (99) 00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003a teori om makt-lagfördelningar i finansiella marknadsfluktuationer. Natur 423, 267-270. (doi: 10.1038 / natur01624). Crossref, PubMed, ISI, Google Scholar
  • 28
    Reed WJ& Hughes BD. 2002från genfamiljer och släktingar till inkomster och internetfilstorlekar: varför maktlagar är så vanliga i naturen. Phys. Rev. E 66, 067103. (doi: 10.1103/PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner S, Szell m& Sinatra R. 2012framkomst av gott uppförande, skalning och Zipf lagar i mänskliga beteendesekvenser i en onlinevärld. PLoS EN 7, e29796. (doi: 10.1371 / tidskrift.pone.0029796). Crossref, PubMed, ISI, Google Scholar
  • 30
    Newman MEJ. 2005Power lagar, Pareto distributioner och Zipf: s lag. Contempo. Phys. 46, 323–351. (doi: 10.1080 / 00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon s & Levy M. 1996spontan skalning uppkomst i generiska stokastiska system. Int. J. Mod. Phys. C 7, 745-751. (doi: 10.1142 / S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai O, Biham O& Solomon S. 1999power-law distributioner och L Jacobvy-stabila intermittenta fluktuationer i stokastiska system av många autokatalytiska element. Phys. Rev. E 60, 1299-1303. (doi: 10.1103/PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu ET& Hamilton RJ. 1991avalancher av fördelningen av solfläckar. Astrophys. J. 380, 89–92. (doi: 10.1086 / 186180). Crossref, ISI, Google Scholar
  • 34
    Barab Ubicsi A-L& Albert R. 1999uppkomst av skalning i slumpmässiga nätverk. Vetenskap 286, 509-512. (doi: 10.1126 / vetenskap.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang C& Wiesenfeld K. 1987självorganiserad kritik: en förklaring av 1/f-bruset. Phys. Rev. Lett. 59, 381–384. (doi: 10.1103/PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y& Sornette D. 2008teori om ZIPFS lag och allmänna maktlagfördelningar med Gibrats lag om proportionell tillväxt. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001förklara ojämn fördelning av siffror i naturen: lagarna i Benford och Zipf. Phys. En 293, 297-304. (doi: 10.1016 / S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner s& Tsallis C. 2005nonomfattande aspekter av självorganiserade skalfria gasliknande nätverk. Europhys. Lett. 72, 197–203. (doi: 10.1209/epl / i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra B& Sol kub RV. 2010universalitet av Zipf: s lag. Phys. Rev. E 82, 011102. (doi: 10.1103/PhysRevE.82.011102). Crossref, ISI, Google Scholar
  • 40
    Montroll E-W & Shlesinger M-F. 1982på 1 / f buller och andra distributioner med långa svansar. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi: 10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel R& Thurner S. 2015förstå skalning genom historikberoende processer med kollapsande provutrymme. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi: 10.1073 / pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
  • 42
    Kac M. 1989a historikberoende slumpmässig sekvens definierad av Ulam. Adv.Appl. Matematik. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI, Google Scholar
  • 45
    Hanel R& Thurner S. 2013generaliserad (c,d)-entropi och åldrande slumpmässiga promenader. Entropi 15, 5324-5337. (doi: 10.3390 / e15125324). Crossref, ISI, Google Scholar
  • 46
    Partee BH. 1976montague grammatik. New York, NY: akademisk Press. Google Scholar
  • 47
    Fortuny J& Corominas-Murtra B. 2013på ursprunget till tvetydighet i effektiv kommunikation. J. Logik Lang. Informera. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *