Articles

forståelse af Sipfs lov om ordfrekvenser gennem sample-space collapse i sætningsdannelse

september 2, 2021 by admin

introduktion

skrevne tekster viser det bemærkelsesværdige træk, at den rangordnede fordeling af ordfrekvenser følger en omtrentlig magtlov

1.1

hvor R er den rang, der er tildelt hvert ord i teksten. For de fleste tekster, uanset sprog, skabelsestid, litteraturgenre, dens formål osv. man finder, at den 1. Kr., der omtales som sipf ‘ s lov. I figur 1 vises ordfrekvensen for Darvins tekst, Arternes Oprindelse. Søgen efter en forståelse af oprindelsen af denne statistiske regelmæssighed har foregået i næsten et århundrede. En kvalitativ forklaring baseret på den indsats, der er investeret i kommunikationshændelser af en afsender og en modtager . Disse ideer blev senere formaliseret inden for en informationsteoretisk ramme . Den første kvantitative model baseret på sproglige antagelser om tekstgenerering er blevet foreslået af Simon . Modellen antager, at når kontekst fremkommer i genereringen af en tekst, foretrækkes ord, der allerede er vist i teksten, frem for andre. Ved den enkle antagelse om, at ord, der tidligere har vist sig, føjes til teksten med en sandsynlighed, der er proportional med deres tidligere udseende (præferencebinding), og forudsat at ord, der hidtil ikke er vist, tilføjes med en konstant hastighed, er det muligt at udlede Sipfs lov, da sidstnævnte sats er lav. Denne præferentielle vedhæftningsmodel er blevet forfinet ved at implementere den empiriske kendsgerning, at forekomsten af nye ord falder, når tekstenes længde øges . Det er blevet vist i klassiske værker, at tilfældige skrivemaskinemodeller kan føre til Lynlåslignende fordeling af ordfrekvenser . Disse værker er imidlertid baseret på urealistiske antagelser om fordeling af ordlængde og fører til ustrukturerede og ufortolkelige tekster. Men som vi vil vise, kan grammatikstruktur sammen med diskursgenereringsmekanismer spille en væsentlig rolle i oprindelsen af Sipf ‘ s lov i en realistisk sammenhæng. Det er vigtigt at understrege, at den detaljerede statistiske undersøgelse af sprogegenskaber ikke slutter her; vigtigt arbejde ud over Sipf ‘ s lov er blevet fremsat (f.eks.). Nylige undersøgelser beskæftiger sig med den detaljerede afhængighed af skaleringseksponenterne på længden af teksten under undersøgelse .

Figur 1. Rangordnet fordeling af ordfrekvenser for Arternes Oprindelse (blå) viser en omtrentlig magtlov med en hældning på ca. Modelresultatet (rød linje) forklarer ikke kun magtlovens eksponent, men fanger også detaljer om distributionen. Den eksponentielle cut-off kan forklares ved den randomiserede version af modellen.

Sipfs lov er ikke begrænset til ordfrekvenser, men vises i utallige, tilsyneladende ikke-relaterede systemer og processer . Bare for at nævne nogle få, det er fundet i statistikken over firmastørrelser , bystørrelser , genomet , familienavne , indkomst , finansielle markeder , internetfilstørrelser , eller menneskelig adfærd ; for flere eksempler se . Der har været en enorm indsats for at forstå oprindelsen af Sipf ‘ s Lov og mere generelt oprindelsen af skalering i komplekse systemer. Der er tre hovedruter til skalering: multiplikative processer , præferenceprocesser og selvorganiseret kritik . Flere andre mekanismer, der er mere eller mindre relateret til disse grundlæggende ruter til skalering, er blevet foreslået (f.eks.).

for nylig er en fjerde, uafhængig rute til skalering blevet introduceret på basis af stokastiske processer, der reducerer deres potentielle resultater (prøverum) over tid . Disse er historieafhængige tilfældige processer , der er blevet undersøgt i forskellige sammenhænge i den matematiske litteratur og for nylig i forbindelse med skaleringslove . Et eksempel på prøve-rumreducerende processer er følgende. Tænk på et sæt n terninger, hvor die Nummer 1 har et ansigt, die Nummer 2 har to ansigter (mønt), die Nummer 3 har tre ansigter, og så videre. Die Nummer N har n ansigter. Start med at vælge en af N-terningerne tilfældigt, sig terningnummer i. kast det og Registrer den opnåede pålydende værdi, som blev sagt k. tag derefter die − Nummer k − 1 Kast det, få j, Optag j, Tag die-Nummer j-1, Kast det, etc. Bliv ved med at kaste terninger på denne måde, indtil du kaster 1 for første gang. Da der ikke er nogen dør med mindre end 1 ansigter, slutter processen her. Sekvensen af registrerede ansigtsværdier i ovenstående recept (i, k, j, … , 1) er naturligvis strengt bestilt eller indlejret, i > k > j >> 1. I, det blev vist strengt, at hvis denne proces gentages mange gange, fordelingen af resultater (pålydende værdi 1 , 2,…, N) er en nøjagtig Sipf−lov, dvs.sandsynligheden for at observere en pålydende værdi m i ovenstående proces (sekvens af kast) er nøjagtigt PN(m) = m-1, givet Vi starter med n terninger. Bemærk, at det er nødvendigt at holde N fast under gentagelserne af processen for at opnå den nøjagtige Sipf-lov. Hvis N varierer under gentagelserne, er der klart asymptotisk skalering til stede asymptotisk for høje rækker; dog på grund af blanding af forskellige N vises afvigelser fra den nøjagtige Sipf-lov for lave rækker.

mere formelt har hver matrice N et prøveområde, betegnet med PRISTN = {1, 2, … , N}, hvilket er antallet af potentielle resultater, dvs. antallet af ansigter af terninger N. At kaste disse terninger på ovenstående måde giver anledning til en sekvens af indlejrede prøverum

1.2

nestedness af prøverum i en historieafhængig sekvens er kernen i oprindelsen af skaleringslove i denne type proces. For detaljer, se hvor det også er vist, at hvis der tilføjes støj til de historieafhængige processer, opnås skaleringsloven PN(m) Kurt m-Kurt, hvor 0 < 1−Kurt < 1 er støjniveauet.

i dette papir præsenterer vi en afledning af CIPF ‘ s lov om ordfrekvenser, baseret på en simpel model for sætning/diskursdannelse. Modellen er motiveret af observationen om, at processen med at danne en sætning—eller mere generelt en diskurs—er en historieafhængig prøve-rumreducerende proces. Ord trækkes ikke tilfældigt fra prøveområdet for alle mulige ord, men bruges i strenge forhold til hinanden. Brugen af specifikke ord i en sætning begrænser i høj grad brugen af på hinanden følgende ord, hvilket fører til en nesting (eller prøve-plads reducerende) proces, svarende til den ovenfor beskrevne. Sample-space sammenbrud i tekster er nødvendig for at formidle meningsfuld information. Ellers ville enhver fortolkning, selv i metaforiske eller poetiske termer, blive umulig. Lad os gøre punktet mere konkret med et eksempel på dannelsen af en sætning, hvor både grammatiske og kontekstuelle begrænsninger (der reducerer prøveplads) er på arbejde (figur 2). Vi danner sætningen:’ulven hyler om natten’. I princippet kan det første ord ‘ulven’ (ignorerer artikler og præpositioner for øjeblikket) trækkes fra alle mulige ord. Antag, at der findes n mulige ord, og betegn det respektive prøveområde ved hjælp af PRISTN = {1, 2,…, N}, hvor hvert tal nu står for et ord. Dette er skematisk illustreret i figur 2a.i betragtning af at vi valgte ‘ulven’ fra Larn = {1, 2, … , N}, figur 2B, vil det næste ord nu (normalt) ikke blive valgt fra Larn = {1, 2, … , N}, men fra en delmængde af det (figur 2C). Forestil dig, at delmængden indeholder L-ord, vi har LR-LR. Typisk forventer vi, at delmængden indeholder ord, der er forbundet med egenskaber hos hjørnetænder, biologiske funktioner, andre dyr osv. men ikke alle mulige ord længere. Når vi først har specificeret det andet ord ‘hyler’, begrænser kontekst, forståelighed og grammatisk struktur yderligere prøveplads for det tredje ord til pristm PRISL, hvorfra vi endelig tegner ‘nat’. Det er klart, at nestedness i dannelsen af sætninger ligner eksemplet på de indlejrede terninger før. Nesting pålægges gennem grammatiske og/eller kontekstuelle og / eller fortolkende begrænsninger.

figur 2. Skematisk billede af nestedness i sætningsdannelse. (a) blandt alle de potentielle n-ord, der definerer det oprindelige prøveområde, vælger vi ‘ulv’ (B). Dette valg begrænser prøvepladsen for det næste ord (orange cirkel), der skal være grammatisk og semantisk kompatibel med ‘ulv’. (c) fra dette sæt vælger vi ‘hyler’, hvilket reducerer prøveområdet igen (rød cirkel) (d), da det næste ord nu skal være konsistent både semantisk og grammatisk med ‘ulven hyler’. Ordsekvensen viser en indlejret struktur. Effekten af sample-space sammenbrud er også til stede i den bredere sammenhæng med diskursdannelse, da et emne og dets retoriske udvikling pålægger en successiv indlejret begrænsning på prøveområdet. (Online version i farve.)

grammatikens rolle for nesting er indlysende. Typisk på engelsk er det første ord et substantiv med emnets grammatiske rolle. Det faktum, at det første ord er et substantiv, begrænser mulighederne for det næste ord til delmængden af verbale sætninger. Afhængigt af det valgte verbum spiller de ord, der nu kan følge, typisk objektets grammatiske rolle og er igen mere begrænsede. Vi bruger udtrykkene prøve-rumreduktion og indlejret hierarkisk struktur i sætninger om hverandre. Det er ikke kun grammatisk struktur, der pålægger på hinanden følgende begrænsninger på stikprøverum af ord, når sætningen skrider frem; behovet for forståelighed har den samme effekt. Uden (i det mindste delvise) hierarkiske strukturer i dannelsen af sætninger, ville deres fortolkning blive meget hård . Imidlertid vil indlejrede strukturer i sætninger generelt ikke blive strengt realiseret. Ellers ville sprogets kreative brug og fleksibilitet blive alvorligt begrænset. Nogle gange kan ord fungere som et sprogligt hængsel, hvilket betyder, at det giver mulighed for mange flere på hinanden følgende ord, end der var tilgængelige for dets foregående ord. Man forventer, at nestedness kun vil blive realiseret til en vis grad. Ufuldkommen nestedness giver mulighed for en grad af tvetydighed i den sproglige kode og er en af kilderne til dens forbløffende alsidighed .

i dette papir kvantificerer vi graden af nestedness af en tekst fra dens ordovergangsmatrice M (netværk). For at karakterisere den hierarkiske struktur af en tekst med et enkelt tal definerer vi dens nestedness n som en egenskab af M ved

1.3

hvor gennemsnittet overtages alle mulige ordpar (i, j). Nestedness er et tal mellem 0 og 1, og angiver i hvilket omfang prøve-plads reduktion er til stede i gennemsnit i teksten.1 et strengt indlejret system, som det, der er vist i ligning (1.2), har n(M) = 1. I sproglige termer er streng nestedness klart urealistisk.

Vi bruger ordovergangsmatricer fra faktiske engelske tekster, der tjener som input til en simpel model til sætningsdannelse. Vi studerer derefter ordfrekvensfordelingen af disse kunstigt producerede tekster og sammenligner dem med distributionerne af de originale tekster. For første gang viser vi, at det er muligt at relatere det topologiske træk ved (lokal) nestedness i sætningsdannelse til de globale træk ved ordfrekvensfordeling af lange tekster. I denne henseende foreslår vi en måde at forstå statistikken over ordfrekvenser—især Sipf ‘ s lov—ved det faktiske strukturelle træk ved sprog, nestedness, uden at det er nødvendigt at ty til tidligere forsøg, herunder multiplikative processer, præferentiel tilknytning eller selvorganiseret kritik, som i forbindelse med sprog undertiden synes at hvile på stærke og usandsynlige antagelser.

Model

Vi antager et endeligt ordforråd af N ord. Fra en given tekst, vi får en empirisk ordovergangsmatrice M. ord er mærket med latinske indekser. Mij = 1 betyder, at vi i teksten finder mindst en lejlighed, hvor ord j direkte følger i; hvis Mij = 0, følger ord j aldrig i i hele teksten. Figur 3a viser overgangsmatricen for Arternes Oprindelse. For at kvantificere prøveplads for individuelle ord skal du bemærke, at en linje i I M indeholder sæt af ord, Kursi = {k|Mik = 1}, der direkte følger Ord i. ved |Kursi| angiver vi størrelsen (antallet af elementer) af Kursi, som er antallet af forskellige ord, der kan følge i. Kursi er en tilnærmelse til prøve-rumvolumen, der er tilgængelig efter ord Jeg har fundet sted. Forskellige ord har forskellige prøve-rumvolumener (figur 3b), hvor prøve-rumprofilen vises. Vi kalder et system lineært nestet, hvis prisT = 1 (som i ligning (1.2)), svagt indlejret for prisT < 1 og stærkt indlejret, hvis prisT > 1 (som i figur 3b). Et eksempel på en svagt indlejret profil kan ses i et af indsatserne i figur 4c. Parameteren karrus har en intuitiv fortolkning med hensyn til et mål for ‘strukturhed’ af ordovergange. I tilfælde af en svagt indlejret profil (prisT < 1) er der mange ord, der kan efterfølges af mange forskellige ord, mens der i en stærkt indlejret profil (prisT > 1) er et par ord, der efterfølges af mange andre ord, og mange ord, der kun kan efterfølges af meget få. I denne forstand måler Kurt, i hvilket omfang ordovergange effektivt begrænses.

figur 4. ret-eksponenter fra rangordnet ordfrekvensfordeling af 10 bøger versus modelresultater for amodel (a). Det er klart, at modellen forklarer de faktiske værdier i vid udstrækning. (B) Kurt eksponenter versus nestedness n (M) af de 10 bøger. c)amodel-eksponenter i forhold til parameteren prøve-plads-profil. For store ordforråd N = 100 000, ved kr1, sker en hurtig overgang fra den svage nesting til det stærke nesting regime, hvor vi finder henholdsvis AMODEL KR0 og kr1. Svage og stærke indlejringsprofiler er skematisk angivet. For mindre (realistisk) N, overgangen vises ved list < 1, og amodel dækker et interval mellem cirka 0,85 og 1,1 i skaleringsfasen, som passer til det empiriske interval set i (a). (Online version i farve.)

Bemærk, at profilen i figur 3b faktisk ikke er godt udstyret med en magtlov; årsagen til parametriseringen er for et rent teoretisk argument, der vil blive klart nedenfor. Vi udelukker ord, der efterfølges af mindre end to forskellige ord i hele teksten, dvs.vi fjerner alle linjer i fra M, for hvilke |Kursi| < 2. Streng nestedness må ikke forveksles med stærk eller svag nesting. Sidstnævnte er egenskaber ved prøve-rumprofilen.

til statistisk test konstruerer vi to randomiserede versioner af M, og betegner dem ved hhv. Mrand opnås ved tilfældigt at permutere rækkerne af de enkelte linjer i matricen M. Dette holder antallet af ikke-nulposter i hver linje det samme som i den oprindelige matrice M, men ødelægger dens nestedness og de oplysninger, som ord følger hinanden. Den anden randomiserede version move-perm opnås ved at permutere (hele) rækkerne af matricen M. Dette holder matricen af matricen uændret, men ødelægger informationen om ordovergange.

givet M konstruerer vi tilfældige sætninger med længde L med følgende model:

— Vælg et af N-ordene tilfældigt. Sig Ordet var jeg. skriv jeg i en ordliste V, så V = {i}.

— gå til linje i I M og vælg tilfældigt et ord fra den indstillede Kursi. Sig det valgte ord er k; Opdater ordlisten V = {i, k}.

— gå til linje k og vælg et af ordene fra Lotte; sig, at du får j, og opdater V = {i, k, j}.

— gentag proceduren l gange. På dette stadium dannes en tilfældig sætning.

— gentag processen for at producere Nsent sætninger.

på denne måde får vi en ordliste med L-Kursnsent-poster, som er en tilfældig bog, der genereres med ordovergangsmatricen i en faktisk bog. Fra ordlisten får vi ordet frekvensfordeling fmodel. Den nuværende model ligner den i, men adskiller sig i tre aspekter: det giver mulighed for ikke-perfekt nesting n < 1, den har ingen eksplicit støjkomponent, og den har en fast sekvens (sætning) længde.

resultater

Vi analyserer modellen med computersimuleringer, der specificerer L = 10 og Nsent = 100 000. Vi bruger 10 tilfældigt udvalgte bøger2 fra Project Gutenberg (www.gutenberg.org). for hver bog bestemmer vi dens ordforråd N, dens matrice M, Dens Kursi for alle ord, dens nestedness n(M) og eksponenten for den rangordnede ordfrekvensfordeling Purpur (mindst kvadrat passer til f(r), fit-området mellem 5 purpur r purpur 200). f (r) er vist for arternes oprindelse i figur 1 (Blå); eksponenten er 0,90. Vi kører modellen for parametrene for hver enkelt bog for at generere en tilfældig tekst. Brug af den empiriske Kristi til modellen sikrer, at denne tilfældige tekst har nøjagtig den samme prøve-rumprofil og nestedness som bogen.

fordelingen opnået fra modellen fmodel er klart i stand til at gengive den omtrentlige effektloveksponent for artens oprindelse, amodel LYR 0,86 (samme fit range). Desuden fanger det detaljer om fordelingen f. For store værdier af r i fmodel (r) dannes et plateau, før den eksponentielle endelige størrelsesafskæring observeres. Både plateau og cut-off kan forstås fuldt ud med den randomiserede model.

i figur 4a sammenligner vi de pristiske eksponenter, der er udvundet fra bøgerne, med modelresultaterne amodel. Modellen forklarer naturligvis de faktiske værdier i vid udstrækning og undervurderer de faktiske eksponenter lidt. Vi får en korrelationskoefficient på Kurt = 0,95 (p < 3,7 til 10-5). I figur 4b viser vi, at nesting n(M) er relateret til eksponenterne kursen på en tilnærmelsesvis lineær måde. Vi tester hypotesen om, at eksponenterne forsvinder ved at ødelægge reden. Ved hjælp af den randomiserede Mrand finder vi Inline formel (samme fit range), som effektivt ødelægger magtloven. Brug af den anden randomiserede version, der holder nestedness intakt, klippe-perm, til ord med lav rang (op til ca.rang ca. 10), finder vi lignende ordfrekvensfordelinger som For M; som forventet forsvinder magtlovens hale (høje rækker) imidlertid for mår-perm på grund af randomiseringens støjbidrag (ikke vist). For at validere vores antagelse om, at ordrækkefølge er afgørende, beregnede vi distributionerne af modelrangering ved hjælp af den transponerede matrice MT, hvilket betyder, at vi vender tidsstrømmen i modellen. Vi finder to resultater. For det første forsvinder korrelationen mellem eksponenterne for bøgerne Kurt og modellen Inline formel , afspejlet af en ubetydelig korrelationskoefficient kurr = 0,47 (p = 0,17). For det andet er eksponenterne (i gennemsnit over de 10 bøger) betydeligt mindre, end for den korrekte tidsstrøm, hvor vi får den tilsvarende p-værdien af en T-test er 0,039.

endelig forsøger vi at forstå betydningen af prøve-rumprofilen på skaleringseksponenterne. Til dette genererer vi en række M-matricer, der har en profil parametriseret med en magtkurs. I figur 4c, modeleksponenterne amodel fra disse kunstigt genererede M er vist som en funktion af kursist, for forskellige størrelser af ordforråd N. for kursist < 1 (svag indlejring), finder vi eksponenter amodel kursist 0, dvs.ingen skaleringslov. For store N ved kr = 1 sker en hurtig overgang til amodel kr1. For mindre N finder vi en mere kompliceret opførsel af overgangen, idet vi bygger en maksimal eksponent ved Krish< 1. Antallet af bogeksponenter, som er kendt for at være kursiv, er mellem 0,85 og 1.1, hvilket er nøjagtigt det observerede interval for realistiske ordforrådsstørrelser n liter 1000-10 000. Vi bekræftede, at variationer i sætningslængde (med undtagelse af L = 1) ikke ændrer de rapporterede resultater. For sætninger med et ord (L = 1) får vi naturligvis en ensartet ordfrekvensfordeling og som en konsekvens en flad rangfordeling, da de fleste ord har næsten samme rang. Vi varierede antallet af sætninger fra Nsent = 104 til 106 og fandt praktisk talt ingen indflydelse på de rapporterede resultater.

Diskussion

i dette papir fokuserer vi på den grundlæggende egenskab ved nestedness i enhver kode, der formidler meningsfuld information, såsom sprog. Vi hævder, at hvis nesting ikke var til stede, ville man let ende i forvirrende situationer som beskrevet i La Biblioteca de Babel af J. L. Borges, hvor et hypotetisk bibliotek ejer alle bøger sammensat af alle mulige kombinationer af tegn, der fylder 410 sider. Vi definerer og kvantificerer en grad af nestedness i den sproglige kode. Lave grader af nestedness indebærer typisk et mindre strengt hierarki om ordbrug eller en mere egalitær brug af ordforrådet end tekster med høj nestedness. Som forventet har tekster en veldefineret, men ikke strengt indlejret struktur, som kan opstå som følge af et kompromis med specificitet (for at formidle entydige budskaber) og fleksibilitet (for at tillade en kreativ brug af sprog). Vi finder ud af, at nestedness varierer mellem forskellige tekster, hvilket tyder på, at forskellige måder at bruge ordforråd og grammatik er på arbejde. Vores prøve af tekster omfattede tre stykker af Shakespeare, tre videnskabelige tekster og fire romaner. Vi finder ud af, at stykkerne, måske tættest på talesprog, viser en lavere nestedness end videnskabsbøgerne. Romanerne viser de højeste niveauer af nestedness. Prøven er for lille til at drage konklusioner om, hvorvidt forskellige typer tekster er kendetegnet ved typiske værdier for nestedness; det er dog bemærkelsesværdigt, at nestedness er korreleret med variationerne i skaleringseksponenterne for ordfrekvenser bog for bog.

det vigtigste fund i dette papir er, at en simpel prøve-rumreducerende model kan vise, at nestedness faktisk forklarer fremkomsten af skaleringslove i ordfrekvenser, især Sipfs lov. Mere præcist var vi i stand til at relatere fremkomsten af skaleringslove med topologisk struktur af ordovergangsmatricen eller ‘phasespace’. Resultatet er bemærkelsesværdigt, da matricen ikke koder for nogen information om, hvor ofte ord j følger ord i, det fortæller bare, at j fulgte jeg mindst en gang i hele teksten. Tilfældige permutationer af matricen, der ødelægger dens nestedness, kan ikke forklare skaleringen længere, mens permutationer, der holder nesting intakt, indikerer eksistensen af magtlovene. Det er yderligere bemærkelsesværdigt, at der ikke er behov for (ikke-lokale) præferentielle, multiplikative eller selvorganiserede kritiske antagelser for at forstå den observerede skalering, og at der ikke er behov for parametre ud over ordovergangsmatricer.

det faktum, at den enkle model er så vellykket med at gengive den detaljerede skaleringsegenskab i ordfrekvensstatistikker, kan pege på et vigtigt aspekt af sprog, der ikke er blevet bemærket indtil videre; det faktum, at den samlede ordbrug statistisk er stærkt påvirket af brugen af lokale hierarkiske strukturer og begrænsninger, som vi bruger til at generere sætninger. Vi mener, at den tætte sammenhæng mellem nestedness og skaleringseksponenten åbner døren for en fortolkning af ordfrekvensfordelinger som en statistisk observerbar, der stærkt afhænger af brugen af ordforråd og grammatik inden for et sprog. Derfor antager vi, at Sipf ‘ s lov måske ikke er universel, men at ordbrugsstatistikker afhænger af lokale strukturer, der kan være forskellige på tværs af tekster og endda inden for sætninger. Yderligere forskning er nødvendig for at afklare dette punkt.

endelig er det værd at bemærke, at klassen af prøverumreducerende processer giver en uafhængig rute til skalering, der kan have en bred vifte af applikationer til historieafhængige og aldringsprocesser . I statistisk fysik er det kendt, at processer, der successivt reducerer deres faserum, når de udfolder sig, er kendetegnet ved magtlov eller strakte eksponentielle fordelingsfunktioner. Disse fordelinger opstår generisk som en konsekvens af fasespace sammenbrud .

forfatteres bidrag

S. T. designet forskningen, udført numerisk analyse og skrev manuskriptet. R. H. og B. C.-M. udførte numerisk analyse og skrev manuskriptet. B. L. gjorde forbehandling af bøgerne og udførte numerisk analyse.

konkurrerende interesser

forfatterne erklærer ingen konkurrerende finansielle interesser.

Funding

dette arbejde blev støttet af den østrigske Videnskabsfond under KPP23378FF.

fodnoter

slutnoter

1 Bemærk, at indlejringsindikatoren i ligning (1.3) er kun rimeligt for det tilfælde, hvor sandsynligheden for to ord i, j har samme prøveplads er meget lav, p(Kursi = Kursij) kursiv0. Det er tilfældet for de overvejede overgangsmatricer.

2 især bruger vi en amerikansk tragedie af Theodore Dreiser; Arternes Oprindelse, menneskets afstamning og forskellige former for planter af Charles Darvin; fortælling om to byer Og David Copperfield af Charles Dickens; Romeo og Juliet, Henry V og Hamlet af Vilhelm Shakespeare; og Ulysses af James Joyce. Ordforråd varierer fra N = 3102 (Romeo og Julie) til 22 000 (Ulysses) ord.

Christ 2015 forfatteren(e) udgivet af Royal Society. Alle rettigheder forbeholdes.

1
Sipf GK. 1949menneskelig adfærd og princippet om mindst mulig indsats. Læsning, MA: Addison. Google Scholar
2
Mandelbrot B. 1953en informativ teori om sprogets statistiske struktur. Kommunikationsteori (Red. & Jackson). London, Storbritannien: Smørværd. Google Scholar
3
Harremo Krists P& Tops Price F. 2001maksimal entropi fundamentals. Entropi 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
4
Ferrer i Cancho r& Sol RV. 2003mindst indsats og oprindelsen af skalering på menneskeligt sprog. Proc. Natl Acad. Sci. USA 100, 788-791. (doi: 10.1073 / pnas.0335980100). Crossref, PubMed, Isi, Google Scholar
5
Corominas-Murtra B, Fortuny J& Sol Sol RV. 2011fremkomsten af Sipf ‘ s lov i udviklingen af kommunikation. Phys. Rev. E 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, Isi, Google Scholar
6
Simon HA. 1955på en klasse af skæve distributionsfunktioner. Biometrika 42, 425-440. (doi: 10.1093 / biomet / 42.3-4.425). Crossref, Isi, Google Scholar
7
så DH& Montemurro MA. 2005dynamik af tekstgenerering med realistisk CIPF ‘ s distribution. J. Kvant. Lingvist. 12, 29–40. (doi: 10.1080 / 09296170500055293). Crossref, Google Scholar
8
Li U. 1992tilfældige tekster udviser Sipfs lovlignende ordfrekvensfordeling. IEEE Trans. Informere. Teori 38, 1842-1845. (doi: 10.1109 / 18.165464). Crossref, Isi, Google Scholar
9
Miller GA. 1957nogle effekter af intermitterende stilhed. Er. J. Psychol. 70, 311–314. (doi: 10.2307 / 1419346). Crossref, PubMed, Isi, Google Scholar
10
Miller GA& Chomsky N. 1963finansielle modeller af sprogbrugere. Håndbog for matematisk psykologi, vol. 2 (eds, Luce RD, Bush R & Galanter E), s.419-491. København, ny: Aarhus. Google Scholar
11
Kosmidis K, Kalampokis a& Argyrakis P. 2006statistisk mekanisk tilgang til menneskets sprog. Phys. En 366, 495-502. (doi: 10.1016 / j. physa.2005.10.039). Crossref, Isi, Google Scholar
12
hvilken S. 2005om magtretlig fordeling af sprogfamiliestørrelser. J. Lingvist. 41, 117–131. (doi: 10.1017 / S002222670400307H). Crossref, Isi, Google Scholar
13
Serrano MA, Flammini a& Mencser F. 2009modellering statistiske egenskaber af skrevet tekst. PLoS ONE 4, e5372. (doi: 10.1371 / tidsskrift.pone.0005372). Crossref, PubMed, Isi, Google Scholar
14
så DH& Montemurro MA. 2011Universal entropi af ordbestilling på tværs af sproglige familier. PLoS ONE 6, e19875. (doi: 10.1371 / tidsskrift.pone.0019875). Crossref, PubMed, Isi, Google Scholar
15
Font-Clos F, Boleda G& Corral A. 2013A skalering lov ud over Sipf lov og dens forhold til dynger lov. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, Isi, Google Scholar
16
Yan& Minnhagen P. 2014kommentar om’ en skaleringslov ud over Sipf ‘s Lov og dens forhold til dynger’ lov.’. (http://arxiv.org/abs/1404.1461). Google Scholar
17
K& Hatano N. 2002universalitet af Sipf ‘ s lov. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143 / JPSJ.71.1211). Crossref, Google Scholar
18
Acttell RL. 2001sipf distribution af amerikanske firma størrelser. Videnskab 293, 1818-1820. (doi: 10.1126 / videnskab.1062081). Crossref, PubMed, Isi, Google Scholar
19
Makse H-A, Havlin s& Stanley HE. 1995modellering af byvækstmønstre. Natur 377, 608-612. (doi: 10.1038 / 377608a0). Crossref, Isi, Google Scholar
20
Krugman P. 1996konfrontering af mysteriet om byhierarki. J. Jpn Int. Econ. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, Isi, Google Scholar
21
Blank A& Solomon S. 2000magt love i byer befolkning, finansielle markeder og internetsider. Phys. En 287, 279-288. (doi: 10.1016 / S0378-4371 (00)00464-7). Crossref, Isi, Google Scholar
22
Decker E-H, Kerkhoff A-J& Moses m-E. 2007globale mønstre af bystørrelsesfordelinger og deres grundlæggende drivere. PLoS en 2, 934. (doi: 10.1371 / tidsskrift.pone.0000934). Crossref, Isi, Google Scholar
23
Stanley HE, Buldyrev S, Goldberger a, Havlin S, Peng C& Simons M. 1999skaleringsfunktioner af ikke-kodende DNA. Phys. En 273, 1-18. (doi:10.1016/S0378-4371 (99)00407-0). Crossref, PubMed, Isi, Google Scholar
24
Janette D-h& Manrubia S-C. 2001lodret transmission af kultur og distribution af familienavne. Phys. En 295, 1-8. (doi: 10.1016 / S0378-4371 (01)00046-2). Crossref, Isi, Google Scholar
25
Pareto V. 1896cours d ‘ Economie politik. Geneve, Danmark: Dorthe. Google Scholar
26
Okuyama K, Takayasu m& Takayasu H. 1999sipfs lov om indkomstfordeling af virksomheder. Phys. En 269, 125-131. (doi:10.1016/S0378-4371 (99)00086-2). Crossref, Isi, Google Scholar
27
GABA, Gopikrishnan P, Plerou V& Stanley H-E. 2003en teori om magt-lovfordelinger I udsving på det finansielle marked. Natur 423, 267-270. (doi: 10.1038 / nature01624). Crossref, PubMed, Isi, Google Scholar
28
Reed VJ& Hughes BD. 2002fra genfamilier og slægter til indkomster og internetfilstørrelser: hvorfor magtlove er så almindelige i naturen. Phys. Rev. E 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, Isi, Google Scholar
29
Thurner S, Scell m& Sinatra R. 2012fremkomsten af god adfærd, skalering og Sipf love i menneskelige adfærdsmæssige sekvenser i en online verden. PLoS ONE 7, e29796. (doi: 10.1371 / tidsskrift.pone.0029796). Crossref, PubMed, Isi, Google Scholar
30
ny mand MEJ. 2005magtlove, Pareto-distributioner og Sipf ‘ s lov. Contemp. Phys. 46, 323–351. (doi: 10.1080 / 00107510500052444). Crossref, Isi, Google Scholar
31
Solomon s & Levy M. 1996spontan skalering fremkomst i generiske stokastiske systemer. Int. J. Mod. Phys. C 7, 745-751. (doi:10.1142 / S0129183196000624). Crossref, Isi, Google Scholar
32
Malcai O, Biham o& Solomon S. 1999magt-lov distributioner og L Kursvy-stabile intermitterende udsving i stokastiske systemer af mange autokatalytiske elementer. Phys. Rev. E 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, Isi, Google Scholar
33
Lu et& Hamilton RJ. 1991avalancher af fordelingen af soludbrud. Astrofys. J. 380, 89–92. (doi: 10.1086 / 186180). Crossref, Isi, Google Scholar
34
Barab Krissi a-l& Albert R. 1999fremkomsten af skalering i tilfældige netværk. Videnskab 286, 509-512. (doi: 10.1126 / videnskab.286.5439.509). Crossref, PubMed, Isi, Google Scholar
35
Bak P, Tang C& Visenfeld K. 1987selvorganiseret kritik: en forklaring på 1/F støj. Phys. Pastor Lett. 59, 381–384. (doi: 10.1103 / PhysRevLett.59.381). Crossref, PubMed, Isi, Google Scholar
36
Saichev A, Malevergne Y& Sornette D. 2008teori om Sipf ‘ s Lov og generelle magtretsfordelinger med Gibrats lov om proportional vækst. (http://arxiv.org/abs/0808.1828). Google Scholar
37
Pietronero L, Tosatti E, Tosatti v& Vespignani A. 2001forklarer den ujævne fordeling af tal i naturen: benfords love og Sipf. Phys. En 293, 297-304. (doi: 10.1016 / S0378-4371 (00)00633-6). Crossref, Isi, Google Scholar
38
Thurner s& Tsallis C. 2005omfattende aspekter af selvorganiserede skalafrie gaslignende netværk. Europhys. LETT. 72, 197–203. (doi: 10.1209 / epl / i2005-10221-1). Crossref, Google Scholar
39
Corominas-Murtra B& Sol Sol RV. 2010universalitet af Sipf ‘ s lov. Phys. Rev. E 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, Isi, Google Scholar
40
Montroll E-H& Shlesinger M-F. 1982på 1 / F støj og andre fordelinger med lange haler. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi: 10.1073 / pnas.79.10.3380). Crossref, PubMed, Isi, Google Scholar
41
Corominas-Murtra B, Hanel r& Thurner S. 2015forståelse af skalering gennem historieafhængige processer med sammenfaldende prøveplads. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi: 10.1073 / pnas.1420946112). Crossref, PubMed, Isi, Google Scholar
42
Kac M. 1989a historieafhængig tilfældig sekvens defineret af Ulam. Adv. Appl. Matematik. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
43
Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
44
Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, Isi, Google Scholar
45
Hanel R& Thurner S. 2013generaliseret (c,d)-entropi og aldring tilfældige gåture. Entropi 15, 5324-5337. (doi: 10.3390 / e15125324). Crossref, Isi, Google Scholar
46
Partee BH. 1976montague grammatik. København: Academic Press. Google Scholar
47
Fortuny J& Corominas-Murtra B. 2013om oprindelsen af tvetydighed i effektiv kommunikation. J. Logik Lang. Informere. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Crossref, Isi, Google Scholar

Mex Alex

forståelse af Sipfs lov om ordfrekvenser gennem sample-space collapse i sætningsdannelse

introduktion

Model

resultater

Diskussion

forfatteres bidrag

konkurrerende interesser

Funding

fodnoter

slutnoter

Skriv et svar Annuller svar

forståelse af Sipfs lov om ordfrekvenser gennem sample-space collapse i sætningsdannelse

introduktion

Model

resultater

Diskussion

forfatteres bidrag

konkurrerende interesser

Funding

fodnoter

slutnoter

Skriv et svar Annuller svar

You may like

de tre bedste måder at spore din læsning

Sådan udskiftes din front-Load vaskemaskine drivrem