Articles

Forstå Zipfs lov om ordfrekvenser gjennom sample-space collapse in sentence formation

september 2, 2021 by admin

Innledning

Skriftlige tekster viser den bemerkelsesverdige egenskapen at den rangbestilte fordelingen av ordfrekvenser følger en omtrentlig kraftlov

1.1

hvor r er rangen som er tildelt hvert Ord I Teksten. For de fleste tekster, uavhengig av språk, skapelsestid, litteraturgenre, formål, etc. man finner at α ∼ 1, som er referert til som zipf lov . I figur 1 er ordet frekvens vist For Darwins tekst, artenes opprinnelse. Søket etter en forståelse av opprinnelsen til denne statistiske regelmessigheten har pågått i nesten et århundre. Zipf selv tilbød en kvalitativ forklaring basert på innsatsen investert i kommunikasjon hendelser av en avsender og en mottaker . Disse ideene ble senere formalisert innenfor et informasjonsteoretisk rammeverk . Den første kvantitative modellen basert på språklige antagelser om tekstgenerering har Blitt foreslått Av Simon . Modellen går ut fra at når kontekst dukker opp i en tekstgenerering, blir ord som allerede har dukket opp i teksten favorisert over andre. Ved den enkle antagelsen om at ord som tidligere har dukket opp, legges til teksten med en sannsynlighet som er proporsjonal med deres tidligere utseende( fortrinnsrett vedlegg), og forutsatt at ord som hittil ikke har dukket opp, legges til med konstant hastighet, er Det mulig Å utlede Zipfs lov, gitt sistnevnte hastighet er lav. Denne fortrinnsrett vedlegg modellen har blitt raffinert ved å implementere den empiriske faktum at frekvensen av utseendet på nye ord avtar etter hvert som lengden av tekster øker . Det har blitt vist i klassiske verk at tilfeldige skrivemodeller kan føre Til Zipf-lignende fordelinger av ordfrekvenser . Imidlertid er disse arbeidene basert på urealistiske antagelser om ordlengdefordelinger og fører til ustrukturerte og uuttolkelige tekster. Men som vi vil vise, kan grammatikkstruktur, sammen med diskursgenereringsmekanismer, spille en viktig rolle i Opprinnelsen Til Zipfs lov i en realistisk sammenheng. Det er viktig å understreke at den detaljerte statistiske studien av språkegenskaper ikke slutter her; viktig arbeid utover Zipfs lov er fremsatt (f.eks.). Nylige studier omhandler detaljert avhengighet av skaleringseksponentene på lengden av teksten som studeres .

Figur 1. Rang-bestilt fordeling av ordfrekvenser for artenes opprinnelse (blå) viser en omtrentlig kraftlov med en helling på omtrent α ∼ 0,9. Modellresultatet (rød linje) forklarer ikke bare kraftloven eksponent, men fanger også detaljer om fordelingen. Den eksponentielle cut-off kan forklares med den randomiserte versjonen av modellen.

Zipfs lov er ikke begrenset til ordfrekvenser, men vises i utallige, tilsynelatende ikke-relaterte systemer og prosesser . Bare for å nevne noen, har det blitt funnet i statistikken over faste størrelser, bystørrelser, genomet , familienavn, inntekt, finansmarkeder, Internett filstørrelser eller menneskelig atferd ; for flere eksempler se . Det har vært en enorm innsats for å forstå opprinnelsen Til Zipfs lov, og mer generelt opprinnelsen til skalering i komplekse systemer. Det er tre hovedveier til skalering: multiplikative prosesser, preferanseprosesser og selvorganisert kritikk . Flere andre mekanismer som er mer eller mindre relatert til disse grunnleggende ruter til skalering har blitt foreslått (f.eks.).

nylig har en fjerde, uavhengig vei til skalering blitt innført på grunnlag av stokastiske prosesser som reduserer deres potensielle utfall (sample-space) over tid . Dette er historieavhengige tilfeldige prosesser som har blitt studert i ulike sammenhenger i matematisk litteratur , og mer nylig i sammenheng med skaleringslover . Et eksempel på sample-space reduserende prosesser er følgende. Tenk På Et sett Med n terninger hvor dør nummer 1 har ett ansikt, dør nummer 2 har to ansikter (mynt), dør nummer 3 har tre ansikter, og så videre. Die nummer N har n ansikter. Start med å plukke en Av de n terningene tilfeldig, si terning nummer i. Kast den og ta opp den oppnådde pålydende, som var si k. så dø nummer k − 1 kaste den, få j, ta opp j, ta dø nummer j-1, kaste den, etc. Fortsett å kaste terninger på denne måten til du kaster 1 for første gang. Siden det ikke er noen dør med mindre enn 1 ansikter, slutter prosessen her. Sekvensen av registrerte ansiktsverdier i ovennevnte resept (i, k, j,…, 1) er åpenbart strengt bestilt eller nestet, jeg >k>j>1. I, det ble vist strengt at hvis denne prosessen gjentas mange ganger, fordelingen av utfall (pålydende 1, 2,…, N) er en eksakt Zipf lov, dvs. sannsynligheten for å observere en pålydende m i ovennevnte prosess (sekvens av kast) er nøyaktig PN (m) = m−1, gitt vi starter Med n terninger. Merk at Det er nodvendig a holde N fast under gjentakelsene av prosessen for a oppna den noyaktige zipf-loven. Hvis N varierer under repetisjonene, er tydelig Zipf-skalering tilstede asymptotisk for høye ranger; men på grunn av blanding Av forskjellige N, vil avvik fra den eksakte Zipf-loven vises for lave ranger.

mer formelt har hver terning N et utvalgsrom, betegnet MED Ω = {1, 2,…, N}, som er antall potensielle utfall, dvs. antall ansikter av terning N. Kaster disse terningene på ovennevnte måte gir opphav til en sekvens av nestede sample-spaces

1.2

nestedness av sample-spaces i en historie-avhengig sekvens er i hjertet av opprinnelsen til skalering lover i denne type prosess. For detaljer, se hvor det også vises at hvis støy legges til de historikkavhengige prosessene, oppnås skaleringsloven PN(m) ∝ m−λ, hvor 0 << 1 er støynivået.

i dette papiret presenterer Vi en avledning Av Zipfs lov om ordfrekvenser, basert på en enkel modell for setning/diskursdannelse. Modellen er motivert av observasjonen at prosessen med å danne en setning – eller mer generelt en diskurs-er en historieavhengig prøve-romreduserende prosess. Ord er ikke tilfeldig trukket fra prøveplassen til alle mulige ord, men brukes i strenge forhold til hverandre. Bruken av bestemte ord i en setning sterkt begrenser bruken for påfølgende ord, fører til en nesting (eller prøve-plass redusere) prosess, lik den som er beskrevet ovenfor. Sample-plass kollaps i tekster er nødvendig for å formidle meningsfull informasjon. Ellers ville enhver tolkning, selv i metaforiske eller poetiske termer, bli umulig. La oss gjøre poenget mer konkret med et eksempel på dannelsen av en setning, hvor både grammatiske og kontekstuelle begrensninger (som reduserer prøveplass) er på jobb (figur 2). Vi danner setningen: ‘ulven hyler om natten’. I prinsippet kan det første ordet ‘ulven’ (ignorerer artikler og preposisjoner for øyeblikket) trekkes fra alle mulige ord. Anta at Det finnes N mulige ord, og betegn det respektive utvalgsrommet VED Ω = {1, 2,…, N}, hvor hvert tall nå står for ett ord. Dette er skjematisk illustrert i figur 2a. Gitt at vi valgte ‘ulven’ FRA Ω = {1, 2, … , N}, figur 2b, vil det neste ordet nå (vanligvis) ikke bli valgt FRA Ω = {1, 2, … , N}, Men fra en delmengde av det (figur 2c). Tenk deg at undergruppen inneholder L-ord, vi har Ω ⊂ Ω. Vanligvis forventer vi at delmengden inneholder ord som er knyttet til egenskaper av hjørnetenner,biologiske funksjoner, andre dyr, etc. men ikke alle mulige ord lenger. Når vi spesifiserer det andre ordet ‘hyler’ hryvl, begrenser kontekst, forståelighet og grammatisk struktur ytterligere utvalgsplass for det tredje ordet til ω ⊂ Ω, hvorfra vi endelig trekker ‘natt’. Åpenbart er nestedness i dannelsen av setninger lik eksemplet på den nestede terningen før. Nesting er pålagt gjennom grammatiske og/eller kontekstuelle, og / eller fortolkende begrensninger.

figur 2. — Figur 2. Skjematisk visning av nestedness i setningsformasjon. (A) Blant alle de potensielle n-ordene som definerer det første utvalgsrommet, velger vi ‘ ulv ‘ (b). Dette valget begrenser sample-plass for neste ord (oransje sirkel) som må være grammatisk og semantisk kompatibel med ‘ulv’. (c) fra dette settet velger vi ‘hyl’, som reduserer sample-plass igjen (rød sirkel) (d), som det neste ordet må nå være konsistent både semantisk og grammatisk med ‘ulven hyl’. Sekvensen av ord viser en nestet struktur. Effekten av sample-space kollaps er også til stede i bredere sammenheng med diskursdannelse, som et emne og dets retoriske utvikling pålegge en påfølgende nestet begrensning på sample space. (Online versjon i farger.)

grammatikkens rolle for nesting er åpenbar. Vanligvis på engelsk er det første ordet et substantiv med fagets grammatiske rolle. Det faktum at det første ordet er et substantiv begrenser mulighetene for det neste ordet til delmengden av verbale setninger. Avhengig av det bestemte verbet som er valgt, spiller ordene som nå følger vanligvis objektets grammatiske rolle og er igjen mer begrenset. Vi bruker begrepene sample-space reduksjon og nestet hierarkisk struktur i setninger om hverandre. Det er ikke bare grammatisk struktur som pålegger påfølgende restriksjoner på prøve-plass av ord som setningen skrider frem; behovet for forståelighet har samme effekt. Uten (i det minste delvis) hierarkiske strukturer i setningsdannelsen, ville deres tolkning bli svært vanskelig . Imidlertid vil nestede strukturer i setninger generelt ikke bli strengt realisert. Ellers ville kreativ bruk og fleksibilitet i språket være alvorlig begrenset. Noen ganger kan ord fungere som et språklig hengsel, noe som betyr at det tillater mange flere sammenhengende ord enn det som var tilgjengelig for det foregående ordet. Man forventer at nestedness vil bli realisert bare til en viss grad. Ufullkommen nestedness gir en grad av tvetydighet i den språklige koden og er en av kildene til sin forbløffende allsidighet .

i dette papiret kvantifiserer vi graden av nestedness av en tekst fra sin word-transition matrix M (network). For å karakterisere den hierarkiske strukturen til en tekst med et enkelt tall, definerer vi dens nestedness n som en egenskap Av M ved

1.3

hvor gjennomsnittet er tatt over alle mulige ordpar (i, j). Nestedness er et tall mellom 0 og 1, og angir i hvilken grad sample-space reduksjon er tilstede i gjennomsnitt i teksten.1 et strengt nestet system, som det som er vist i ligning (1.2), har n (M) = 1. I språklige termer er streng nestedness klart urealistisk.

vi bruker ord-overgangs matriser fra faktiske engelske tekster, som tjener som innspill til en enkel modell for setningsdannelse. Vi studerer deretter ordet frekvensfordelinger av disse kunstig produserte teksten og sammenligner dem med distribusjonene av de opprinnelige teksten. For første gang viser vi at det er mulig å relatere den topologiske egenskapen til (lokal) nestedness i setningsdannelse til de globale egenskapene til ordfrekvensfordelinger av lange tekster. I denne forbindelse foreslår vi en måte å forstå statistikken over ordfrekvenser-Spesielt Zipfs lov – av det faktiske strukturelle trekk ved språk, nestedness, uten å måtte ty til tidligere forsøk, inkludert multiplikative prosesser, fortrinnsrett vedlegg eller selvorganisert kritikk, som i sammenheng med språk noen ganger synes å hvile på sterke og usannsynlige antagelser.

Modell

vi antar et endelig ordforråd Av n ord. Fra en gitt tekst får Vi en empirisk ordovergangsmatrise M. Ord er merket med latinske indekser. Mij = 1 betyr at i teksten finner vi minst en anledning der ordet j direkte følger i; Hvis Mij = 0, følger ordet j aldri jeg i hele teksten. Figur 3a viser overgangsmatrisen for artenes opprinnelse. For å kvantifisere utvalgsrom for individuelle ord, merk at en linje i I M inneholder settet av ord, Ω = {k|Mik = 1}, som direkte følger ord i. Ved |Ω|, betegner vi størrelsen (antall elementer) Av Ω, som er antall forskjellige ord som kan følge i. Ω er en tilnærming for utvalgsromvolumet som er tilgjengelig etter ord jeg har oppstått. Ulike ord har forskjellige utvalgsromvolumer (figur 3b), hvor utvalgsromprofilen vises. Vi parametriserer profilen som yk = x, hvor x tilsvarer utvalgsromvolumet, |Ω|, og y til utvalgsromsindeksen i. vi kaller et system lineært nestet hvis κ = 1 (som i ligning (1.2)), svakt nestet for κ < 1 og sterkt nestet hvis κ > 1 (som i figur 3b). Et eksempel på en svakt nestet profil kan ses i en av innsatsene i figur 4c. Parameteren hryvnias har en intuitiv tolkning når det gjelder et mål på strukturering av ordoverganger. I tilfelle av en svakt nestet profil (κ < 1) er det mange ord som kan følges av mange forskjellige ord, mens i en sterkt nestet profil (κ > 1) er det noen få ord som følges av mange andre ord, og mange ord som bare kan følges av svært få. I denne forstand, κ tiltak i hvilken grad ordoverganger er effektivt begrenset.

Figur 4. α eksponenter fra rangbestilte ordfrekvensfordelinger på 10 bøker versus modellresultater for amodel (a). Klart forklarer modellen de faktiske verdiene i stor grad. (b) α eksponenter versus nestedness n (M) av de 10 bøkene. (c) amodeleksponenter versus utvalgsromsprofilparameteren κ. For store vokabular n = 100 000, ved κ ∼ 1, skjer det en rask overgang fra svakt hekk til sterkt hekkeregime, der vi finner henholdsvis amodel ∼ 0 og amodelinois 1. Svake og sterke nesting profiler er skjematisk angitt. For mindre (realistisk) N vises overgangen ved κ < 1, og amodel dekker et område mellom omtrent 0,85 og 1,1 i skaleringsfasen, som passer til det empiriske området sett i (a). (Online versjon i farger.)

Merk at profilen i figur 3b faktisk ikke er godt utstyrt med en strømlov; årsaken til parametrizeringen er for et rent teoretisk argument som vil bli klart nedenfor. Vi ekskluderer ord som følges av mindre enn to forskjellige ord i hele teksten, dvs. vi fjerner alle linjer i fra M som / Ω / < 2. Streng nestedness må ikke forveksles med sterk eller svak nesting. Sistnevnte er egenskaper av prøven-romprofilen.

for statistisk testing konstruerer vi to randomiserte versjoner Av M, og betegner dem med Henholdsvis Mrand og Mrow-perm. Mrand oppnås ved å tilfeldig permutere radene av de enkelte linjene i matrisen M. dette holder antall ikke-null oppføringer i hver linje det samme som i den opprinnelige matrisen M, men ødelegger sin nestedness og informasjonen hvilke ord følger hverandre. Den andre randomiserte versjonen Mrow-perm er oppnådd ved å permutere (hele) rader av matrisen M. Dette holder matrisenes nestenhet uendret, men ødelegger informasjonen om ordoverganger.

Gitt M, konstruerer vi tilfeldige setninger med lengde L med følgende modell:

— Velg et Av De n ordene tilfeldig. Skriv jeg I en ordliste W, Slik At W = {i}.

— Hopp til linje i i m og velg tilfeldig et ord fra settet Ω. Si ordet valgt er k; oppdater ordlisten W = {i, k}.

— Hopp til linje k og velg ett av ordene fra Ω; si at du får j, og oppdater W = {i, k, j}.

— Gjenta Prosedyren L ganger. På dette stadiet dannes en tilfeldig setning.

— Gjenta prosessen for å produsere Nsent setninger.

på denne måten får vi en ordliste Med L × oppføringer, som er en tilfeldig bok som genereres med ordovergangsmatrisen til en faktisk bok. Fra ordlisten får vi ordet frekvensfordeling fmodel. Den foreliggende modellen er lik den i, men skiller seg i tre aspekter: det tillater ikke-perfekt nesting n < 1, den har ingen eksplisitt støykomponent, og den har en fast sekvens (setning) lengde.

Resultater

vi analyserer modellen med datasimuleringer, med angivelse Av L = 10 og Nsent = 100 000. Vi bruker 10 tilfeldig valgte boker2 Fra Project Gutenberg (www.gutenberg.org). for hver bok bestemmer vi dets ordforråd N, dets matrise M, Dets Ω for alle ord, dets nestedness n (M) og eksponenten for det rangbestilte ordfrekvensfordeling α (minste firkant passer til f (r), tilpasningsområde mellom 5 ≤ r ≤ 200). f (r) er vist for artenes opprinnelse i figur 1 (blå); eksponenten er α ∼ 0,90. Vi kjører modellen for parametrene til hver enkelt bok for å generere en tilfeldig tekst. Ved å bruke empirisk Ω for modellen sikrer man at denne tilfeldige teksten har nøyaktig samme utvalgsromsprofil og nestedness som boken.

fordelingen hentet fra modellen fmodel er tydelig i stand til å reprodusere omtrentlig makt lov eksponent for opprinnelsen til arter, amodel ∼ 0.86 (samme passform område). Videre fanger det detaljer om fordelingen f. For store verdier av r i fmodel(r) dannes et platå før eksponentiell endelig størrelse cut-off er observert. Både platå og cut-off kan forstås fullt ut med den randomiserte modellen.

i figur 4a sammenligner vi de α eksponentene som hentet fra bøkene med modellresultatene amodel. Modellen forklarer åpenbart de faktiske verdiene i stor grad, noe som undervurderer de faktiske eksponentene. Vi får en korrelasjonskoeffisient på ρ = 0.95 (p < 3.7 × 10-5). I figur 4b viser vi at nesting n(M) er relatert til eksponentene α på en tilnærmet lineær måte. Vi tester hypotesen om at ved å ødelegge nestedness eksponentene vil forsvinne. Ved hjelp av randomisert Mrand finner vi Inline Formel (samme passformområde), som effektivt ødelegger strømloven. Bruke den andre randomiserte versjonen som holder nestedness intakt, Mrow-perm, for lav-rang ord (opp til ca rang ca .. 10), finner vi lignende ordfrekvensfordelinger som For M; men som forventet forsvinner power law tail (high ranks) For Mrow-perm på grunn av støybidraget av randomiseringen (ikke vist). For å validere vår antagelse om at ordbestilling er viktig, beregnet vi modellrankfordelingene ved å bruke den transponerte matrisen MT, noe som betyr at vi reverserer tidsflyten i modellen. Vi finner to resultater. For det første forsvinner korrelasjonen mellom eksponentene til bøkene α og modellen Inline Formel , reflektert av en ubetydelig korrelasjonskoeffisient ρ = 0,47 (p = 0,17). For det andre er eksponentene (gjennomsnittlig over de 10 bøkene) betydelig mindre, enn for riktig tidsflyt, hvor vi får tilsvarende p-verdien av en t-test er 0,039.

Til Slutt prøver Vi å forstå betydningen av sample-space-profilen på skaleringseksponentene. For dette genererer Vi en serie m matriser som har en profil parametrized med en power κ. I figur 4c er modelleksponentene amodel fra disse kunstig genererte M vist som en funksjon av κ, for forskjellige størrelser av ordforråd N. for κ < 1 (svak nesting), finner vi eksponenter amodel ≈ 0, dvs.ingen skalering lov. For store n ved κ = 1 skjer en rask overgang til amodel ≈ 1 (Zipf). For mindre N finner vi en mer komplisert oppførsel av overgangen, og bygger en maksimal eksponent ved κ < 1. Utvalget av bokeksponenter α varierer mellom 0.85 og 1.1, som er nøyaktig det observerte området for realistiske vokabular størrelser N ∼ 1000-10 000. Vi bekreftet at variasjoner i setningslengde (med unntak Av L = 1) ikke endrer de rapporterte resultatene. For enordssetninger (L = 1) får vi åpenbart en jevn ordfrekvensfordeling og som en konsekvens en flat rangfordeling, da de fleste ord har nesten samme rang. Vi varierte antall setninger fra Nsent = 104 til 106, og finner praktisk talt ingen innflytelse på de rapporterte resultatene.

Diskusjon

i dette papiret fokuserer vi på den grunnleggende egenskapen til nestedness i enhver kode som formidler meningsfull informasjon, for eksempel språk. Vi hevder at hvis nesting ikke var til stede, ville man lett ende opp i forvirrende situasjoner som beskrevet I La Biblioteca De Babel Av Jl Borges, hvor et hypotetisk bibliotek eier alle bøker som består av alle mulige kombinasjoner av tegn som fyller 410 sider. Vi definerer og kvantifiserer en grad av nestedness i den språklige koden. Lav grad av nestedness innebærer vanligvis et mindre strengt hierarki på ordbruk eller en mer egalitær bruk av vokabularet, enn tekster med høy nestedness. Som forventet har tekster en veldefinert, men ikke strengt nestet struktur, som kan oppstå fra et kompromiss av spesifisitet (for å formidle entydige meldinger) og fleksibilitet (for å tillate kreativ bruk av språk). Vi finner at nestedness varierer mellom ulike tekster, noe som tyder på at ulike måter å bruke vokabular og grammatikk er på jobb. Vårt utvalg av tekster inkluderte Tre Skuespill Av Shakespeare, tre vitenskapelige tekster og fire romaner. Vi finner at spillene, kanskje nærmest talespråk, viser en lavere nestedness enn vitenskapsbøkene. Romanene viser de høyeste nivåene av nestedness. Utvalget er for lite til å trekke konklusjoner om ulike typer tekster er preget av typiske verdier av nestedness; men det er bemerkelsesverdig at nestedness er korrelert med variasjoner av skalering eksponenter av ordfrekvenser på en bok-for-bok basis.hovedfunnet i dette papiret er at en enkel prøve-romreduserende modell kan vise at nestedness faktisk forklarer fremveksten av skaleringslover i ordfrekvenser, spesielt Zipfs lov. Nærmere bestemt var vi i stand til å forholde seg til fremveksten av skaleringslover med topologisk struktur av ordovergangsmatrisen, eller ‘phasespace’. Resultatet er bemerkelsesverdig da matrisen ikke koder noen informasjon om hvor ofte ord j følger ord i, det forteller bare at j fulgte jeg minst en gang i hele teksten. Tilfeldige permutasjoner av matrisen som ødelegger sin nestedness kan ikke forklare skaleringen lenger, mens permutasjoner som holder nesting intakt, indikerer eksistensen av kraftlovene. Det er videre bemerkelsesverdig at ingen (ikke-lokale) fortrinnsrett, multiplikativ eller selvorganisert kritiske forutsetninger er nødvendig for å forstå den observerte skalering, og at ingen parametere er nødvendig utover ordet-overgang matriser.det faktum at den enkle modellen er så vellykket i å reprodusere den detaljerte skaleringsegenskapen i ordfrekvensstatistikk, kan peke på et viktig aspekt av språk som ikke har blitt notert så langt; det faktum at samlet ordbruk er statistisk sterkt påvirket av bruken av lokale hierarkiske strukturer og begrensninger som vi bruker til å generere setninger. Vi tror at det nære forholdet mellom nestedness og skaleringseksponenten åpner døren for en tolkning av ordfrekvensfordelinger som en statistisk observerbar som sterkt avhenger av bruken av vokabular og grammatikk i et språk. Følgelig antar Vi At Zipfs lov kanskje ikke er universell, men at ordbrukstatistikken avhenger av lokale strukturer som kan være forskjellige på tvers av tekster og til og med innenfor setninger. Videre forskning er nødvendig for å avklare dette punktet.Til Slutt er det verdt Å merke seg at klassen av sample-space reduserende prosesser gir en uavhengig vei til skalering som kan ha et bredt spekter av applikasjoner for historieavhengige og aldringsprosesser . I statistisk fysikk er det kjent at prosesser som suksessivt reduserer faseområdet når de utfolder seg, er preget av kraftlov eller strakte eksponentielle fordelingsfunksjoner. Disse fordelingene oppstår generelt som følge av faserromskollaps .

Forfatteres bidrag

S. T. designet forskningen, utførte numerisk analyse og skrev manuskriptet. R. H. og B. C.-M. utførte numerisk analyse og skrev manuskriptet. B. L. gjorde forbehandling av bøkene og utførte numerisk analyse.

Konkurrerende interesser

forfatterne erklærer ingen konkurrerende økonomiske interesser.

Finansiering

dette arbeidet ble støttet av Det Østerrikske Vitenskapsfondet FWF under KPP23378FW.

Fotnoter

Sluttnoter

1 Merk at nestingsindikatoren i ligningen (1.3) er bare rimelig i tilfeller der sannsynligheten for at to ord i, j har samme utvalgsplass er svært lav, p (Ωi = Ω) ≈ 0. Det er tilfelle for de vurderte overgangsmatriser.2 spesielt bruker Vi En Amerikansk tragedie, Av Theodore Dreiser; artenes opprinnelse, Menneskets Nedstigning og forskjellige former for planter Av Charles Darwin; Tale of two cities og David Copperfield av Charles Dickens; Romeo Og Juliet, Henry V og Hamlet av William Shakespeare; Og Ulysses av James Joyce. Ordforrådet varierer fra N = 3102 (Romeo og Julie) til 22 000 (Ulysses) ord.

1
Zipf GK. 1949menneskelig oppførsel og prinsippet om minst innsats. Lesning, MA: Addison-Wesley. Google Scholar
2
Mandelbrot B. 1953en informativ teori om språkets statistiske struktur. Kommunikasjonsteori (ed. & Jackson W). London, STORBRITANNIA: Butterworths. Google Scholar
3
Harremoë P & Toppø F. 2001maksimal entropi grunnleggende. Entropi 3, 191-226. (doi):10.3390 / e3030191). Crossref, Google Scholar
4
Ferrer I Cancho R & Solé Rv. 2003minst innsats og opprinnelsen til skalering i menneskelig språk. Proc. Natl Acad. Sci. USA 100, 788-791. (doi: 10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
5
Corominas-Murtra B, Fortuny j& Solé Rv. 2011fremveksten Av zipfs lov i utviklingen av kommunikasjon. Phys. Åp 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, ISI, Google Scholar
6
Simon HA. 1955på en klasse av skew distribusjonsfunksjoner. Biometrika 42, 425-440. (doi:10.1093/biomet/42.3-4.425). Crossref, ISI, Google Scholar
7
Zanette dh & Montemurro MA. 2005Dynamics av tekst generasjon med realistisk zipf distribusjon. J. Quant. Lingvist. 12, 29–40. (doi: 10.1080 / 09296170500055293). Crossref, Google Scholar
8
Li W. 1992tilfeldige tekster viser Zipfs lovlignende ordfrekvensfordeling. IEEE Trans. Informere. Teori 38, 1842-1845. (doi:10.1109/18.165464). Crossref, ISI, Google Scholar
9
Miller GA. 1957 noen effekter av intermittent stillhet. Er. J. Psychol. 70, 311–314. (doi:10.2307/1419346). Crossref, PubMed, ISI, Google Scholar
10
Miller GA & Chomsky N. 1963finitære modeller av språkbrukere. Den matematisk-naturvitenskapelige tidsskrift, vol. 2 (eds, Luce RD, Bush r& Galanter E), s.419-491. New York: Wiley. Google Scholar
11
Kosmidis K, Kalampokis A& Argyrakis P. 2006statistisk mekanisk tilnærming til menneskelig språk. Phys. En 366, 495-502. (doi:10.1016 / j.physa.2005.10.039). Crossref, ISI, Google Scholar
12
Wichmann S. 2005på makt-lov distribusjon av språkfamilie størrelser. J. Lingvist. 41, 117–131. (doi: 10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
13
Serrano MA, Flammini a& Menczer F. 2009modeling statistiske egenskaper av skriftlig tekst. PLoS ONE 4, e5372. (doi:10.1371 / tidsskrift.pone.0005372). Crossref, PubMed, ISI, Google Scholar
14
Zanette dh & Montemurro MA. 2011Universal entropi av ordbestilling på tvers av språklige familier. PLoS ONE 6, e19875. (doi:10.1371 / tidsskrift.pone.0019875). Crossref, PubMed, ISI, Google Scholar
15
Font-Clos F, Boleda g & Corral A. 2013a skaleringslov utover Zipfs lov og dens forhold Til Heaps’ lov. N. J. Phys. 15, 093033. (doi):10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
16
Yan x-Y & Minnhagen P. 2014Comment på ‘en skaleringslov utover Zipfs lov og dens forhold til Heaps’ lov.’. (http://arxiv.org/abs/1404.1461). Google Scholar
17
Kawamura k & Hatano N. 2002universalitet Av Zipfs lov. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143 / JPSJ.71.1211). Crossref, Google Scholar
18
Axtell RL. 2001zipf distribusjon AV amerikanske faste størrelser. Vitenskap 293, 1818-1820. (doi: 10.1126 / vitenskap.1062081). Crossref, PubMed, ISI, Google Scholar
19
Makse H-A, Havlin s& Stanley HE. 1995modellering av urbane vekstmønstre. Natur 377, 608-612. (doi:10.1038 / 377608a0). Crossref, ISI, Google Scholar
20
Krugman p. 1996konfronterer mysteriet om urbane hierarki. J. Jpn Int. Econ. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
21
Blank A & Solomon s. 2000Power lover i byer befolkning, finansmarkeder og nettsteder. Phys. En 287, 279-288. (doi:10.1016/S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
22
Decker E-H, Kerkhoff A-J& Moses M-E. 2007globale mønstre av bystørrelsesfordelinger og deres grunnleggende drivere. PLoS ONE 2, 934. (doi:10.1371 / tidsskrift.pone.0000934). Crossref, ISI, Google Scholar
23
Stanley HE, Buldyrev S, Goldberger A, Havlin s, Peng c& Simons M. 1999skalering funksjoner av ikke-kodende DNA. Phys. En 273, 1-18. (doi:10.1016/S0378-4371 (99)00407-0). Crossref, PubMed, ISI, Google Scholar
24
Zanette d-h & Manrubia S-C. 2001vertikal overføring av kultur og fordeling av familienavn. Phys. En 295, 1-8. (doi:10.1016/S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
25
Pareto V. 1896Cours d ‘ Economie Politique. Geneva, Sveits: Droz. Google Scholar
26
Okuyama K, Takayasu M& Takayasu h. 1999zipfs lov om inntektsfordeling av selskaper. Phys. En 269, 125-131. (doi:10.1016/S0378-4371 (99)00086-2). Crossref, ISI, Google Scholar
27
Gabaix X, Gopikrishnan P, Plerou v & Stanley H-E. 2003a teori om makt-lov fordelinger i finansielle markedssvingninger. Natur 423, 267-270. (doi: 10.1038 / nature01624). Crossref, PubMed, ISI, Google Scholar
28
Reed wj& Hughes BD. 2002 fra genfamilier og slekter til inntekter og internettfilstørrelser: hvorfor maktlover er så vanlige i naturen. Phys. Rev. E 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
29
Thurner S, Szell m & Sinatra R. 2012fremveksten av god oppførsel, skalering og zipf lover i menneskelige atferds sekvenser i en online verden. PLoS ONE 7, e29796. (doi:10.1371 / tidsskrift.pone.0029796). Crossref, PubMed, ISI, Google Scholar
30
Newman MEJ. 2005Power lover, Pareto distribusjoner Og Zipf lov. Forakt. Phys. 46, 323–351. (doi: 10.1080 / 00107510500052444). Crossref, ISI, Google Scholar
31
Solomon s & Levy M. 1996spontan skalering fremveksten i generiske stokastiske systemer. Int. J. Mod. Phys. C 7, 745-751. (doi: 10.1142 / S0129183196000624). Crossref, ISI, Google Scholar
32
Malcai O, Biham O & Solomon s. 1999power-lov fordelinger Og Lé-stabile intermitterende svingninger i stokastiske systemer av mange autokatalytiske elementer. Phys. Åp 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
33
Lu ET & Hamilton RJ. 1991Avalanches av fordelingen av solstråler. Astrofys. J. 380, 89–92. (doi:10.1086/186180). Crossref, ISI, Google Scholar
34
Barabá A-L & Albert R. 1999fremveksten av skalering i tilfeldige nettverk. Vitenskap 286, 509-512. (doi: 10.1126 / vitenskap.286.5439.509). Crossref, PubMed, ISI, Google Scholar
35
Bak P, Tang C & Wiesenfeld K. 1987selvorganisert kritikk: en forklaring på 1 / f-støyen. Phys. Pastor Lett. 59, 381–384. (doi: 10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
36
Saichev A, Malevergne Y& Sornette D. 2008teorien Om Zipfs lov og generelle maktlovfordelinger med Gibrats lov om proporsjonal vekst. (http://arxiv.org/abs/0808.1828). Google Scholar
37
Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001forklarer den ujevne fordeling av tall i naturen: Lovene I Benford Og Zipf. Phys. En 293, 297-304. (doi:10.1016/S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
38
Thurner s & Tallis C. 2005nonextensive aspekter av selvorganiserte skalafrie gasslignende nettverk. Europhys. Lett. 72, 197–203. (doi:10.1209/epl/i2005-10221-1). Crossref, Google Scholar
39
Corominas-Murtra B & Solé Rv. 2010universalitet Av Zipfs lov. Phys. Åp 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
40
Montroll e-W & Shlesinger M-F. 1982On 1 / f støy og andre fordelinger med lange haler. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi: 10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
41
Corominas-Murtra B, Hanel R& Thurner s. 2015forstå skalering gjennom historieavhengige prosesser med sammenfallende prøveplass. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi: 10.1073 / pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
42
Kac M. 1989a historie-avhengig tilfeldig sekvens definert Av Ulam. Adv. Appl. Matematikk. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
43
Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
44
Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI, Google Scholar
45
Hanel r & Thurner S. 2013generalisert (c,d)-entropi og aldring tilfeldige turer. Entropi 15, 5324-5337. (doi:10.3390 / e15125324). Crossref, ISI, Google Scholar
46
Partee BH. 1976montague grammatikk. New York, NY: Akademisk Presse. Google Scholar
47
Fortuny j & Corominas-Murtra B. 2013på opprinnelsen til tvetydighet i effektiv kommunikasjon. J. Logikk Lang. Informere. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Google Scholar

Mex Alex

Forstå Zipfs lov om ordfrekvenser gjennom sample-space collapse in sentence formation

Innledning

Modell

Resultater

Diskusjon

Forfatteres bidrag

Konkurrerende interesser

Finansiering

Fotnoter

Sluttnoter

Legg igjen en kommentar Avbryt svar

Forstå Zipfs lov om ordfrekvenser gjennom sample-space collapse in sentence formation

Innledning

Modell

Resultater

Diskusjon

Forfatteres bidrag

Konkurrerende interesser

Finansiering

Fotnoter

Sluttnoter

Legg igjen en kommentar Avbryt svar

You may like

De Tre Beste Måtene å Spore Lesing

Hvordan Erstatte Front-Load Vaskemaskin Drivremmen