Articles

Zipf’ s law of word frequencies through sample-space collapse in sentence formation

Inleiding

geschreven teksten tonen het opmerkelijke kenmerk dat de ranggeordende verdeling van woordfrequenties een geschatte machtswicht volgt

Display Formula

1.1

waarin R de rang is die aan elk woord in de tekst wordt toegekend. Voor de meeste teksten, ongeacht de taal, de tijd van de schepping, het genre van de literatuur, het doel ervan, enz. men vindt dat α 1 1, die wordt aangeduid als de wet van Zipf . In figuur 1 staat het woord frequentie voor Darwin ‘ s tekst, The origin of species. De zoektocht naar inzicht in de oorsprong van deze statistische regelmaat duurt al bijna een eeuw. Zipf zelf gaf een kwalitatieve uitleg op basis van de inspanningen die een verzender en een ontvanger in communicatiegebeurtenissen hebben geïnvesteerd . Deze ideeën werden later geformaliseerd binnen een informatietheoretisch kader . Het eerste kwantitatieve model gebaseerd op linguïstische veronderstellingen over het genereren van tekst is voorgesteld door Simon . Het model gaat ervan uit dat, naarmate de context in het genereren van een tekst naar voren komt, woorden die al in de tekst zijn verschenen, worden bevoordeeld boven andere. Door de eenvoudige aanname dat woorden die eerder verschenen zijn aan de tekst worden toegevoegd met een waarschijnlijkheid evenredig met hun eerdere verschijning (preferential attachment), en ervan uitgaande dat woorden die tot nu toe niet verschenen zijn worden toegevoegd met een constante snelheid, is het mogelijk om Zipf ‘ s wet af te leiden, gezien het laatste tarief laag is. Dit voorkeursaanhechtingsmodel is verfijnd door het empirische feit toe te passen dat het verschijnen van nieuwe woorden afneemt naarmate de lengte van teksten toeneemt . In klassieke werken is aangetoond dat willekeurige typemodellen kunnen leiden tot Zipf-achtige distributies van woordfrequenties . Deze werken zijn echter gebaseerd op onrealistische veronderstellingen over woordlengtedistributies en leiden tot ongestructureerde en oninterpreteerbare teksten. Echter, zoals we zullen laten zien, kan grammatica structuur, samen met discourse generation mechanismen, een essentiële rol spelen in de oorsprong van Zipf ‘ s wet in een realistische context. Het is belangrijk te benadrukken dat de gedetailleerde statistische studie van taaleigenschappen hier niet eindigt; belangrijk werk buiten de wet van Zipf is naar voren gebracht (bv. ). Recente studies hebben betrekking op de gedetailleerde afhankelijkheid van de schaal exponenten van de lengte van het lichaam van de tekst in studie .

figuur 1.

figuur 1. Ranggeordende verdeling van woordfrequenties voor de oorsprong van soorten (blauw) toont een geschatte krachtwet met een helling van ongeveer α 0.9 0,9. Het model resultaat (rode lijn) verklaart niet alleen de macht wet exponent, maar vangt ook details van de verdeling. De exponentiële cut-off kan worden verklaard door de gerandomiseerde versie van het model.

Zipf ‘ s wet is niet beperkt tot woordfrequenties, maar verschijnt in talloze, schijnbaar ongerelateerde systemen en processen . Om er maar een paar te noemen, het is gevonden in de statistieken van bedrijfsgrootte , stadgrootte , het genoom , familienamen , inkomen , financiële markten , internetbestandgrootte , of menselijk gedrag ; voor meer voorbeelden zie . Er zijn enorme inspanningen gedaan om de oorsprong van Zipf ‘ s wet te begrijpen, en meer in het algemeen de oorsprong van schalen in complexe systemen. Er zijn drie hoofdroutes naar schaalvergroting: multiplicatieve processen , preferentiële processen en zelfgeorganiseerde criticaliteit . Er zijn verschillende andere mechanismen voorgesteld die min of meer verband houden met deze basisroutes naar schaling (bv. ).

onlangs is een vierde, onafhankelijke weg naar schalen geïntroduceerd op basis van stochastische processen die hun potentiële uitkomsten (monsterruimte) in de loop van de tijd verminderen . Dit zijn geschiedenis-afhankelijke willekeurige processen die zijn bestudeerd in verschillende contexten in de wiskundige literatuur , en meer recent in de context van schaalwetten . Een voorbeeld van monster-ruimte verminderen processen is het volgende. Denk aan een set van n dobbelstenen waar die nummer 1 heeft een gezicht, die Nummer 2 heeft twee gezichten( munt), die Nummer 3 heeft drie gezichten, enzovoort. Het getal N heeft n gezichten. Begin met het kiezen van een van de n dobbelstenen op willekeurige, zeg dobbelsteen nummer i. gooi het en noteer de verkregen nominale waarde, dat was zeggen k. neem dan die nummer k-1 gooi het, krijgen j, record j, neem die nummer j-1, gooi het, enz. Blijf op deze manier dobbelstenen gooien tot je 1 voor de eerste keer gooit. Aangezien er geen matrijs is met minder dan 1 gezichten, eindigt het proces hier. De volgorde van de geregistreerde nominale waarden in het bovenstaande voorschrift (i, k, j, … , 1) is duidelijk strikt geordend of genest, i > k > j >> 1. In, werd rigoureus aangetoond dat als dit proces vele malen wordt herhaald, de verdeling van de uitkomsten (nominale waarden 1, 2,…, N) is een exacte Zipf wet, dat wil zeggen de kans om een nominale waarde waar te nemen in het bovenstaande proces (volgorde van worpen) is precies PN(m) = m−1, gegeven we beginnen met n dobbelstenen. Merk op dat het noodzakelijk is om n vast te houden tijdens de herhalingen van het proces om de exacte Zipf-wet te verkrijgen. Als N varieert tijdens de herhalingen, is Zipf-schaling duidelijk asymptotisch aanwezig voor hoge rangen; echter door het mengen van verschillende N, zullen afwijkingen van de exacte Zipf-wet verschijnen voor lage rangen.

formeel heeft elke dobbelsteen N een monsterruimte, aangeduid met ΩN = {1, 2,…, N}, wat het aantal mogelijke uitkomsten is, d.w.z. het aantal vlakken van dobbelstenen N. Het gooien van deze dobbelstenen op de bovenstaande manier geeft aanleiding tot een reeks geneste monsterruimten

Display formule

1.2

De nestheid van monsterruimten in een geschiedenis-afhankelijke reeks is de kern van de oorsprong van schaalwetten in dit type proces. Voor details, zie waar ook wordt aangetoond dat als ruis wordt toegevoegd aan de geschiedenis-afhankelijke processen, de schaalwet PN(m) ∝ M−λ wordt verkregen, waarbij 0 << 1 het ruisniveau is.

in dit artikel presenteren we een afleiding van Zipf ‘ s wet van woordfrequenties, gebaseerd op een eenvoudig model voor zin/discours vorming. Het model wordt gemotiveerd door de observatie dat het proces van het vormen van een zin—of meer in het algemeen een discours—een geschiedenis-afhankelijk Monster-ruimte reducerend proces is. Woorden worden niet willekeurig getrokken uit de sample-ruimte van alle mogelijke woorden, maar worden gebruikt in strikte relaties met elkaar. Het gebruik van specifieke woorden in een zin beperkt het gebruik voor opeenvolgende woorden sterk, wat leidt tot een nesting (of sample-space reducing) proces, vergelijkbaar met de hierboven beschreven. Sample-ruimte ineenstorting in teksten is noodzakelijk om zinvolle informatie over te brengen. Anders zou elke interpretatie, zelfs in metaforische of poëtische termen, onmogelijk worden. Laten we het punt concreter maken met een voorbeeld voor de vorming van een zin, waar zowel grammaticale als contextuele beperkingen (die sample-ruimte verminderen) aan het werk zijn (figuur 2). We vormen de zin: ‘de wolf huilt in de nacht’. In principe kan het eerste woord’ de wolf ‘ (artikelen en voorzetsels negeren voor het moment) worden getrokken uit alle mogelijke woorden. Stel dat er N mogelijke woorden bestaan, en geef de respectievelijke monsterruimte aan door ΩN = {1, 2,…, N}, waarbij elk getal nu voor één woord staat. Gegeven het feit dat we ‘de wolf’ kozen uit ΩN = {1, 2,…, N}, figuur 2b, zal het volgende woord nu (meestal) niet gekozen worden uit ΩN = {1, 2,…, N}, maar uit een deelverzameling ervan (figuur 2c). Stel je voor dat de deelverzameling L woorden Bevat, we hebben ΩL ω ΩN. Typisch, verwachten we dat de deelverzameling woorden bevat die geassocieerd zijn met eigenschappen van hoektanden, biologische functies, andere dieren, enz. maar niet alle mogelijke woorden meer. Zodra we het tweede woord ‘howls’ ∈ ΩL specificeren, beperken context, verstaanbaarheid en grammaticale structuur de monsterruimte voor het derde woord verder tot ΩM ω ΩL, waaruit we uiteindelijk ‘nacht’trekken. Uiteraard is de nestheid in de vorming van zinnen is vergelijkbaar met het voorbeeld van de geneste dobbelstenen voor. Nesting wordt opgelegd door grammaticale en/of contextuele en / of interpretatieve beperkingen.

Figuur 2.

Figuur 2. Schematische weergave van nesten in zinsvorming. (a) van alle mogelijke N woorden die de initiële monsterruimte definiëren, kiezen we ‘wolf’ (b). Deze keuze beperkt de sample-ruimte voor het volgende woord (oranje cirkel) dat grammaticaal en semantisch compatibel moet zijn met ‘wolf’. (c) uit deze verzameling kiezen we ‘howls’, dat de sample-ruimte weer verkleint (rode cirkel) (d), omdat het volgende woord nu zowel semantisch als grammaticaal consistent moet zijn met ’the wolf howls’. De volgorde van woorden toont een geneste structuur. Het effect van sample-space collapse is ook aanwezig in de bredere context van discourse formatie, als een onderwerp en zijn retorische ontwikkeling leggen een opeenvolgende geneste beperking op sample ruimte. (Online versie in kleur.)

de rol van de grammatica voor het nesten is duidelijk. In het Engels is het eerste woord een zelfstandig naamwoord met de grammaticale rol van het onderwerp. Het feit dat het eerste woord een zelfstandig naamwoord is beperkt de mogelijkheden voor het volgende woord tot de deelverzameling van verbale zinnen. Afhankelijk van het gekozen werkwoord spelen de woorden die nu kunnen volgen meestal de grammaticale rol van het object en zijn ze weer beperkter. We gebruiken de termen sample-ruimte reductie en geneste hiërarchische structuur in zinnen door elkaar. Het is niet alleen de grammaticale structuur die opeenvolgende beperkingen oplegt aan de sample-ruimte van woorden naarmate de zin vordert; de behoefte aan verstaanbaarheid heeft hetzelfde effect. Zonder (ten minste gedeeltelijke) hiërarchische structuren in de vorming van zinnen, zou hun interpretatie zeer moeilijk worden . Echter, geneste structuren in zinnen zullen over het algemeen niet strikt worden gerealiseerd. Anders zou het creatieve gebruik en de flexibiliteit van taal ernstig worden beperkt. Soms kunnen woorden fungeren als een linguïstische scharnier, wat betekent dat het veel meer opeenvolgende woorden toestaat dan beschikbaar waren voor het vorige woord. Men verwacht dat het nest slechts tot op zekere hoogte gerealiseerd zal worden. Onvolmaakte nestigheid zorgt voor een zekere dubbelzinnigheid in de linguïstische code en is een van de bronnen van haar verbazingwekkende veelzijdigheid .

in dit artikel kwantificeren we de mate van nesteldheid van een tekst uit zijn woord-overgangsmatrix M (netwerk). Om de hiërarchische structuur van een tekst met een enkel getal te karakteriseren, definiëren we zijn nestheid n als een eigenschap van M met

Display Formula

1.3

waar het gemiddelde wordt genomen over alle mogelijke woordparen (i, j). Nesten is een getal tussen 0 en 1, en geeft aan in welke mate sample-ruimte reductie gemiddeld aanwezig is in de tekst.1 een strikt geneste systeem, zoals dat in vergelijking (1.2) wordt getoond, heeft n(M) = 1. In taalkundig opzicht is een strikte nestvorming duidelijk onrealistisch.

We gebruiken woord-overgangsmatrices van echte Engelse teksten, die dienen als input voor een eenvoudig model voor zinsvorming. Vervolgens bestuderen we het woord frequentieverdeling van deze kunstmatig geproduceerde teksten en vergelijken we ze met de verdeling van de oorspronkelijke teksten. Voor het eerst laten we zien dat het mogelijk is om de topologische eigenschap van (lokale) nesten in zinsvorming te relateren aan de Globale kenmerken van woordfrequentieverdelingen van lange teksten. In dit opzicht stellen we een manier voor om de statistieken van woordfrequenties—met name de wet van Zipf—te begrijpen door het werkelijke structurele kenmerk van taal, nestaliteit, zonder de noodzaak om toevlucht te nemen tot eerdere pogingen, waaronder multiplicatieve processen, voorkeursbevestiging of zelfgeorganiseerde criticaliteit, die, in de context van taal, soms lijken te berusten op sterke en onwaarschijnlijke veronderstellingen.

Model

We gaan uit van een eindige woordenschat van N woorden. Uit elke gegeven tekst, verkrijgen we een empirische woord-overgang matrix M. woorden zijn gelabeld met Latijnse indices. Mij = 1 betekent dat we in de tekst ten minste één gelegenheid vinden waar woord j direct volgt op i; als Mij = 0, volgt woord j nooit i in de hele tekst. Figuur 3a toont de overgangsmatrix voor de oorsprong van soorten. Om monsterruimte voor individuele woorden te kwantificeren, merk op dat een regel i in M de verzameling woorden bevat, Ωi = {k / Mik = 1}, die direct woord i volgen. door / Ωi / geven we de grootte (aantal elementen) van Ωi aan, wat het aantal verschillende woorden is dat i kan volgen. Ωi is een benadering voor het monster-ruimtevolume dat toegankelijk is nadat woord i is opgetreden. Verschillende woorden hebben verschillende Monster-ruimtevolumes( figuur 3b), waarbij het monster-ruimteprofiel wordt getoond. We parametriseren het profiel als yk = x, waarbij x overeenkomt met het volume van de monsterruimte, |Ωi|, en y met de monsterruimte-index i. we noemen een systeem lineair genest Als κ = 1 (zoals in vergelijking (1.2)), zwak genest Voor κ < 1 en sterk genest Als κ > 1 (zoals in figuur 3b). Een voorbeeld voor een zwak genest profiel is te zien in een van de inzetstukken van figuur 4c. De parameter K heeft een intuïtieve interpretatie in termen van een maat voor ‘structurering’ van woordovergangen. In het geval van een zwak genest profiel (κ < 1), zijn er veel woorden die kunnen worden gevolgd door veel verschillende woorden, terwijl in een sterk geneste profiel (κ > 1), zijn er een paar woorden die worden gevolgd door veel andere woorden, en veel woorden die slechts kunnen worden gevolgd door een zeer weinig. In deze zin meet K in hoeverre woordovergangen effectief worden beperkt.

Figuur 3.

Figuur 3. Sectie van word-overgang matrix M voor de 250 woorden die het grootste monster-ruimte volume van opeenvolgende woorden tonen (a). Een zwarte regel (Mij = 1) betekent dat een gegeven woord i (y-as) wordt gevolgd door woord j (x-as). Niet-triviale nesteldheid wordt gezien door de benaderende trechterachtige vorm van de dichtheid van woorden. De werkelijke waarde van het volume van de monsterruimte voor elk woord i, |Ωi|, wordt weergegeven in (b), die wordt verkregen door alle items van de regels i naar de meest linkse posities te verschuiven. We noemen (b) Het sample-space profiel.

Figuur 4.

Figuur 4. α exponenten uit ranggeordende woordfrequentiedistributies van 10 boeken versus modelresultaten voor amodel (a). Het is duidelijk dat het model de werkelijke waarden voor een groot deel verklaart. (b) α exponenten versus nesten n (M) van de 10 boeken. (C) AMODEL exponenten versus de steekproef-ruimte profielparameter κ. Voor grote woordenlijsten N = 100 000, bij κ ∼ 1, vindt een snelle overgang plaats van het zwakke nestsysteem naar het sterke nestregime, waar we respectievelijk amodel 0 0 en amodel 1 1 vinden. Zwakke en sterke nestprofielen worden schematisch aangegeven. Voor kleinere (realistische) N verschijnt de overgang bij κ < 1, en amodel bestrijkt een bereik tussen ongeveer 0,85 en 1,1 in de schaalfase, wat past bij het empirische bereik zoals te zien is in (a). (Online versie in kleur.)

merk op dat het profiel in figuur 3b eigenlijk niet goed is uitgerust met een machtswet; de reden voor de parametrisatie is voor een zuiver theoretisch argument dat hieronder duidelijk zal worden. We sluiten woorden uit die worden gevolgd door minder dan twee verschillende woorden in de hele tekst, dat wil zeggen we verwijderen alle regels i van M waarvoor / Ωi / < 2. Strikt nestelen is niet te verwarren met sterk of zwak nestelen. Dit laatste zijn eigenschappen van het monster-ruimteprofiel.

voor statistische tests construeren we twee gerandomiseerde versies van M, en geven ze aan door respectievelijk Mrand en Mrow-perm. Mrand wordt verkregen door willekeurig de rijen van de afzonderlijke lijnen van de matrix M. Dit houdt het aantal niet-nul items in elke regel hetzelfde als in de oorspronkelijke matrix M, maar vernietigt zijn nestheid en de informatie die woorden volgen elkaar. De tweede gerandomiseerde versie Mrow-perm wordt verkregen door het permuteren van de (gehele) rijen van de matrix M. Dit houdt de nesten van de matrix onveranderd, maar vernietigt de informatie over woordovergangen.

gegeven M, construeren we willekeurige zinnen van lengte L met het volgende model:

— Kies een van de N woorden willekeurig. Zeg dat het woord i was.schrijf i in een woordenlijst W, zodat W = {i}.

— Spring naar regel i In M en kies willekeurig een woord uit de set Ωi. Zeg dat het gekozen woord k is; werk de Woordenlijst bij W = {i, k}.

— Spring naar regel k en kies een van de woorden uit Ωk; stel dat je j krijgt, en update W = {i, k, j}.

– herhaal de procedure L keer. In dit stadium wordt een willekeurige zin gevormd.

— herhaal het proces om nsent zinnen te produceren.

op deze manier krijgen we een woordenlijst met L × Nsent entries, wat een willekeurig boek is dat wordt gegenereerd met de Word-transitie matrix van een echt boek. Uit de Woordenlijst, krijgen we het woord frequentie distributie fmodel. Het huidige model is vergelijkbaar met het model in, maar verschilt in drie aspecten: het staat voor niet-perfecte nesting n < 1 toe, het heeft geen expliciete ruis component, en het heeft een vaste sequence (zin) lengte.

resultaten

we analyseren het model met computersimulaties, waarbij L = 10 en nsent = 100 000 worden gespecificeerd. We gebruiken 10 willekeurig gekozen boeken2 van Project Gutenberg (www.gutenberg.org voor elk boek bepalen we zijn woordenschat N, zijn matrix M, zijn Ωi voor alle woorden, zijn nestigheid n(M) en de exponent van de ranggeordende woord frequentieverdeling α (kleinste kwadraat past bij f(r), fit bereik tussen 5 ≤ r ≤ 200). f (r) wordt weergegeven voor de oorsprong van soorten in figuur 1 (Blauw); de exponent is α ∼ 0,90. We draaien het model voor de parameters van elk individueel boek om een willekeurige tekst te genereren. Het gebruik van de empirische Ωi voor het model zorgt ervoor dat deze willekeurige tekst precies hetzelfde sample-space profiel en de nestheid heeft als het boek.

de verdeling verkregen uit het model fmodel is duidelijk in staat om de geschatte machtswicht exponent voor de oorsprong van soorten, amodel ∼ 0,86 (zelfde fit bereik) te reproduceren. Bovendien, het vangt de details van de distributie f. Voor grote waarden van r in fmodel(r), vormt zich een plateau voordat de exponentiële eindige grootte cut-off wordt waargenomen. Zowel plateau als cut-off kunnen volledig worden begrepen met het gerandomiseerde model.

in figuur 4a vergelijken we de α-exponenten uit de boeken met de modelresultaten amodel. Het model verklaart uiteraard de werkelijke waarden voor een groot deel, waarbij de werkelijke exponenten enigszins worden onderschat. We krijgen een correlatiecoëfficiënt van ρ = 0,95 (p < 3,7 × 10-5). In figuur 4b laten we zien dat nesting n(M) ongeveer lineair gerelateerd is aan de exponenten α. We testen de hypothese dat door nesten te vernietigen de exponenten zullen verdwijnen. Met behulp van het gerandomiseerde Mrand vinden we Inline formule (zelfde fit-bereik), die effectief de krachtwet vernietigt. Met behulp van de andere gerandomiseerde versie die de nesten intact houdt, Mrow-perm, voor low-rank woorden (tot ongeveer rang CA. 10), vinden wij gelijkaardige woordfrequentie distributies zoals voor M; echter, zoals verwacht, de power law staart (hoge rangen) verdwijnt voor Mrow-perm als gevolg van de ruis bijdrage van de randomisatie (niet weergegeven). Om onze aanname te valideren dat woordvolgorde essentieel is, hebben we de modelrangverdelingen berekend met behulp van de getransponeerde matrix MT, wat betekent dat we de tijdstroom in het model omkeren. We vinden twee resultaten. Ten eerste verdwijnt de correlatie tussen de exponenten van de boeken α en het model Inline formule, weerspiegeld door een onbeduidende correlatiecoëfficiënt ρ = 0,47 (p = 0,17). Ten tweede zijn de exponenten (gemiddeld over de 10 boeken) significant kleiner, Inline formule dan voor de juiste Tijdstroom, waarbij we Inline formule de overeenkomstige p-waarde van een T-test is 0.039.

tot slot proberen we het belang van het sample-space profiel op de schaal exponenten te begrijpen. Hiervoor genereren we een reeks M-matrices die een profiel hebben geparametriseerd met een macht κ. In figuur 4c worden de model-exponenten amodel van deze kunstmatig gegenereerde M weergegeven als functie van κ, voor verschillende formaten van woordenschat N. Voor κ < 1 (zwakke nesten) vinden we exponenten amodel ≈ 0, d.w.z. geen schaalwet. Voor grote N bij κ = 1 treedt een snelle overgang op naar amodel ≈ 1 (Zipf). Voor kleinere N vinden we een ingewikkelder gedrag van de overgang, waarbij een maximale exponent wordt opgebouwd bij κ < 1. Het bereik van boek exponenten α ligt tussen 0,85 en 1.1, dat is precies het waargenomen bereik voor realistische woordenschat maten n 100 1000-10 000. We hebben geverifieerd dat variaties in zinsduur (met uitzondering van L = 1) de gerapporteerde resultaten niet veranderen. Voor zinnen met één woord (L = 1) krijgen we uiteraard een uniforme woordfrequentie-verdeling en, als gevolg daarvan, een vlakke rangverdeling, omdat de meeste woorden bijna dezelfde rang hebben. We varieerden het aantal zinnen van nsent = 104 tot 106, en vinden praktisch geen invloed op de gerapporteerde resultaten.

discussie

in dit artikel, richten we ons op de fundamentele eigenschap van nesten in elke code die zinvolle informatie overbrengt, zoals taal. We stellen dat als het nestelen niet aanwezig was, men gemakkelijk zou eindigen in verwarrende situaties zoals beschreven in La Biblioteca de Babel door J. L. Borges, waar een hypothetische bibliotheek eigenaar is van alle boeken die bestaan uit alle mogelijke combinaties van tekens die 410 pagina ‘ s vullen. We definiëren en kwantificeren een mate van nestheid in de linguïstische code. Lage graden van nestheid impliceren meestal een minder strikte hiërarchie op woordgebruik of een meer egalitair gebruik van de woordenschat, dan teksten met een hoge nestheid. Zoals verwacht hebben teksten een goed gedefinieerde, maar niet strikt geneste structuur, die kan voortvloeien uit een compromis van specificiteit (om ondubbelzinnige boodschappen over te brengen) en flexibiliteit (om een creatief gebruik van taal mogelijk te maken). We zien dat nestheid varieert tussen verschillende teksten, wat suggereert dat verschillende manieren van het gebruik van de woordenschat en grammatica aan het werk zijn. Onze sample van teksten opgenomen drie toneelstukken van Shakespeare, drie wetenschappelijke teksten en vier romans. We zien dat de toneelstukken, misschien het dichtst bij gesproken taal, een lagere nestheid vertonen dan de wetenschappelijke boeken. De romans tonen de hoogste niveaus van nesteldheid. De steekproef is te klein om conclusies te trekken over de vraag of verschillende soorten teksten worden gekenmerkt door typische waarden van nestheid; het is echter opmerkelijk dat nestheid gecorreleerd is met de variaties van de schaal exponenten van woordfrequenties op een boek-voor-boek basis.

de belangrijkste bevinding van dit artikel is dat een eenvoudig Monster-ruimte verkleinend model kan aantonen dat nesten inderdaad de opkomst van schaalwetten in woordfrequenties verklaart, in het bijzonder de wet van Zipf. Om precies te zijn, we waren in staat om de opkomst van schaalwetten te relateren aan de topologische structuur van de woord-overgangsmatrix, of ‘phasespace’. Het resultaat is opmerkelijk omdat de matrix geen informatie codeert over hoe vaak woord j woord i volgt, het vertelt alleen dat j i minstens één keer in de hele tekst volgde. Willekeurige permutaties van de matrix die zijn nestheid vernietigen kunnen de schaling niet meer verklaren, terwijl permutaties die blijven nestelen wel wijzen op het bestaan van de machtswetten. Het is verder opmerkelijk dat er geen (niet-lokale) preferentiële, multiplicatieve of zelf-georganiseerde kritische veronderstellingen nodig zijn om de waargenomen schaling te begrijpen, en dat er geen parameters nodig zijn buiten de woord-overgang matrices.

het feit dat het eenvoudige model zo succesvol is in het reproduceren van de gedetailleerde schaling eigenschap in woordfrequentiestatistieken kan wijzen op een belangrijk aspect van taal dat tot nu toe niet is opgemerkt; het feit dat het algemene woordgebruik statistisch sterk wordt beïnvloed door het gebruik van lokale hiërarchische structuren en beperkingen die we gebruiken bij het genereren van zinnen. Wij geloven dat de nauwe relatie tussen nestheid en de schaal exponent de deur opent voor een interpretatie van woord frequentie distributies als een statistische waarneembare die sterk afhankelijk is van het gebruik van de woordenschat en grammatica binnen een taal. Dienovereenkomstig veronderstellen we dat de wet van Zipf misschien niet universeel is, maar dat statistieken over woordgebruik afhankelijk zijn van lokale structuren die verschillend kunnen zijn tussen teksten en zelfs binnen zinnen. Verder onderzoek is nodig om dit punt te verduidelijken.

ten slotte is het de moeite waard om op te merken dat de klasse van monsterruimte-reducerende processen een onafhankelijke weg naar schaalvergroting biedt die een breed scala aan toepassingen kan hebben voor historische-afhankelijke en verouderingsprocessen . In de statistische fysica is het bekend dat processen die achtereenvolgens hun fasespace verminderen terwijl ze zich ontvouwen, worden gekenmerkt door machtswetten of uitgerekte exponentiële distributiefuncties. Deze distributies ontstaan in het algemeen als gevolg van phasespace collapse .

bijdragen van auteurs

S. T. ontwierp het onderzoek, voerde numerieke analyse uit en schreef het manuscript. R. H. en B. C.-M. voerden numerieke analyse uit en schreven het manuscript. B. L. deed voorbewerking van de boeken en uitgevoerd numerieke analyse.

concurrerende belangen

De auteurs verklaren geen concurrerende financiële belangen.

financiering

Dit werk werd ondersteund door het Oostenrijkse Wetenschapsfonds FWF in het kader van KPP23378FW.

voetnoten

eindnoten

1 merk op dat de nestindicator in vergelijking (1.3) is alleen redelijk voor het geval dat de waarschijnlijkheid van twee woorden i, j met dezelfde monsterruimte zeer laag is, p(Ωi = Ωj) ≈ 0. Dat is het geval voor de beschouwde transitiematrices.in het bijzonder gebruiken we een Amerikaanse tragedie van Theodore Dreiser; The origin of species, Descent of man and Different forms of plants van Charles Darwin; Tale of two cities en David Copperfield van Charles Dickens; Romeo and Juliet, Henry V and Hamlet van William Shakespeare; en Ulysses van James Joyce. De woordenschat varieert van n = 3102 (Romeo en Julia) tot 22 000 (Ulysses) woorden.

© 2015 de Auteur (s) gepubliceerd door The Royal Society. Alle rechten voorbehouden.
  • 1
    Zipf GK. 1949menselijk gedrag en het principe van de minste inspanning. Reading, MA: Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953An informational theory of the statistical structure of language. Communicatietheorie (ed. & Jackson W). London, UK: Butterworths. Google Scholar
  • 3
    Harremoës p& Topsøe F. 2001Maximum entropie fundamentals. Entropie 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
  • 4
    Ferrer i Cancho R& Solé RV. 2003laatste inspanning en de oorsprong van schaalvergroting in de menselijke taal. Proc. Natl Acad. Sci. USA 100, 788-791. (doi: 10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& Solé RV. 2011belangstelling van de wet van Zipf in de evolutie van de communicatie. Phys. Rev. E 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, Isi, Google Scholar
  • 6
    Simon HA. 1955op een klasse van schuine distributie functies. Biometrika 42, 425-440. (doi: 10.1093 / biomet / 42.3-4.425). Crossref, Isi, Google Scholar
  • 7
    Zanette DH& Montemurro MA. 2005dynamica van tekst generatie met realistische Zipf ‘ s distributie. J. Quant. Linguïst. 12, 29–40. (doi: 10.1080 / 09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992Random teksten vertonen Zipf ‘ s-wet-achtige woord frequentie distributie. IEEE Trans. Informeren. Theorie 38, 1842-1845. (doi: 10.1109 / 18.165464). Crossref, ISI, Google Scholar
  • 9
    Miller GA. 1957sommige effecten van intermitterende stilte. Is. J. Psychol. 70, 311–314. (doi: 10.2307 / 1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller GA& Chomsky N. 1963finitaire modellen van taalgebruikers. Handbook of mathematical psychology, vol. 2 (eds , Luce RD, Bush R& Galanter E), blz.419-491. New York, NY: Wiley. Google Scholar
  • 11
    Kosmidis K, Kalampokis A& Argyrakis P. 2006Statistical mechanical approach to human language. Phys. A 366, 495-502. (doi: 10.1016 / j.physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005On the power-law distribution of language family sizes. J. Linguïst. 41, 117–131. (doi: 10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini a& Menczer F. 2009Modeling statistical properties of written text. PLoS 1 4, e5372. (doi: 10.1371 / journal.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette DH& Montemurro MA. 2011universale entropie van woordvolgorde in taalfamilies. PLoS 1 6, e19875. (doi: 10.1371 / journal.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda G& Corral A. 2013A scaling law beyond Zipf’ s law and its relation to Heaps ‘ law. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan X-Y& Minnhagen P. 2014commentaar over ‘a scaling law beyond Zipf’ s law and its relation to Heaps ‘ law.’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K& Hatano N. 2002universaliteit van de wet van Zipf. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143 / JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. 2001Zipf distributie van Amerikaanse bedrijven. Wetenschap 293, 1818-1820. (doi: 10.1126 / wetenschap.1062081). Crossref, PubMed, ISI, Google Scholar
  • 19
    Makse H-A, Havlin S& Stanley HE. 1995modellering van stedelijke groeipatronen. Natuur 377, 608-612. (doi: 10.1038 / 377608a0). Crossref, Isi, Google Scholar
  • 20
    Krugman P. 1996Confronting the mystery of urban hierarchy. J. Jpn Int. Economie. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blanco a& Solomon S. 2000machtwetten in steden bevolking, financiële markten en internetsites. Phys. Een 287, 279-288. (doi: 10.1016 / S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J& Moses m-E. 2007Global patterns of city size distributions and their fundamental drivers. PLoS 1 2, 934. (doi: 10.1371 / journal.pone.0000934). Crossref, ISI, Google Scholar
  • 23
    Stanley HE, Buldyrev S, Goldberger A, Havlin s, Peng C& Simons M. 1999Scaling features of noncoding DNA. Phys. A 273, 1-18. (doi: 10.1016 / S0378-4371 (99)00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-H& Manrubia s-C. 2001Vertical transmission of culture and the distribution of family names. Phys. Een 295, 1-8. (doi: 10.1016 / S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V. 1896Cours d ‘ Economie Politique. Genève, Zwitserland: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu M& Takayasu H. 1999Zipf ‘ s law in income distribution of companies. Phys. Een 269, 125-131. (doi: 10.1016 / S0378-4371 (99)00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003A theory of power-law distributions in financial market fluctuations. Natuur 423, 267-270. (doi: 10.1038 / nature01624). Crossref, PubMed, Isi, Google Scholar
  • 28
    Reed WJ& Hughes BD. 2002van genfamilies en geslachten tot inkomens en internetbestandgroottes: waarom machtswetten zo gebruikelijk zijn in de natuur. Phys. Rev. E 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner s, Szell M& Sinatra R. 2012bergence of good conduct, scaling and Zipf laws in human behavioral sequences in an online world. PLoS 1 7, e29796. (doi: 10.1371 / journal.pone.0029796). Crossref, PubMed, Isi, Google Scholar
  • 30
    Newman MEJ. 2005macht wetten, Pareto distributies en de wet van Zipf. Contemp. Phys. 46, 323–351. (doi: 10.1080 / 00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon s& Levy M. 1996spontane schaling opkomst in generieke stochastische systemen. Int. J. Mod. Phys. C 7, 745-751. (doi: 10.1142/S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai O, Biham O& Solomon S. 1999 power-law distributies and Lévy-stable intermitterende fluctuaties in stochastische systemen van vele autocatalytische elementen. Phys. Rev. E 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu ET& Hamilton RJ. 1991 lawines van de verspreiding van zonnevlammen. Astrophys. J. 380, 89–92. (doi: 10.1086 / 186180). Crossref, Isi, Google Scholar
  • 34
    Barabási A-L& Albert R. 1999ergence of scaling in random networks. Wetenschap 286, 509-512. (doi: 10.1126 / wetenschap.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang C& Wiesenfeld K. 1987Self-organized criticality: an explanation of the 1 / f noise. Phys. Eerwaarde Lett. 59, 381–384. (doi: 10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y& Sornette D. 2008Theory of Zipf ’s law and of general power law distributions with Gibrat’ s law of proportional growth. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001uitleg over de ongelijke verdeling van getallen in de natuur: de wetten van Benford en Zipf. Phys. Een 293, 297-304. (doi: 10.1016 / S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner s& Tsallis C. 2005Nonextensive aspects of self-organized scale-free gas-like networks. Europhys. Lett. 72, 197–203. (doi: 10.1209 / epl / i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra B& Solé RV. 2010universaliteit van de wet van Zipf. Phys. Rev. E 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
  • 40
    Montroll E-W& Shlesinger M-F. 1982 op 1 / f lawaai en andere verdelingen met lange staarten. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi: 10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel R& Thurner S. 2015 understanding scaling through history-dependent processes with collapsing sample space. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi: 10.1073 / pnas.1420946112). Crossref, PubMed, Isi, Google Scholar
  • 42
    Kac M. 1989A history-dependent random sequence defined by Ulam. ADV.Appl. Wiskunde. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, Isi, Google Scholar
  • 45
    Hanel R& Thurner S. 2013Generalized (c, d) – entropy and aging random walks. Entropie 15, 5324-5337. (doi: 10.3390 / e15125324). Crossref, ISI, Google Scholar
  • 46
    Partee BH. 1976Montague grammatica. New York, NY: Academic Press. Google Scholar
  • 47
    Fortuny J& Corominas-Murtra B. 2013On The origin of ambiguity in efficient communication. J. Logic Lang. Informeren. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *