Articles

Pochopení zipfův zákon slovních frekvencí přes vzorek-prostor kolaps při tvorbě věty

2 září, 2021 by admin

Úvod

Psané texty vykazují pozoruhodnou vlastnost, že hodnost-nařídil distribuce slovo frekvence následuje přibližný výkon práva

1.1

, kde r je rank, který je přiřazen každé slovo v textu. Pro většinu textů, bez ohledu na jazyk, čas vzniku, žánr literatury, její účel atd. jeden zjistí, že α ∼ 1, který je označován jako Zipfův zákon . Na obrázku 1 je pro Darwinův text znázorněno slovo frekvence, Původ druhů. Snaha o pochopení původu této statistické pravidelnosti probíhá již téměř století. Zipf sám nabídl kvalitativní vysvětlení založené na úsilí investovaném do komunikačních událostí odesílatelem a příjemcem . Tyto myšlenky byly později formalizovány v rámci informačně-teoretického rámce . První kvantitativní model založený na jazykových předpokladech o generování textu navrhl Simon . Model předpokládá, že jak se kontext objevuje při generování textu, slova, která se již v textu objevila, jsou upřednostňována před ostatními. Pomocí jednoduchého předpokladu, že slova, které byly již dříve objevily, jsou přidány do textu s pravděpodobností úměrnou jejich předchozím výskytem (preferenční příloha), a za předpokladu, že slova, která se dosud objevila se přidávají na konstantní rychlost, je možné odvodit zipfův zákon, vzhledem k tomu ta rychlost je nízká. Tento preferenční model připoutání byl vylepšen implementací empirické skutečnosti, že rychlost vzhledu nových slov se s rostoucí délkou textů snižuje . V klasických pracích bylo prokázáno, že náhodné modely psaní na stroji mohou vést k Zipf-like distribuci slovních frekvencí . Tyto práce jsou však založeny na nerealistických předpokladech o distribuci slov a vedou k nestrukturovaným a nepřerušitelným textům. Jak však ukážeme, gramatická struktura spolu s mechanismy generování diskurzu může hrát zásadní roli při vzniku Zipfova zákona v realistickém kontextu. Je důležité zdůraznit, že podrobná statistická studie jazykových vlastností zde nekončí; byla předložena důležitá práce nad rámec Zipfova zákona (např.). Nedávné studie se zabývají podrobnou závislostí exponentů měřítka na délce studovaného textu .

Obrázek 1. Hodnost-nařídil distribuce slovo frekvence pro původ druhů (modrá) ukazuje přibližný výkon práva se sklonem přibližně α ∼ 0.9. Výsledek modelu (červená čára) vysvětluje nejen exponent mocninového zákona, ale také zachycuje podrobnosti o rozdělení. Exponenciální cut-off lze vysvětlit randomizovanou verzí modelu.

zipfův zákon není omezen na slovo frekvence, ale objevuje v nesčetných, zdánlivě nesouvisející, systémů a procesů . Jen abych zmínil několik, bylo nalezeno ve statistikách velikostí firem , velikosti měst, genom , příjmení , příjem , finanční trhy , velikosti internetových souborů, nebo lidské chování ; další příklady viz . Bylo vynaloženo obrovské úsilí na pochopení původu Zipfova zákona a obecněji původu škálování ve složitých systémech. Existují tři hlavní cesty k škálování: multiplikativní procesy, preferenční procesy a sebeorganizovaná kritičnost . Bylo navrženo několik dalších mechanismů, které více či méně souvisejí s těmito základními cestami škálování (např.).

nedávno byla zavedena čtvrtá nezávislá cesta k škálování na základě stochastických procesů, které snižují jejich potenciální výsledky (vzorek-prostor) v průběhu času . Tyto jsou historie závislé náhodné procesy, které byly studovány v různých kontextech v matematické literatuře , a více nedávno v rámci škálování zákony . Příklad procesů redukce vzorku a prostoru je následující. Myslím sadu N kostek, kde umírají číslo 1 má jednu tvář, die číslo 2 má dvě tváře (mince), die číslo 3 má tři tváře, a tak dále. Die číslo N má n tváře. Začněte výběrem jednoho z N kostky náhodně, řekněme kostky číslo. Hodit to a zaznamenat získané nominální hodnoty, což bylo říci, k. Pak se zemřít číslo k − 1 to hodit, dostat j, záznam j, zemřít číslo j − 1, hodit, atd. Pokračujte v házení kostkami tímto způsobem, dokud neházíte 1 poprvé. Protože neexistuje žádná matrice s méně než 1 tvářemi, proces zde končí. Sled zaznamenaných hodnot ve výše uvedených předpis (i, k, j, … , 1) je samozřejmě přísně nařídil nebo vnořené > k > j >> 1. V , to bylo prokázáno, že důsledně, že pokud tento proces se mnohokrát opakuje, distribuci výsledků (nominální hodnoty 1, 2, … , N) je přesnou Zipf zákona, tj. pravděpodobnost, pozorovat obličej hodnotu m ve výše uvedeném procesu (posloupnost hodů) je přesně to, PN(m) = m−1, vzhledem k tomu, začneme s N kostky. Všimněte si, že je nutné udržovat n fixní během opakování procesu, abyste získali přesný zákon Zipf. Pokud se N během opakování mění, jasně je měřítko Zipf přítomno asymptoticky pro vysoké hodnosti; nicméně kvůli míchání různých N, odchylky od přesného zákona Zipf se objeví pro nízké hodnosti.

Více formálně, každý die N má vzorek-prostor, označený ΩN = {1, 2, … , N}, což je počet možných výsledků, tj. počet tváří kostky. N. Házet tyto kostky ve výše uvedeném způsob, jak vzniká posloupnost vnořených vzorku-mezery

1.2

nestedness vzorku-mezery v historii-závislá posloupnost je v srdci původu škálování zákony v tomto typu procesu. Pro podrobnosti, vidět, kde je také ukázáno, že pokud hluk je přidán do historie-závislých procesů, škálovací zákon PN(m) ∝ m, λ je získán, kde 0 << 1, je hladina hluku.

v tomto článku představujeme odvození Zipfova zákona slovních frekvencí, založeného na jednoduchém modelu pro formování vět / diskurzu. Model je motivován pozorováním, že proces formování věty-nebo obecněji diskurzu – je proces snižování vzorku a prostoru závislý na historii. Slova nejsou náhodně čerpána ze vzorového prostoru všech možných slov, ale používají se v přísných vzájemných vztazích. Použití konkrétních slov ve větě velmi omezuje použití pro po sobě jdoucí slova, což vede k procesu vnoření (nebo zmenšení prostoru vzorku), podobný tomu, který je popsán výše. Kolaps vzorku v textech je nezbytný k předání smysluplných informací. V opačném případě by jakákoli interpretace, a to i v metaforických nebo poetických termínech, byla nemožná. Udělejme tento bod konkrétnějším příkladem pro vytvoření věty, kde fungují gramatická i kontextová omezení (která snižují prostor vzorku) (obrázek 2). Tvoříme větu: „vlk vytí v noci“. V zásadě lze první slovo “ vlk “ (ignorování článků a předložek pro tuto chvíli) vyvodit ze všech možných slov. Předpokládejme, že existují n možná slova, a označte příslušný vzorový prostor ΩN = {1, 2,…, n}, kde každé číslo nyní znamená jedno slovo. To je schematicky znázorněno na obrázku 2a. Vzhledem k tomu, že jsme si vybrali ‚vlk‘ z ΩN = {1, 2, … , N}, obrázek 2b, další slovo teď bude (obvykle) nemusí být vybrán z ΩN = {1, 2, … , N}, ale z podskupiny (obrázek 2c). Představte si, že podmnožina obsahuje slova L, máme ΩL ω ΩN. Typicky, očekáváme, že podmnožina bude obsahovat slova, která jsou spojena s vlastnostmi špičáků, biologické funkce, jiná zvířata, atd. ale už ne všechna možná slova. Jednou jsme určit, druhé slovo ‚vyje‘ ∈ ΩL, souvislosti, srozumitelnost a gramatickou strukturu dále omezit vzorek-prostor pro třetí slovo ΩM ⊂ ΩL, ze které jsme konečně kreslit „noční“. Je zřejmé, že hnízdnost při tvorbě vět je podobná příkladu vnořených kostek dříve. Vnoření je uloženo gramatickými a/nebo kontextovými a / nebo interpretačními omezeními.

Obrázek 2. Schematický pohled na hnízdění ve formování vět. (a) ze všech potenciálních n slov definujících počáteční vzorek-prostor, zvolíme “ vlk “ (b). Tato volba omezuje vzorový prostor pro další slovo (oranžový kruh), které musí být gramaticky a sémanticky kompatibilní s „vlkem“. (c) z této sady vybereme ‚vytí‘, což opět zmenší vzorkovací prostor (červený kruh) (d), protože další slovo musí být nyní sémanticky i gramaticky konzistentní s ‚vlčí vytí‘. Posloupnost slov ukazuje vnořenou strukturu. Účinek kolapsu vzorku a prostoru je také přítomen v širším kontextu formování diskurzu, protože téma a jeho rétorický vývoj ukládají na vzorový prostor postupné vnořené omezení. (Online verze v barvě.)

úloha gramatiky pro vnoření je zřejmá. Typicky v angličtině je první slovo podstatné jméno s gramatickou rolí předmětu. Skutečnost, že první slovo je podstatné jméno, omezuje možnosti dalšího slova na podmnožinu slovních frází. V závislosti na zvoleném konkrétním slovesu, slova, která nyní mohou následovat, obvykle hrají gramatickou roli objektu a jsou opět omezenější. Ve větách používáme zaměnitelně výrazy zmenšení prostoru a vnořená hierarchická struktura. Není to jen gramatická struktura, která ukládá po sobě jdoucí omezení vzorového prostoru slov v průběhu věty; potřeba srozumitelnosti má stejný účinek. Bez (alespoň částečných) hierarchických struktur při tvorbě vět by se jejich interpretace stala velmi tvrdou . Vnořené struktury ve větách však obecně nebudou striktně realizovány. Jinak by kreativní použití a flexibilita jazyka byly vážně omezeny. Někdy slova mohou působit jako jazykový závěs, což znamená, že umožňuje mnohem více po sobě jdoucích slov, než bylo k dispozici pro jeho předchozí slovo. Člověk očekává, že hnízdění bude realizováno pouze do určité míry. Nedokonalá nestednnost umožňuje určitý stupeň nejednoznačnosti v jazykovém kódu a je jedním ze zdrojů jeho úžasné všestrannosti .

v tomto článku kvantifikujeme míru vnoření textu z jeho matice přechodu slov M (síť). Charakterizovat hierarchickou strukturu textu s jediným číslem, definujeme jeho nestedness n jako vlastnost M o

1.3

, kde průměr se bere přes všechny možné dvojice slov (i, j). Nestedness je číslo mezi 0 a 1 a určuje, do jaké míry vzorek-místo snížení je přítomen v průměru v textu.1 striktně vnořený systém, jako ten, který je znázorněn v rovnici (1.2), má n (M) = 1. Z jazykového hlediska je striktní hnízdiště zjevně nereálné.

používáme slovo-přechodové matice ze skutečných anglických textů, které slouží jako vstup do jednoduchého modelu pro tvorbu vět. Poté studujeme slovní frekvenční distribuce těchto uměle vytvořených textů a porovnáváme je s distribucí původních textů. Poprvé ukazujeme, že je možné spojit topologický rys (lokální) nestedness ve formování vět s globálními rysy distribuce slovních frekvencí dlouhých textů. V tomto ohledu, navrhujeme způsob, jak pochopit, statistiky slovo frekvence—zipfův zákon, a to zejména—podle skutečné strukturální funkce jazyka, nestedness, bez nutnosti uchýlit se k předchozí pokusy včetně multiplikačních procesů, preferenční přílohu nebo self-organized criticality, což v kontextu jazyka, někdy se zdá k odpočinku na silné a nepravděpodobných předpokladů.

Model

předpokládáme konečnou slovní zásobu N slov. Z jakéhokoli daného textu, získáme empirickou matici přechodu slov m. slova jsou označena latinskými indexy. Mij = 1 znamená, že v textu najdeme alespoň jednu příležitost, kdy slovo j přímo navazuje i; pokud Mij = 0, slovo j nikdy takto jsem v celém textu. Obrázek 3a ukazuje přechodovou matici pro Původ druhů. Pro kvantifikaci vzorku-prostor pro jednotlivá slova, všimněte si, že řádek, jsem v M obsahuje sadu slov, Ωi = {k|Mik = 1}, které přímo navazují slovo já. O |Ωi|, označme velikost (počet prvků) Ωi, což je počet různých slov, která mohou následovat já. Ωi je odhad pro vzorek-objem prostor, který je přístupný po slovo, které jsem již došlo. Různá slova mají různé objemy vzorku-prostor (obrázek 3b), kde je zobrazen profil vzorku-prostor. Budeme parametrizovat profil jako yk = x, kde x odpovídá vzorku-objem prostor, |Ωi| a y na vzorku-space index i. Nazýváme systém lineárně vnořené-li κ = 1 (jako v rovnici (1.2)), slabě vnořené pro κ < 1 a silně vnořené pokud κ > 1 (jako na obrázku 3b). Příklad slabě vnořeného profilu lze vidět v jedné z vložek na obrázku 4c. Parametr κ má intuitivní interpretaci z hlediska míry „strukturovanosti“ přechodů slov. V případě slabě vnořené profil (κ < 1), existuje mnoho slov, které může být doplněno mnoho různých slov, vzhledem k tomu, že v silně vnořené profil (κ > 1), existuje několik slov, které jsou následovány mnoha dalšími slovy, a mnoho slov, která může být prováděna pouze velmi málo. V tomto smyslu κ měří, do jaké míry jsou přechody slov účinně omezeny.

obrázek 3. Sekce slovo-přechod matice M pro 250 slov, které ukazují největší objem vzorek prostor po sobě jdoucích slov (a). Černá položka (Mij = 1) znamená, že za daným slovem i (osa y) následuje slovo j (osa x). Netriviální hnízdění je vidět přibližným tvarem hustoty slov ve tvaru trychtýře. Skutečná hodnota objemu vzorkovacího prostoru pro každé slovo i | / Ωi|, je uvedena v písmenu b), které se získá posunutím všech položek řádků i do pozic zcela vlevo. Říkáme (b) profil vzorku-prostor.

Obrázek 4. — obrázek 4. α exponenty z řadových distribucí slovních frekvencí 10 knih versus výsledky modelu pro amodel (a). Je zřejmé, že model do značné míry vysvětluje skutečné hodnoty. (b) α exponenty versus nestedness n (M) z 10 knih. (c) amodelové exponenty versus parametr profilu vzorku-prostor κ. Pro velké slovníky, N = 100 000, na κ ∼ 1, rychlý přechod od slabé hnízdění silné hnízdní režim nastane, kde najdeme amodel ∼ 0 a amodel ∼ 1, resp. Slabé a silné hnízdní profily jsou schematicky označeny. Pro menší (realistické) N, přechod se objeví na κ < 1, a amodel pokrývá rozmezí přibližně 0,85 a 1.1. v měřítko fázi, která odpovídá empirický rozsah viděn v (a). (Online verze v barvě.)

Všimněte si, že profil na obrázku 3b je ve skutečnosti není dobře vybavené s výkonem práva; důvodem pro parametrizaci, je pro čistě teoretický argument, že bude zřejmé níže. Vyloučíme slova, která jsou následuje méně než dvě různá slova v celém textu, tj. odstraníme všechny řádky, jsem z M, pro které |Ωi| < 2. Přísné hnízdění se nesmí zaměňovat se silným nebo slabým hnízdem. Posledně jmenované jsou vlastnosti profilu vzorku-prostor.

pro statistické testování konstruujeme dvě randomizované verze M a označujeme je Mrand a Mrow-perm. Mrand je získaná náhodně permuting řádky jednotlivé řádky matice M. To udržuje počet nenulových položek v každé řadě stejný jako v původní matice M, ale ničí jeho nestedness a informace, které slova následují po sobě. Druhá randomizovaná verze Mrow-perm je získaná permuting (celý) řádky matice M. To udržuje nestedness matice beze změny, ale ničí informace o slovo přechody.

vzhledem k M sestavujeme náhodné věty délky L s následujícím modelem:

– náhodně vyberte jedno z n slov. Řekněme, že slovo bylo i. napište i do seznamu slov W, takže W = {i}.

– přeskočte na řádek i v M a náhodně vyberte slovo ze sady Ωi. Řekněte, že zvolené slovo je k; aktualizujte seznam slov W = {i, k}.

— Skok na řádek k a vybrat jedno ze slov, z Ωk;, že jste se j a aktualizace W = {i, k, j}.

– opakujte postup l krát. V této fázi se vytvoří náhodná věta.

– opakujte postup pro vytvoření Nsent vět.

tímto způsobem získáme seznam slov s položkami L × Nsent, což je náhodná kniha, která je generována pomocí matice přechodu slov skutečné knihy. Ze seznamu slov získáme slovo frequency distribution fmodel. Tento model je podobný modelu, ale liší se ve třech aspektech: to umožňuje non-dokonalé vnoření n < 1, nemá žádné explicitní hluk komponenty, a má fixní sekvence (věta) délka.

výsledky

analyzujeme model pomocí počítačových simulací s uvedením L = 10 a Nsent = 100 000. Používáme 10 náhodně vybraných books2 z Projektu Gutenberg (www.gutenberg.org). Pro každou knihu, určíme jeho slovní zásobu N, jeho matice M, její Ωi pro všechny slova, jeho nestedness n(M) a exponent hodnosti-nařídil slovo frekvenci α (least square se hodí k f(r), hodí se pohybují mezi 5 ≤ r ≤ 200). f (r) je znázorněn pro Původ druhů na obrázku 1 (modrý); exponent je α ∼ 0,90. Spustíme model pro parametry každé jednotlivé knihy, abychom vygenerovali náhodný text. Použití empirického Ωi pro model zajišťuje, že tento náhodný text má přesně stejný profil vzorku a hnízdnost jako kniha.

rozdělení získaných z modelu fmodel je jednoznačně schopen reprodukovat přibližný výkon práva exponent pro původ druhů, amodel ∼ 0.86 (stejné fit range). Kromě toho zachycuje detaily distribuce f. Pro velké hodnoty r ve fmodelu (r) se před pozorováním exponenciální konečné velikosti vytváří plošina. S randomizovaným modelem lze plně pochopit jak plošinu, tak mezní hodnotu.

na obrázku 4a porovnáme α exponenty extrahované z knih s výsledky modelu amodel. Model zjevně vysvětluje skutečné hodnoty do značné míry a mírně podceňuje skutečné exponenty. Získáme korelační koeficient ρ = 0,95 (p < 3,7 × 10-5). Na obrázku 4b ukazujeme, že hnízdění n (M) souvisí s exponenty α přibližně lineárním způsobem. Testujeme hypotézu, že zničením hnízdění exponenti zmizí. Pomocí randomizované Mrand, najdeme Inline Vzorce (stejné fit range), které účinně ničí sílu zákona. Použití jiné randomizované verze, která udržuje nestedness neporušený, Mrow-perm, pro low-rank slova (až do přibližně hodnosti cca. 10), najdeme podobné slovní frekvenční distribuce jako pro M; nicméně, jak se očekávalo, zákon síly ocas (vysoké hodnosti) zmizí za Mrow-perm kvůli hluku příspěvek randomizace (není zobrazeno). K ověření našeho předpokladu, že slovo objednání je nezbytné, vypočítáme model rank distribuce pomocí transponované matice MT, což znamená, že jsme zpětného toku času v modelu. Najdeme dva výsledky. Za prvé, vztah mezi exponenty knihy α a model Inline Vzorce zmizí, odráží nevýznamný korelační koeficient ρ = 0.47 (p = 0.17). Za druhé, exponenty (v průměru přes 10 knih) jsou podstatně menší, než pro správný čas toku, kde jsme si odpovídající p-hodnota t-testu je 0.039.

nakonec se pokusíme pochopit význam profilu vzorkovacího prostoru na exponentech měřítka. Za tímto účelem generujeme řadu m matic, které mají profil parametrizovaný výkonem κ. Na obrázku 4c, model exponenty amodel z těchto uměle vyvolaných M jsou zobrazeny jako funkce κ, pro různé velikosti slovníku N. Pro κ < 1 (slabé hnízdění), zjistíme, exponenty amodel ≈ 0, tj. žádné škálování práva. Pro velké N při κ = 1 dochází k rychlému přechodu na amodel ≈ 1 (Zipf). Pro menší N, najdeme složitější chování přechodu, budování maximální exponent v κ < 1. Rozsah knižních exponentů α se pohybuje mezi 0,85 a 1.1, což je přesně pozorovaný rozsah pro realistické velikosti slovní zásoby N ∼ 1000-10 000. Ověřili jsme, že změny délky věty (s výjimkou L = 1) nemění hlášené výsledky. U jednoslovných vět (L = 1) samozřejmě získáme jednotné rozložení frekvence slov a v důsledku toho ploché rozdělení hodnosti, protože většina slov má téměř stejnou hodnost. Jsme pestrá počet vět z Nsent = 104 až 106, a najít prakticky žádný vliv na vykazované výsledky.

Diskuse

V tomto článku se zaměříme na základní vlastnost nestedness v jakýkoli kód, který vyjadřuje smysluplné informace, jako je jazyk. Budeme argumentovat, že pokud hnízdění nebyl přítomen, jeden by snadno skončit v situacích matoucí, jak je popsáno v La Biblioteca de Babel J. L. Borges, kde hypotetické knihovna vlastní všechny knihy se skládá ze všech možných kombinací znaků náplň 410 stránek. V jazykovém kódu definujeme a kvantifikujeme míru vnoření. Nízké stupně nestedness obvykle znamenají méně přísnou hierarchii používání slov nebo rovnostářštější používání slovní zásoby, než texty s vysokou nestedness. Jak se dalo očekávat, texty mají dobře definovanou, ale ne striktně vnořenou strukturu, která by mohla vzniknout kompromisem specifičnosti (zprostředkovat jednoznačné zprávy) a flexibility (umožnit kreativní použití jazyka). Zjistili jsme, že nestedness se liší mezi různými Texty, což naznačuje, že různé způsoby používání slovní zásoby a gramatiky jsou v práci. Náš vzorek textů zahrnoval tři Shakespearovy hry, tři vědecké texty a čtyři romány. Zjistili jsme, že hry, možná nejblíže mluvenému jazyku, vykazují nižší hnízdnost než vědecké knihy. Romány ukazují nejvyšší úroveň hnízdění. Vzorek je příliš malý k vyvození závěrů o tom, zda různé typy textů jsou charakterizovány typické hodnoty nestedness; nicméně je pozoruhodné, že nestedness je v korelaci s variací škálovací exponenty slovo frekvence na knihu-o-kniha základě.

hlavní zjištění této práce je, že jednoduchý vzorek-místo snižování model může ukázat, že nestedness skutečně vysvětluje vznik škálovací zákony v aplikaci word frekvencí, zejména, zipfův zákon. Přesněji se nám podařilo spojit vznik škálovacích zákonů s topologickou strukturou matice slovního přechodu, neboli „fázespace“. Výsledek je pozoruhodný, protože matice nekóduje žádné informace o tom, jak často slovo j následuje slovo i, jen říká, že j následoval i alespoň jednou v celém textu. Náhodné permutace matice, které ničí její hnízdnost, již nemohou vysvětlit škálování, zatímco permutace, které udržují hnízdění neporušené, naznačují existenci mocenských zákonů. Dále je pozoruhodné, že pro pochopení pozorovaného škálování nejsou zapotřebí žádné (nelokální) preferenční, multiplikativní nebo samoorganizované kritické předpoklady a že nejsou potřeba žádné parametry nad rámec matic přechodu slov.

skutečnost, že jednoduchý model je tak úspěšný v reprodukci podrobné škálování majetek v aplikaci word frekvenční statistika může ukazovat na důležitý aspekt jazyka, který nebyl poznamenal tak daleko; skutečnost, že celkový slovo použít, je statisticky silně ovlivněny použitím lokální hierarchické struktury a omezení, které používáme při vytváření vět. Jsme přesvědčeni, že blízký vztah mezi nestedness a škálovací exponent otevírá dveře pro výklad slova četnost rozdělení jako statistický pozorovatelné, že silně závisí na použití slovní zásoby a gramatiky v jazyce. Proto se domníváme, že Zipfův zákon nemusí být univerzální, ale statistika používání slov závisí na místních strukturách, které se mohou lišit v textech a dokonce i ve větách. K objasnění tohoto bodu je zapotřebí dalšího výzkumu.

a Konečně, je vhodné poznamenat, že třída vzorek-space redukční procesy poskytují nezávislé trasy pro škálování, které mohou mít širokou škálu aplikací pro historii-závislé a procesům stárnutí . Ve statistické fyzice je známo, že procesy, které postupně snižují jejich phasespace, jak se vyvíjet se vyznačují výkonem práva nebo natažené exponenciální rozdělení funkcí. Tyto distribuce obecně vznikají jako důsledek fázeprostorový kolaps .

příspěvky autorů

S. T. navrhl výzkum, provedl numerickou analýzu a napsal rukopis. R. H. A B. C. – M. provedli numerickou analýzu a napsali rukopis. B. L. provedl předběžné zpracování knih a provedl numerickou analýzu.

konkurenční zájmy

autoři deklarují žádné konkurenční finanční zájmy.

financování

tato práce byla podpořena rakouským vědeckým fondem FWF v rámci KPP23378FW.

poznámky pod čarou

1 Všimněte si, že ukazatel vnoření v rovnici (1.3), je rozumné pouze pro případ, kdy pravděpodobnost, že dvě slova i, j mají stejný prostor vzorku je velmi nízká, p(Ωi = Ωj) ≈ 0. To je případ uvažovaných přechodových matic.

2 zejména používáme Americká tragédie, Theodore Dreiser; o původu druhů, původ člověka, a Různých forem rostlin Charles Darwin; Příběh dvou měst a David Copperfield od Charlese Dickense; Romeo a Julie, Jindřich V. a Hamlet od Williama Shakespeara, a Odysseus od Jamese Joyce. Slovní zásoba se pohybuje od N = 3102 (Romeo a Julie) do 22 000 (Ulysses) slov.

1
Zipf GK. 1949lidské chování a princip nejmenšího úsilí. Addison-Wesley. Google Scholar
2
Mandelbrot B. 1953informační teorie statistické struktury jazyka. Teorie komunikace (ed. & Jackson W). Londýn, Spojené království: Butterworths. Google Scholar
3
Harremoës P& topsøe F.2001Maximum Entropy fundamentals. Entropie 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
4
Ferrer jsem Cancho R& Solé RV. 2003poslední úsilí a počátky škálování v lidském jazyce. Proc. Natl Acad. Věda. USA 100, 788-791. (doi:10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
5
Corominas-Murtra B, Fortuny J& Solé RV. 2011vznik Zipfova zákona ve vývoji komunikace. Phys. Rev. E 83, 036115. (doi:10.1103 / PhysRevE.83.036115). Crossref, ISI, Google Scholar
6
Simon HA. 1955na třídě zkosených distribučních funkcí. Biometrika 42, 425-440. (doi:10.1093/biomet/42.3-4.425). Crossref, ISI, Google Scholar
7
Zanette DH& Montemurro MA. 2005dynamika generování textu s realistickou distribucí Zipf. J. Quant. Lingvista. 12, 29–40. (doi:10.1080/09296170500055293). Crossref, Google Scholar
8
Li w. 1992Random texty vykazují Zipf ‚ s-law – like word frequency distribution. IEEE trans. Informovat. Teorie 38, 1842-1845. (doi:10.1109/18.165464). Crossref, ISI, Google Scholar
9
Miller GA. 1957 některé účinky přerušovaného ticha. Rána. J.Psychol. 70, 311–314. (doi:10.2307 / 1419346). Crossref, PubMed, ISI, Google Scholar
10
Miller GA& Chomsky N. 1963Finitary modely uživatele jazyka. Příručka matematické psychologie, vol. 2 (eds, Luce RD, Bush R& Galanter E), s. 419-491. New York, NY: Wiley. Google Scholar
11
Kosmidis K, Kalampokis& Argyrakis P. 2006statistický mechanický přístup k lidskému jazyku. Phys. 366, 495-502. (doi:10.1016 / j. physa.2005.10.039). Crossref, ISI, Google Scholar
12
Wichmann s.2005o rozdělení velikosti jazykové rodiny podle mocenského zákona. J. Lingvista. 41, 117–131. (doi: 10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
13
Serrano MA, Flammini& Menczer F. 2009Modeling statistické vlastnosti psaného textu. PLoS ONE 4, e5372. (doi:10.1371 / deník.pone.0005372). Crossref, PubMed, ISI, Google Scholar
14
Zanette DH& Montemurro MA. 2011univerzální entropie uspořádání slov napříč jazykovými rodinami. PLoS ONE 6, e19875. (doi:10.1371 / deník.pone.0019875). Crossref, PubMed, ISI, Google Scholar
15
Písmo-Clos F, Boleda G& Ohrady A. 2013A škálování mimo zákon zipfův zákon a jeho vztah k Heaps‘ law. N. J.Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
16
Yan X-Y& Minnhagen P. 2014komentace k „zákonu o škálování nad rámec Zipf a jeho vztahu k zákonu o hromadách“.’. (http://arxiv.org/abs/1404.1461). Google Scholar
17
Kawamura k& Hatano N. 2002univerzálnost Zipfova zákona. J.Phys. SOC. Jpn 71, 1211-1213. (doi:10.1143/JPSJ.71.1211). Crossref, Google Scholar
18
Axtell RL. 2001Zipf distribuce velikosti americké firmy. Věda 293, 1818-1820. (doi:10.1126 / věda.1062081). Crossref, PubMed, ISI, Google Scholar
19
Makse H -, Havlin S& Stanley ON. 1995modelování modelů růstu měst. Nature 377, 608-612. (doi:10.1038 / 377608a0). Crossref, ISI, Google Scholar
20
Krugman P.1996Confronting the mystery of urban hierarchie. J. Jpn Int. Econ. 10, 399–418. (doi:10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
21
Blank a& Solomon s. 2000Power zákony ve městech populace, finanční trhy a internetové stránky. Phys. A 287, 279-288. (doi: 10.1016/S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
22
Decker E-H, Kerkhoff A-J& Mojžíš M-E. 2007Global vzory velikosti města distribucí a jejich základní ovladače. PLoS ONE 2, 934. (doi:10.1371 / deník.pone.0000934). Crossref, ISI, Google Scholar
23
Stanley ON, Buldyrev S, Goldberger, Havlin S, Peng C& Simons M. 1999Scaling funkce noncoding DNA. Phys. A 273, 1-18. (doi: 10.1016/S0378-4371 (99) 00407-0). Crossref, PubMed, ISI, Google Scholar
24
Zanette D-H& Manrubia S-C. 2001Vertical převodovka kultury a rozdělení rodinných jmen. Phys. A 295, 1: 8. (doi:10.1016/S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
25
Pareto V. 1896Cours d ‚ Economie Politique. Ženeva, Švýcarsko: Droz. Google Scholar
26
Okuyama K, Takayasu M& Takayasu h. 1999Zipf zákon v rozdělení příjmů společností. Phys. 269, 125-131. (doi:10.1016/S0378-4371 (99)00086-2). Crossref, ISI, Google Scholar
27
Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003A teorie moci-zákon distribuce na finančním trhu výkyvy. Nature 423, 267-270. (doi:10.1038 / nature01624). Crossref, PubMed, ISI, Google Scholar
28
Reed WJ& Hughes BD. 2002od genových rodin a rodů po příjmy a velikosti internetových souborů: proč jsou mocenské zákony v přírodě tak běžné. Phys. Rev. E 66, 067103. (doi:10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
29
Thurner S, Szell M& Sinatra R. 2012Emergence dobré chování, měřítka a Zipf zákony v lidské behaviorální sekvence v on-line světě. PLoS ONE 7, e29796. (doi:10.1371 / deník.pone.0029796). Crossref, PubMed, ISI, Google Scholar
30
Newman MEJ. 2005Power zákony, Pareto distribuce a Zipf zákon. Kontemp. Phys. 46, 323–351. (doi:10.1080/00107510500052444). Crossref, ISI, Google Scholar
31
Solomon S& Levy m. 1996spontánní škálování v generických stochastických systémech. Int. J.Mod. Phys. C 7, 745-751. (doi:10.1142/S0129183196000624). Crossref, ISI, Google Scholar
32
Malcai O, Biham O& Solomon S. 1999Power-zákon rozdělení a Lévy-stabilní občasné výkyvy v stochastické systémy mnoha autokatalytická prvky. Phys. Rev. E 60, 1299-1303. (doi:10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
33
Lu ET& Hamilton RJ. 1991 o distribuci slunečních erupcí. Astrofyzi. J. 380, 89–92. (doi:10.1086/186180). Crossref, ISI, Google Scholar
34
Barabási A-L& Albert R. 1999Emergence škálování v náhodných sítí. Věda 286, 509-512. (doi:10.1126 / věda.286.5439.509). Crossref, PubMed, ISI, Google Scholar
35
Bak P, Tang C& Wiesenfeld K. 1987Self-organized criticality: vysvětlení 1/f šumu. Phys. Reverende Lette. 59, 381–384. (doi:10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
36
Saichev, Malevergne Y& Sornette D. 2008Theory z zipfův zákon a obecné power law distribuce s Gibrat zákon proporcionální růst. (http://arxiv.org/abs/0808.1828). Google Scholar
37
Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001Explaining nerovnoměrné distribuce čísel v přírodě: zákony Benford a Zipf. Phys. A 293, 297-304. (doi: 10.1016/S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
38
Thurner S& Tsallis C. 2005Nonextensive aspekty self-organizované scale-free plynu-jako sítě. Europhys. Lette. 72, 197–203. (doi:10.1209/epl/i2005-10221-1). Crossref, Google Scholar
39
Corominas-Murtra B& Solé RV. 2010univerzálnost zákona Zipf. Phys. Rev. E 82, 01102. (doi:10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
40
Montroll E-W& Shlesinger M-F. 1982n 1 / F hluk a další distribuce s dlouhými ocasy. Proc. Natl Acad. Věda. USA 79, 3380-3383. (doi:10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
41
Corominas-Murtra B, Hanel R& Thurner. S. 2015Understanding škálování prostřednictvím historie-závislé procesy se hroutí prostor vzorku. Proc. Natl Acad. Věda. USA 112, 5348-5353. (doi:10.1073 / pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
42
Kac m. 1989A náhodná sekvence závislá na historii definovaná Ulam. ADV.Appl. Matematik. 10, 270–277. (doi:10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
43
Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
44
Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI, Google Scholar
45
Hanel R& Thurner. S. 2013Generalized (c,d)-entropie a stárnutí náhodné procházky. Entropie 15, 5324-5337. (doi:10.3390 / e15125324). Crossref, ISI, Google Scholar
46
Partee BH. 1976montagská gramatika. New York, NY: akademický tisk. Google Scholar
47
Fortuny J& Corominas-Murtra B. 2013On původ nejasnosti v efektivní komunikaci. J. Logic Lang. Informovat. 22, 249–267. (doi:10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Mex Alex

Pochopení zipfův zákon slovních frekvencí přes vzorek-prostor kolaps při tvorbě věty