Megértése Zipf-törvény a szót frekvencián keresztül minta-tér összeomlása mondat formáció
Bevezető
Írott szövegek mutatják a figyelemre méltó tulajdonsága, hogy a rang-rendelt megoszlása szó frekvenciák következő hozzávetőleges hatalom, törvény,
ahol r a rangot, amelyet minden szó a szövegben. A legtöbb szöveg esetében, függetlenül a nyelvtől, a teremtés idejétől, az irodalom műfajától, céljától stb. az egyik megállapítja, hogy α ∼ 1, amelyet Zipf törvényének neveznek . Az 1. ábrán a frekvencia szó látható Darwin szövegére, a fajok eredetére. A statisztikai rendszeresség eredetének megértésére irányuló törekvés majdnem egy évszázada folyik. Maga Zipf minőségi magyarázatot ajánlott fel a küldő és a fogadó által a kommunikációs eseményekbe fektetett erőfeszítések alapján . Ezeket az ötleteket később információs-elméleti kereten belül formalizálták . A Szöveggenerálással kapcsolatos nyelvi feltételezéseken alapuló első kvantitatív modellt Simon javasolta . A modell feltételezi, hogy a szöveg generálásakor a kontextus alakul ki, a szövegben már megjelent szavak előnyben részesülnek másoknál. Azzal az egyszerű feltételezéssel, hogy a korábban megjelent szavakat a korábbi megjelenésükkel arányos valószínűséggel adják hozzá a szöveghez (preferenciális kötődés), és feltételezve, hogy az eddig nem megjelent szavakat állandó sebességgel adják hozzá, lehetséges A Zipf törvényének levezetése, mivel ez utóbbi arány alacsony. Ezt a preferenciális kapcsolódási modellt finomították annak az empirikus ténynek a megvalósításával, hogy az új szavak megjelenésének sebessége csökken a szövegek hosszának növekedésével . A klasszikus művekben kimutatták, hogy a véletlenszerű gépelési modellek a szófrekvenciák Zipf-szerű eloszlásához vezethetnek . Ezek a művek azonban a szóhosszú eloszlásokra vonatkozó irreális feltételezéseken alapulnak, és strukturálatlan és értelmezhetetlen szövegekhez vezetnek. Amint azonban megmutatjuk, a nyelvtani struktúra, a diskurzusgenerációs mechanizmusokkal együtt, alapvető szerepet játszhat A Zipf törvényének valósághű kontextusában. Fontos hangsúlyozni, hogy a nyelvi tulajdonságok részletes statisztikai vizsgálata itt nem ér véget; A Zipf törvényén túl fontos munkát terjesztettek elő (például ). A legújabb tanulmányok a méretezési exponensek részletes függőségével foglalkoznak a vizsgált szöveg testének hosszától .
A Zipf törvénye nem korlátozódik a szófrekvenciákra, hanem számtalan, látszólag független rendszerben és folyamatban jelenik meg . Csak hogy néhányat említsünk, a cégméretek , a városméretek , a genom , a családnevek , a jövedelem , a pénzügyi piacok , az internetes fájlméretek vagy az emberi viselkedés statisztikáiban található ; további példákat lásd . Óriási erőfeszítéseket tettek annak érdekében, hogy megértsék A Zipf törvényének eredetét, és általánosabban a komplex rendszerek méretezésének eredetét. A skálázásnak három fő útja van: multiplikatív folyamatok , preferenciális folyamatok és önszerveződő kritikák . Számos más mechanizmusra is javaslatot tettek, amelyek többé-kevésbé kapcsolódnak ezekhez az alapvető méretezési útvonalakhoz (például ).
a közelmúltban egy negyedik, független útvonalat vezettek be a skálázáshoz olyan sztochasztikus folyamatok alapján, amelyek idővel csökkentik potenciális eredményeiket (minta-tér). Ezek a történelemfüggő véletlenszerű folyamatok , amelyeket a matematikai szakirodalomban különböző kontextusokban, újabban pedig a méretezési törvények összefüggésében vizsgáltak . A minta-tér redukáló folyamatok egyik példája a következő. Gondolj egy sor n kocka, ahol die száma 1 egy arc, die száma 2 két arc (érme), die száma 3 három arcok, és így tovább. Die száma N van n arcok. Kezdjük azzal, hogy egy N-kocka, találomra, mondjuk kocka számon. Dobd rögzíti a kapott arcát érték, ami mondjuk k. Akkor vedd meghalni száma k − 1 dobja, hozz j, rekord j, vegye meghalni száma, j − 1, dob, stb. Tartsa dobás kocka ilyen módon, amíg nem dobja 1 Először. Mivel nincs die kevesebb, mint 1 arcok, a folyamat itt ér véget. A fenti receptben rögzített arcértékek sorrendje (i, k, j, … , 1) nyilvánvalóan szigorúan rendezett vagy beágyazott, i > k > j >> 1. – Ban, azt mutatták, szigorúan, hogy ha ez a folyamat többször megismételjük, az eloszlása eredmények (névértékek 1, 2, … , N) egy pontos Zipf törvény, azaz a valószínűsége, hogy tartsa a névérték m a fenti folyamat(szekvencia dob) pontosan PN (m) = m−1, mivel kezdjük N kocka. Ne feledje, hogy a folyamat ismétlései során az n-t rögzíteni kell a pontos Zipf-törvény megszerzéséhez. Ha az N az ismétlések során változik, egyértelműen A Zipf skálázás aszimptotikusan jelen van a magas rangoknál; azonban a különböző N keveredése miatt a pontos Zipf-törvénytől való eltérések jelennek meg az alacsony rangoknál.
formálisan, minden n die-nek van egy MINTATERÜLETE, amelyet ΩN = {1, 2,…, N} jelöl, ami a potenciális eredmények száma, azaz az n kocka arcainak száma. Szétszórta ezeket a kockát a fent említett módon ad okot, hogy egy sorozat beágyazott minta-terek
A nestedness a minta-terek történelem-függő folyamat középpontjában a származási méretezés törvények az ilyen típusú folyamat. A részletekért lásd, hol is látható, hogy ha zajt adnak a történelemfüggő folyamatokhoz, akkor a PN(m) ∝ m−λ skálázási törvényt kapjuk, ahol 0 << 1 A zajszint.
ebben a dolgozatban bemutatjuk a Zipf szófrekvenciák törvényének levezetését, amely a mondat/diskurzus kialakulásának egyszerű modelljén alapul. A modellt az a megfigyelés motiválja, hogy egy mondat—vagy általában egy diskurzus—kialakításának folyamata történelem-függő mintaterület-csökkentési folyamat. A szavakat nem véletlenszerűen húzzák ki az összes lehetséges szó mintaterületéből, hanem szigorú kapcsolatban állnak egymással. A konkrét szavak használata egy mondatban nagymértékben korlátozza az egymást követő szavak használatát, ami fészkelő (vagy mintaterület-csökkentő) folyamathoz vezet, hasonlóan a fent leírtakhoz. A szövegekben a minta-tér összeomlása szükséges az értelmes információk továbbításához. Ellenkező esetben minden értelmezés, még metaforikus vagy költői értelemben is, lehetetlenné válik. Tegyük konkrétabbá a pontot egy mondat kialakulásának példájával, ahol mind a nyelvtani, mind a kontextuális korlátok (amelyek csökkentik a minta-teret) működnek (2.ábra). A következő mondatot alkotjuk: “a farkas üvölt az éjszakában”. Elvileg az első szó “a farkas” (figyelmen kívül hagyva a cikkek és prepozíciók a pillanatban) lehet levonni az összes lehetséges szavakat. Tegyük fel, hogy léteznek N lehetséges szavak, és jelöljük a megfelelő minta-teret ΩN = {1, 2, … , N}, ahol minden szám most egy szót jelent. Ezt vázlatosan szemlélteti a 2A. ábra.tekintettel arra, hogy ΩN = {1, 2,…, N} – ből választottuk a “farkast”, a 2B. ábrát, a következő szót (általában) nem ΩN = {1, 2,…, N} – ből választjuk ki, hanem annak egy részhalmazából (2C ábra). Képzeld el, hogy az alcsoport L szavakat tartalmaz, ΩL ⊂ ΩN van. Általában elvárjuk, hogy az alcsoport olyan szavakat tartalmazzon, amelyek a kutyák tulajdonságaihoz, biológiai funkciókhoz, más állatokhoz stb. de már nem minden lehetséges szó. Miután meghatároztuk a második “üvöltés” ∈ ΩL szót, a kontextust, az érthetőséget és a nyelvtani struktúrát, tovább korlátozzuk a harmadik szó mintaterületét ΩM ⊂ ΩL-re, ahonnan végül “éjszaka” – t rajzolunk. Nyilvánvaló, hogy a mondatok kialakításában a fészkelés hasonló a beágyazott kocka példájához. A fészkelést nyelvtani és/vagy kontextuális, és/vagy értelmezési korlátok határozzák meg.
a nyelvtan szerepe a fészkeléshez nyilvánvaló. Általában angolul az első szó egy főnév, amelynek nyelvtani szerepe van. Az a tény, hogy az első szó főnév, korlátozza a következő szó lehetőségeit a verbális kifejezések részhalmazára. A választott igétől függően a most követhető szavak általában az objektum nyelvtani szerepét játsszák, és ismét korlátozottabbak. A minta-tér csökkentés és beágyazott hierarchikus struktúra kifejezéseket egymással felcserélhető mondatokban használjuk. Nem csak a nyelvtani szerkezet, amely egymást követő korlátozásokat ír elő a szavak mintaterületére, ahogy a mondat előrehalad; az érthetőség szükségessége ugyanolyan hatással van. A mondatok kialakításában (legalább részleges) hierarchikus struktúrák nélkül értelmezésük nagyon nehéz lenne . A mondatokban beágyazott struktúrák azonban általában nem lesznek szigorúan megvalósítva. Ellenkező esetben a nyelv kreatív használata és rugalmassága súlyosan korlátozódna. Néha a szavak nyelvi csuklópántként működhetnek, ami azt jelenti, hogy sokkal több egymást követő szót tesz lehetővé, mint az előző szónál. Arra számítunk, hogy a fészkelés csak bizonyos mértékig valósul meg. A tökéletlen Fészek lehetővé teszi a nyelvi kódex bizonyos fokú kétértelműségét, amely megdöbbentő sokoldalúságának egyik forrása .
ebben a dolgozatban számszerűsítjük egy szöveg fészkelésének mértékét az M (hálózat) szóátmeneti mátrixából. Egy szöveg hierarchikus struktúrájának egyetlen számmal történő jellemzéséhez meghatározzuk annak n fészkelését M tulajdonságaként
ahol az átlagot az összes lehetséges szópárra (i, j) vesszük át. A Nestedness egy 0 és 1 közötti szám, és meghatározza, hogy a szövegben átlagosan milyen mértékben van jelen a mintaterület-csökkenés.1 A szigorúan beágyazott rendszer, mint az egyenlet (1.2), N(M) = 1. Nyelvi szempontból a szigorú fészkelés egyértelműen irreális.
szó-átmeneti mátrixokat használunk a tényleges angol szövegekből, amelyek bemenetként szolgálnak egy egyszerű mondatképzési modellhez. Ezután tanulmányozzuk ezeknek a mesterségesen előállított szövegeknek a szófrekvenciás eloszlását, majd összehasonlítjuk azokat az eredeti szövegek eloszlásával. Először megmutatjuk, hogy lehetséges a (helyi) nestedness topológiai jellemzőjét a mondatképzésben összekapcsolni a hosszú szövegek szófrekvenciás eloszlásának globális jellemzőivel. E tekintetben javasoljuk egy módja annak, hogy megértsük a statisztika szó frekvenciák—Zipf-törvény különösen—a tényleges strukturális jellemzője, hogy a nyelv, nestedness, anélkül, hogy resort a korábbi kísérletek, beleértve a multiplikatív folyamatok, kedvezményes melléklet vagy önszerveződő kritikus, amely a nyelvet, néha úgy tűnik, hogy a többi erős valószínűtlen feltételezés.
Model
az n szavak véges szókincsét feltételezzük. Bármely adott szövegből empirikus szót kapunk-átmeneti mátrix M. a szavakat latin indexekkel jelöljük. Mij = 1 azt jelenti, hogy a szövegben legalább egy alkalmat találunk, ahol a szó J közvetlenül követi i-t; ha Mij = 0, a szó j soha nem követi i-t a teljes szövegben. A 3a.ábra a fajok eredetére vonatkozó átmeneti mátrixot mutatja. Az egyes szavak mintaterületének számszerűsítéséhez vegye figyelembe, hogy az I. sor M-ben tartalmazza a szavak halmazát, Ωi = {k|Mik = 1}, amelyek közvetlenül követik az I szót. |Ωi|, az Ωi méretét (elemek számát) jelöljük, amely a különböző szavak száma, amelyek követhetők i. Ωi a minta-tér térfogatának közelítése, amely elérhető az i szó bekövetkezése után. Különböző szavak Különböző minta-tér kötetek (ábra 3B), ahol a minta-tér profil látható. Mi paraméterezi a profilt, mint yk = x, ahol x megfelel a minta – tér térfogata | / Ωi/, és y a minta-tér index i. hívjuk a rendszer lineárisan beágyazott ha κ = 1 (mint az egyenlet (1.2)), gyengén beágyazott κ < 1 és erősen beágyazott ha κ > 1 (mint a 3B ábra). Példa egy gyengén beágyazott profilra a 4C ábra egyik betétjében. A κ paraméter intuitív értelmezéssel rendelkezik a szóátmenetek “strukturáltságának” mértékében. Gyengén beágyazott profil esetén (κ < 1) Sok szó követhető, míg egy erősen beágyazott profilban (κ > 1) van néhány szó, amelyet sok más szó követ, és sok szó, amelyeket csak nagyon kevés követhet. Ebben az értelemben κ méri, hogy a szóátmenetek milyen mértékben korlátozottak.
vegye figyelembe, hogy a 3B ábrán szereplő profil valójában nincs jól felszerelve hatalmi törvénnyel; a parametrizáció oka egy tisztán elméleti érv, amely az alábbiakban világossá válik. Kizárjuk azokat a szavakat, amelyeket a teljes szövegben kevesebb, mint két különböző szó követ, azaz eltávolítjuk az összes I sort M-ből, amelyre / Ωi / < 2. A szigorú fészket nem szabad összekeverni az erős vagy gyenge fészkeléssel. Az utóbbiak a minta-tér profil tulajdonságai.
statisztikai teszteléshez az M két randomizált változatát állítjuk össze, amelyeket Mrand és Mrow-perm jelöl. Mrand kapjuk véletlenszerűen permutáló sorok az egyes vonalak a mátrix M. ez tartja a száma nem nulla bejegyzés minden sorban ugyanaz, mint az eredeti mátrix M, de elpusztítja a fészket és az információt, amely szavak követik egymást. A második randomizált változat, a Mrow-perm az M mátrix (teljes) sorainak permutálásával érhető el.ez változatlanul tartja a mátrix fészkelését, de elpusztítja a szóátmenetekre vonatkozó információkat.
Given M, az L hosszúságú véletlenszerű mondatokat a következő modellel állítjuk össze:
— véletlenszerűen válasszuk ki az N szavak egyikét. Mondd azt a szót, hogy én. írj egy wordlist W, úgy, hogy W = {i}.
— Ugrás az I vonalra m-ben, és véletlenszerűen válasszon ki egy szót a halmazból Ωi. Mondja, hogy a választott szó k; frissítse a w = {i, k} szót.
— ugorj a K vonalra, és válaszd ki az Ωk egyik szavát; mondd, hogy J, és frissítsd W = {i, k, j}.
— ismételje meg az eljárást l-szer. Ebben a szakaszban véletlenszerű mondat alakul ki.
— ismételje meg a folyamatot Nsent mondatok előállításához.
ily módon kapunk egy l × Nsent bejegyzésekkel ellátott wordlistát, amely egy véletlenszerű könyv, amelyet egy tényleges könyv szó-átmeneti mátrixával generálunk. A wordlist, megkapjuk a szót frekvencia elosztó fmodel. A jelenlegi modell hasonló a one in-hez, de három szempontból különbözik: ez lehetővé teszi a nem tökéletes fészkelést n < 1, nincs kifejezett zajkomponense, rögzített szekvencia (mondat) hossza.
eredmények
a modellt számítógépes szimulációkkal elemezzük, meghatározva L = 10 és Nsent = 100 000 értéket. 10 véletlenszerűen kiválasztott könyvet használunk2 a Project Gutenberg (www.gutenberg.org). minden könyv esetében meghatározzuk az n szókincsét, az M mátrixát, az Ωi-t minden szóra, az N(M) fészkelődését és a rang által rendezett α szófrekvencia-Eloszlás exponensét (a legkisebb négyzet F(r) – re illeszkedik, az 5 ≤ r ≤ 200 közötti illeszkedési tartományt). f (r)A fajok eredetére az 1. ábrán látható (kék); az exponens α ∼ 0,90. Minden egyes könyv paramétereinek modelljét futtatjuk véletlenszerű szöveg létrehozásához. A modell empirikus Ωi-jának használata biztosítja, hogy ez a véletlenszerű szöveg pontosan ugyanolyan mintaterület-profilú legyen,mint a könyv.
az fmodel modellből nyert Eloszlás egyértelműen képes reprodukálni a faj eredetére vonatkozó közelítő teljesítménytényezőt, az amodel ∼ 0.86 – ot (azonos illeszkedési tartomány). Ezenkívül rögzíti az F eloszlás részleteit. Az fmodel(r) r nagy értékei esetén fennsík alakul ki, mielőtt az exponenciális véges méretű cut-off figyelhető meg. Mind a fennsík, mind a levágás teljesen érthető a randomizált modellel.
a 4a ábrán összehasonlítjuk a könyvekből kivont α exponenseket a modell eredményeivel amodel. A modell nyilvánvalóan nagymértékben magyarázza a tényleges értékeket, kissé alábecsülve a tényleges exponenseket. Kapunk egy korrelációs együtthatót ρ = 0,95 (p < 3,7 × 10-5). A 4B ábrán azt mutatjuk be, hogy az N(M) fészkelés megközelítőleg lineáris módon kapcsolódik az α exponensekhez. Teszteljük azt a hipotézist, hogy a fészek elpusztításával az exponensek eltűnnek. A randomizált Mrand használatával (azonos illeszkedési tartomány), amely hatékonyan elpusztítja a hatalmi törvényt. A másik randomizált változat, amely megtartja a nestedness ép, Mrow-perm, az alacsony rangú szavak (KB rangot kb. 10), hasonló szófrekvenciás eloszlásokat találunk, mint az M esetében; azonban, ahogy az várható volt, a teljesítmény törvény farok (magas rangú) eltűnik a Mrow-perm miatt zaj hozzájárulása a randomizáció (nem látható). A feltételezésünk érvényesítéséhez, hogy a szórendelés elengedhetetlen, kiszámítottuk a model rank eloszlásokat az átültetett Mt mátrix használatával, ami azt jelenti, hogy megfordítjuk a modell időáramlását. Két eredményt találunk. Először is, az α és a közötti korreláció eltűnik, amit egy jelentéktelen korrelációs együttható tükröz ρ = 0,47 (p = 0,17). Másodszor, az exponensek (átlagosan a 10 könyv felett) lényegesen kisebbek, mint a megfelelő időáramhoz, ahol a megfelelő a T-teszt p-értéke 0,039.
végül megpróbáljuk megérteni a minta-tér profil fontosságát a méretezési exponenseken. Ehhez egy sor M mátrixot generálunk, amelyek egy teljesítmény κ-vel paraméterezett profillal rendelkeznek. A 4C ábrán a modell exponensek amodel ezekből mesterségesen generált M jelennek függvényében κ, különböző méretű szókincs N. mert κ < 1 (gyenge fészkelő), találunk kitevők amodel ≈ 0, azaz nincs méretezési törvény. Nagy n esetén a κ = 1-nél gyors átmenet történik az AMODEL ≈ 1-re (Zipf). Kisebb N esetén az átmenet bonyolultabb viselkedését találjuk, maximális exponenst építve κ < 1. A könyv exponensek α tartománya 0,85 és 1 között mozog.1, amely pontosan a megfigyelt tartomány reális szókincs méretek n ∼ 1000-10 000. Ellenőriztük, hogy a mondatok hosszának változása (az L = 1 kivételével) nem változtatja meg a jelentett eredményeket. Az egyszavas mondatok (L = 1) esetében nyilvánvalóan egységes szófrekvencia-eloszlást kapunk, következésképpen egy lapos rang-eloszlást, mivel a legtöbb szó szinte azonos rangú. A mondatok számát az Nsent = 104-ről 106-ra változtattuk, és gyakorlatilag nem találtunk befolyást a jelentett eredményekre.
Discussion
ebben a tanulmányban a nestedness alapvető tulajdonságára összpontosítunk minden olyan kódban, amely értelmes információkat, például nyelvet közvetít. Azzal érvelünk, hogy ha a fészkelés nem lenne jelen, akkor J. L. Borges, a La Biblioteca de Babel által leírt zavaros helyzetekben könnyen előfordulhat, ahol egy hipotetikus könyvtár birtokolja az összes olyan könyvet, amely 410 oldalt kitöltő karakterek összes lehetséges kombinációjából áll. A nyelvi kódban meghatározzuk és számszerűsítjük a fészek bizonyos fokát. A fészek alacsony foka általában kevésbé szigorú hierarchiát jelent a szóhasználatban vagy a szókincs egalitárius használatában, mint a magas fészkelésű szövegek. Ahogy az várható volt, a szövegek jól meghatározott, de nem szigorúan beágyazott struktúrával rendelkeznek, amely a specifikusság (egyértelmű üzenetek közvetítése) és a rugalmasság (a nyelv kreatív használatának lehetővé tétele) kompromisszumából származhat. Úgy találjuk, hogy a nestedness különböző szövegek között változik, ami arra utal,hogy a szókincs és a nyelvtan különböző módjai működnek. A szövegmintában három Shakespeare-darab, három tudományos szöveg és négy regény szerepelt. Úgy találjuk, hogy a színdarabok, talán a beszélt nyelvhez legközelebb, alacsonyabb fészket mutatnak, mint a tudományos könyvek. A regények a fészek legmagasabb szintjét mutatják. A minta túl kicsi ahhoz, hogy következtetéseket vonjunk le arról, hogy a különböző típusú szövegeket a fészkelés tipikus értékei jellemzik-e; figyelemre méltó azonban, hogy a fészekség korrelál a szófrekvenciák skálázási exponenseinek könyvenkénti változataival.
a tanulmány fő megállapítása az, hogy egy egyszerű mintaterület-csökkentő modell megmutathatja, hogy a fészkelés valóban magyarázza a méretezési törvények megjelenését a szófrekvenciákban, különösen A Zipf törvényében. Pontosabban, képesek voltunk összekapcsolni a méretezési törvények megjelenését a szó-átmeneti mátrix topológiai szerkezetével, vagy “phasespace”. Az eredmény figyelemre méltó, mivel a mátrix nem kódol semmilyen információt arról, hogy a word j milyen gyakran követi az I szót, csak azt mondja, hogy j legalább egyszer követte az egész szöveget. A mátrix véletlenszerű permutációi, amelyek elpusztítják a fészket, már nem magyarázhatják meg a méretezést, míg a fészkelést érintetlenül tartó permutációk jelzik a hatalmi törvények létezését. További figyelemre méltó, hogy a megfigyelt méretezés megértéséhez nincs (nem helyi) preferenciális, multiplikatív vagy önszerveződő kritikus feltételezés, és a szóátmeneti mátrixokon túl nincs szükség paraméterekre.
az A tény, hogy az egyszerű modell olyan sikeres, a reprodukció a részletes méretezés ingatlan a szó gyakorisága statisztikák lehet, hogy pont egy fontos aspektusa a nyelv, hogy nem megjegyezte, eddig; az a tény, hogy a teljes szót használja, statisztikailag erősen befolyásolja a használatát a helyi hierarchikus szerkezeteket, korlátokat, hogy használjuk a termelő mondatokat. Hisszük, hogy a nestedness és a skálázó exponens közötti szoros kapcsolat megnyitja az ajtót a szófrekvencia-eloszlások statisztikai megfigyelésként való értelmezéséhez, amely erősen függ a szókincs és a nyelvtan használatától egy nyelven belül. Ennek megfelelően azt feltételezzük, hogy A Zipf törvénye nem feltétlenül egyetemes, de ez a szóhasználati statisztika a helyi struktúráktól függ, amelyek a szövegekben, sőt a mondatokban is eltérőek lehetnek. További kutatásokra van szükség e pont tisztázásához.
végül érdemes megjegyezni, hogy a mintaterület-redukáló folyamatok osztálya független útvonalat biztosít a méretezéshez, amely széles körben alkalmazható a történelemfüggő és öregedési folyamatokhoz . A statisztikai fizikában ismert, hogy azokat a folyamatokat, amelyek egymás után csökkentik fázisaikat, amikor kibontakoznak, a hatalmi törvény vagy a feszített exponenciális eloszlási funkciók jellemzik. Ezek az eloszlások általában a fázisok következményeia tér összeomlása .
szerzői hozzájárulások
S. T. megtervezte a kutatást, numerikus analízist végzett és megírta a kéziratot. R. H. és B. C.-M. numerikus analízist végzett és megírta a kéziratot. B. L. elvégezte a könyvek előfeldolgozását és numerikus analízist végzett.
versengő érdekek
a szerzők nem jelentenek versengő pénzügyi érdekeket.
finanszírozás
ezt a munkát az osztrák FWF Tudományos Alap támogatta a KPP23378FW alatt.
lábjegyzetek
végjegyzetek
1 Vegye figyelembe, hogy a fészkelő mutató az egyenletben (1.3) ésszerű csak abban az esetben, ha a valószínűsége két szó i, j, amelynek ugyanaz a minta tér nagyon alacsony, P(Ωi = Ωj) ≈ 0. Ez a helyzet a figyelembe vett átmeneti mátrixok esetében.
2 különösen Theodore Dreiser amerikai tragédiáját használjuk; a fajok eredetét, az ember származását és a növények különböző formáit Charles Darwin; két város története és David Copperfield Charles Dickens; Rómeó és Júlia, V. Henrik és Hamlet William Shakespeare; Ulysses James Joyce. Szókincs változik N = 3102 (Rómeó és Júlia) a 22 000 (Ulysses) szó.
- 1
Zipf GK. 1949az emberi viselkedés és a legkisebb erőfeszítés elve. Addison-Wesley. Google Scholar
- 2
Mandelbrot B. 1953a nyelv statisztikai struktúrájának információs elmélete. Kommunikációs elmélet (Szerk. & Jackson W). London, Egyesült Királyság: Butterworths. Google Scholar
- 3
Harremoës P& Topsøe F. 2001maximum entropy fundamentals. Entrópia 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
- 4
Ferrer i Cancho R & Solé RV. 2003az utolsó erőfeszítés és a méretezés eredete az emberi nyelvben. Proc. Natl Acad. Sci. USA 100, 788-791. (doi:10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
- 5
Corominas-Murtra B, Fortuny J& Solé RV. 2011a Zipf törvényének megjelenése a kommunikáció fejlődésében. Phys. Rev.E 83, 036115. (doi:10.1103 / PhysRevE.83.036115). Crossref, ISI, Google Scholar
- 6
Simon HA. 1955a ferde elosztási funkciók osztályán. Biometrika 42, 425-440. (doi:10.1093/biomet/42.3-4.425). Crossref, ISI, Google Scholar
- 7
Zanette DH& Montemurro MA. 2005dynamics of text generation with realistic Zipf ‘ s distribution. J. Quant. Nyelvész. 12, 29–40. (doi:10.1080/09296170500055293). Crossref, Google Scholar
- 8
Li W. 1992random szövegek mutatnak Zipf-törvényszerű szó frekvencia elosztás. IEEE Trans. Inform. Elmélet 38, 1842-1845. (doi:10.1109/18.165464). Crossref, ISI, Google Scholar
- 9
Miller GA. 1957 az időszakos csend néhány hatása. Am. J. Psychol. 70, 311–314. (doi:10.2307 / 1419346). Crossref, PubMed, ISI, Google Scholar
- 10
Miller ga& Chomsky N. 1963. A matematikai pszichológia kézikönyve, vol. 2 (eds, Luce RD, Bush R& Galanter e), 419-491. New York, NY: Wiley. Google Scholar
- 11
Kosmidis K, Kalampokis A& Argyrakis P. 2006statisztikai mechanikai megközelítés az emberi nyelvhez. Phys. A 366, 495-502. (doi:10.1016 / j.physa.2005.10.039). Crossref, ISI, Google Scholar
- 12
Wichmann S. 2005 a nyelvcsaládok hatalmi jog szerinti elosztásáról. J. Nyelvész. 41, 117–131. (doi:10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
- 13
Serrano MA, Flammini a& Menczer F. 2009az írott szöveg statisztikai tulajdonságainak módosítása. PLoS ONE 4, e5372. (doi:10.1371 / folyóirat.pone.0005372). Crossref, PubMed, ISI, Google Scholar
- 14
Zanette DH& Montemurro MA. 2011univerzális entrópia a szórendelés egész nyelvi családok. PLoS ONE 6, e19875. (doi:10.1371 / folyóirat.pone.0019875). Crossref, PubMed, ISI, Google Scholar
- 15
Font-Clos F, Boleda G& Corral A. 2013a scaling law beyond Zipf’ s law and its relation to Heaps ‘ law. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
- 16
Yan X-Y & Minnhagen P. 2014 A “Zipf törvényén túlmutató méretezési törvényről és annak a halmok törvényéhez való viszonyáról” szóló javaslat.’. (http://arxiv.org/abs/1404.1461). Google Scholar
- 17
Kawamura K & Hatano N. 2002. J. Phys. Soc. Jpn 71, 1211-1213. (doi:10.1143 / JPSJ.71.1211). Crossref, Google Scholar
- 18
Axtell RL. 2001ZIPF forgalmazása amerikai cég méretben. Tudomány 293, 1818-1820. (doi: 10.1126 / tudomány.1062081). Crossref, PubMed, ISI, Google Scholar
- 19
Makse H-A, Havlin S & Stanley HE. 1995. Természet 377, 608-612. (doi:10.1038/377608a0). Crossref, ISI, Google Scholar
- 20
Krugman P. 1996. J. Jpn Int. Econ. 10, 399–418. (doi:10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
- 21
Blank a& Salamon S. 2000power laws in cities population, financial markets and internet sites. Phys. A 287, 279-288. (doi:10.1016 / S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
- 22
Decker E-H, Kerkhoff a-J& Moses M-E. 2007global patterns of city size distributions and their fundamental drivers. PLoS ONE 2, 934. (doi:10.1371 / folyóirat.pone.0000934). Crossref, ISI, Google Scholar
- 23
Stanley HE, Buldyrev S, Goldberger A, Havlin S, Peng C& Simons M. 1999. Phys. A 273, 1-18. (doi:10.1016 / S0378-4371(99)00407-0). Crossref, PubMed, ISI, Google Scholar
- 24
Zanette D-H& Manrubia S-C. 2001. Phys. A 295, 1-8. (doi:10.1016 / S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
- 25
Pareto V. 1896cours d ‘ Economie Politique. Genf, Svájc: Droz. Google Scholar
- 26
Okuyama K, Takayasu M & Takayasu H. 1999zipf törvénye a vállalatok jövedelemelosztásáról. Phys. A 269, 125-131. (doi:10.1016 / S0378-4371(99)00086-2). Crossref, ISI, Google Scholar
- 27
Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003a theory of power-law distributions in financial market fluktuations. Természet 423, 267-270. (doi:10.1038 / nature01624). Crossref, PubMed, ISI, Google Scholar
- 28
Reed WJ& Hughes BD. 2002 a géncsaládoktól és a nemzetségektől a jövedelmekig és az internetes fájlméretekig: miért olyan gyakoriak a hatalmi törvények a természetben. Phys. Rev.E 66, 067103. (doi:10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
- 29
Thurner S, Sellm M & Sinatra R. 2012a jó magaviselet, a méretezés és A Zipf törvények érvényesülése az emberi viselkedési szekvenciákban egy online világban. PLoS ONE 7, e29796. (doi:10.1371 / folyóirat.pone.0029796). Crossref, PubMed, ISI, Google Scholar
- 30
Newman MEJ. 2005. évi törvény, Pareto-törvény és A Zipf-törvény. Contempor. Phys. 46, 323–351. (doi:10.1080/00107510500052444). Crossref, ISI, Google Scholar
- 31
Solomon S& Levy M. 1996pontán méretezés megjelenése általános sztochasztikus rendszerekben. Int. J. Mod. Phys. C 7, 745-751. (doi:10.1142/S0129183196000624). Crossref, ISI, Google Scholar
- 32
Malcai O, Biham O& Solomon S. 1999power-law distributions and Lévy-stable intermitting fluktuations in stochastic systems of many autocatalytic elements. Phys. Rev.E 60, 1299-1303. (doi:10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
- 33
Lu ET & Hamilton RJ. 1991 a napkitörések eloszlásának vizsgálata. Asztrofizikusok. J. 380, 89–92. (doi:10.1086/186180). Crossref, ISI, Google Scholar
- 34
Barabási a-L& Albert R. 1999. Tudomány 286, 509-512. (doi: 10.1126 / tudomány.286.5439.509). Crossref, PubMed, ISI, Google Scholar
- 35
Bak P, Tang C& Wiesenfeld K. 1987. Phys. Lett Tiszteletes. 59, 381–384. (doi:10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
- 36
Saichev A, Malevergne Y& Sornette D. 2008a Zipf törvényének és az Általános hatalmi törvénynek a gibrat arányos növekedési törvényével történő elosztása. (http://arxiv.org/abs/0808.1828). Google Scholar
- 37
Pietronero L, Tosatti E, Tosatti V & Vespignani A. 2001a számok egyenlőtlen eloszlása a természetben: Benford és Zipf törvényei. Phys. A 293, 297-304. (doi:10.1016 / S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
- 38
Thurner S& Tsallis C. 2005nonextensive szempontjai önszerveződő skála-mentes gáz-szerű hálózatok. Europhys. Lett. 72, 197–203. (doi:10.1209/epl / i2005-10221-1). Crossref, Google Scholar
- 39
Corominas-Murtra B & Solé RV. 2010 A Zipf törvényének egyetemessége. Phys. Rev.E 82, 011102. (doi:10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
- 40
Montroll E-W& Shlesinger M-F. 1982on 1 / f zaj és egyéb disztribúciók hosszú farokkal. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi:10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
- 41
Corominas-Murtra B, Hanel R& Thurner S. 2015megértése méretezés történelem-függő folyamatok összeomló minta tér. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi:10.1073 / pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
- 42
Kac M. 1989a történelem-függő véletlen szekvencia által meghatározott Ulam. ADV. Appl. Matek. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
- 43
Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
- 44
Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI,Google Scholar
- 45
Hanel R& Thurner S. 2013generalized (c, d)-entropy and aging random walks. Entrópia 15, 5324-5337. (doi:10.3390 / e15125324). Crossref, ISI, Google Scholar
- 46
Partee BH. 1976montague grammar. New York, NY: Academic Press. Google Scholar
- 47
Fortuny J& Corominas-Murtra B. 2013a hatékony kommunikáció kétértelműségének eredetéről. J. Logic Lang. Inform. 22, 249–267. (doi:10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar