Articles

ymmärtäminen Zipf: n sanan taajuuksien lain ymmärtäminen sample-space collapse in lause formation

Johdanto

kirjoitetut tekstit osoittavat sen merkittävän piirteen, että sanataajuuksien rankattu jakauma seuraa likimääräistä potenssilakia

näytön kaava

1.1

, jossa R on arvojärjestys, joka annetaan jokaiselle sanalle tekstissä. Useimmille teksteille riippumatta kielestä, luomisajasta, kirjallisuuden lajityypistä, sen tarkoituksesta jne. eräs toteaa, että α ∼ 1, johon viitataan Zipfin lakina . Kuvassa 1 on Darwinin tekstille esitetty sanataajuus, Lajien synty. Tämän tilastollisen säännöllisyyden alkuperää on pyritty ymmärtämään jo lähes vuosisadan ajan. Zipf itse tarjosi laadullisen selityksen, joka perustui lähettäjän ja vastaanottajan viestintätapahtumiin kohdistamiin ponnisteluihin . Nämä ajatukset virallistettiin myöhemmin informaatioteoreettisessa viitekehyksessä . Simon on ehdottanut ensimmäistä kvantitatiivista mallia, joka perustuu kielellisiin oletuksiin tekstin synnystä . Malli lähtee siitä, että kun tekstisukupolvessa syntyy konteksti, suositaan tekstissä jo esiintyneitä sanoja yli muiden. Sillä yksinkertaisella oletuksella, että aiemmin esiintyneet sanat lisätään tekstiin niiden aikaisempaan ulkoasuun suhteutetulla todennäköisyydellä (etuoikeusliite), ja olettamalla, että toistaiseksi ilmestymättömät sanat lisätään vakiovauhdilla, on mahdollista johtaa Zipfin laki, koska jälkimmäinen korko on alhainen. Tätä etuoikeusliittymämallia on hiottu toteuttamalla empiirinen tosiasia, että uusien sanojen ilmestymisnopeus laskee tekstien pituuden kasvaessa . Klassisissa teoksissa on osoitettu, että satunnaiset kirjoitusmallit voivat johtaa Sanataajuuksien Zipf-tyyppisiin jakaumiin . Nämä teokset perustuvat kuitenkin epärealistisiin oletuksiin sanapituisista jakaumista ja johtavat jäsentymättömiin ja tulkinnanvaraisiin teksteihin. Kuitenkin, kuten tulemme osoittamaan, kielioppirakenne, yhdessä diskurssien generointimekanismien kanssa, voi olla olennaisessa roolissa zipfin lain synnyssä realistisessa kontekstissa. On tärkeää korostaa, että kielen ominaisuuksien yksityiskohtainen tilastollinen tutkimus ei pääty tähän; tärkeää työtä Zipfin lain ulkopuolella on esitetty (esim. Viimeaikaiset tutkimukset käsittelevät skaala-eksponenttien yksityiskohtaista riippuvuutta tutkittavan tekstin rungon pituudesta .

Kuva 1.

kuva 1. Lajien synnyn sanataajuuksien (sininen) paremmuusjärjestyksessä esitetty jakauma osoittaa likimääräisen voimalain, jonka kulmakerroin on noin α ∼ 0,9. Mallitulos (punainen viiva)selittää paitsi potenssilain eksponentin, myös kaappaa jakauman yksityiskohdat. Eksponentiaalinen katkos voidaan selittää mallin satunnaistetulla versiolla.

Zipf: n laki ei rajoitu sanojen taajuuksiin, vaan esiintyy lukemattomissa, näennäisesti toisiinsa liittymättömissä järjestelmissä ja prosesseissa . Vain mainita muutamia, se on löydetty tilastoista yritysten koot, kaupungin koot, genomi, sukunimet, tulot, rahoitusmarkkinat, Internet tiedostokoot, tai ihmisen käyttäytymistä; lisää esimerkkejä katso . Zipfin lain alkuperää ja yleisemmin skaalauksen alkuperää monimutkaisissa järjestelmissä on yritetty ymmärtää valtavasti. Skaalaukseen on kolme pääreittiä: multiplikatiiviset prosessit , preferentiaaliset prosessit ja itseorganisoituva kriittisyys . Useita muita mekanismeja, jotka liittyvät enemmän tai vähemmän näihin perusreitteihin skaalaukseen, on ehdotettu (esim.).

viime aikoina on otettu käyttöön neljäs, itsenäinen skaalausreitti, joka perustuu stokastisiin prosesseihin, jotka vähentävät niiden mahdollisia tuloksia (otos-avaruus) ajan myötä . Nämä ovat historiasta riippuvia satunnaisprosesseja , joita on tutkittu matemaattisessa kirjallisuudessa eri yhteyksissä ja viime aikoina skaalauslakien yhteydessä . Esimerkki näyte-tilaa pelkistävistä prosesseista on seuraava. Ajattele joukko N noppaa jossa die numero 1 on yksi kasvot, die numero 2 on kahdet kasvot (kolikko), die numero 3 on kolme kasvot, ja niin edelleen. Die numero N on n kasvot. Aloita valitsemalla yksi n noppaa sattumanvaraisesti, sano noppaa numero i. heitä se ja tallentaa saatu nimellisarvo, joka oli sanoa k. sitten ottaa die numero k − 1 heittää se, saada j, record j, ottaa die numero j-1, heittää se, jne. Pidä heittää noppaa tällä tavalla, kunnes heität 1 ensimmäistä kertaa. Koska ei ole kuolee alle 1 Kasvot, prosessi päättyy tähän. Edellä olevaan reseptiin (i, k, j, … , 1) merkittyjen nimellisarvojen järjestys on ilmeisesti tiukasti järjestetty tai sisäkkäinen, i > k > j >> 1. Vuonna, osoitettiin tiukasti, että jos tämä prosessi toistetaan monta kertaa, jakauma tuloksia (nimellisarvot 1, 2, … , N) on tarkka Zipf laki, eli todennäköisyys tarkkailla nimellisarvo m edellä prosessissa (sekvenssi heittää) on täsmälleen PN(m) = m−1, koska aloitamme N noppaa. Huomaa, että on tarpeen pitää N kiinteänä prosessin toistojen aikana tarkan Zipf-lain saamiseksi. Jos N vaihtelee aikana toistoja, selvästi Zipf skaalaus on läsnä asymptoottisesti korkea riveissä; kuitenkin koska sekoitus eri N, poikkeamat tarkka Zipf laki näkyy Alhainen riveissä.

muodollisemmin jokaisella Dial N: llä on otosavaruus, jota merkitään ΩN = {1, 2,…, n}, joka on potentiaalisten lopputulosten eli noppa N: N tahkojen lukumäärä. Näiden noppien heittäminen edellä mainitulla tavalla synnyttää sisäkkäisten otosvälien sarjan

Näyttökaava

1,2

näyteavaruuksien nesteytyminen historiariippuvaisessa järjestyksessä on ytimessä skaalauslakien synnyssä tämäntyyppisessä prosessissa. Tarkempia tietoja löytyy myös siitä, että jos historiasta riippuvaisiin prosesseihin lisätään melua, saadaan skaalauslaki PN (m) ∝ m-λ, jossa 0 << 1 on melutaso.

tässä paperissa esitämme johdoksen Zipf: n sanataajuuksien laista, joka perustuu yksinkertaiseen malliin lauseen / diskurssin muodostukselle. Mallin taustalla on havainto, jonka mukaan lauseen—tai yleisemmin diskurssin—muodostamisprosessi on historiasta riippuvainen otosavaruutta pienentävä prosessi. Sanoja ei johdeta sattumanvaraisesti kaikkien mahdollisten sanojen otosavaruudesta, vaan niitä käytetään tiukoissa suhteissa toisiinsa. Tiettyjen sanojen käyttö lauseessa rajoittaa voimakkaasti peräkkäisten sanojen käyttöä, mikä johtaa edellä kuvatun kaltaiseen pesimäprosessiin (tai sample-space reducing). Sample-space collapse teksteissä on tarpeen välittää mielekästä tietoa. Muuten kaikenlainen tulkinta, jopa metaforisesti tai runollisesti, kävisi mahdottomaksi. Tehkäämme kohta konkreettisemmaksi esimerkillä lauseen muodostamisesta, jossa sekä kieliopilliset että kontekstuaaliset rajoitteet (jotka vähentävät otosavaruutta) ovat työssä (kuva 2). Me muodostamme lauseen: ”susi ulvoo yössä”. Periaatteessa ensimmäinen sana ”susi” (sivuuttaen artikkelit ja prepositiot toistaiseksi) voidaan vetää kaikista mahdollisista sanoista. Oletetaan, että on olemassa n mahdollisia sanoja, ja merkitään vastaava näyte-avaruus ΩN = {1, 2,…, N}, missä jokainen luku tarkoittaa nyt yhtä sanaa. Tämä on esitetty kaavamaisesti kuvassa 2a.koska valitsimme ”susi” ΩN = {1, 2, … , n}, kuva 2B, seuraavaa sanaa ei nyt (yleensä) valita ΩN = {1, 2, … , N}, vaan sen osajoukosta (kuva 2C). Kuvittele, että osajoukko sisältää L-sanoja, meillä on ΩL ω ΩN. Tyypillisesti odotamme osajoukon sisältävän sanoja, jotka liittyvät kulmahampaiden ominaisuuksiin, biologisiin toimintoihin, muihin eläimiin jne. mutta ei kaikkia mahdollisia sanoja enää. Kun määrittelemme toisen sanan ”ulvonta” ∈ ΩL, konteksti, ymmärrettävyys ja kieliopillinen rakenne rajoittavat edelleen otosavaruuden kolmannelle sanalle ΩM ω ΩL, josta lopulta piirretään ”yö”. On selvää, että lauseiden muodostamisen nesteytyminen on samanlaista kuin sisäkkäisen nopan esimerkki aiemmin. Pesintä tapahtuu kieliopillisten ja/tai kontekstuaalisten ja/tai tulkinnallisten rajoitusten kautta.

kuva 2.

kuva 2. Kaavamainen näkemys lauseenmuodostuksen nesteytyksestä. (a) kaikkien mahdollisten n-sanojen joukosta, jotka määrittelevät alkuperäisen otosavaruuden, valitsemme ”wolf” (b). Tämä valinta rajoittaa otosavaruutta seuraavalle sanalle (oranssi ympyrä), jonka on oltava kieliopillisesti ja semanttisesti yhteensopiva ”suden” kanssa. (c) tästä joukosta valitaan ”ulvonta”, joka vähentää otosavaruutta jälleen (punainen ympyrä) (D), koska seuraavan sanan on nyt oltava yhtäpitävä sekä semanttisesti että kieliopillisesti ”Wolfin ulvonnan” kanssa. Sanajärjestyksessä näkyy sisäkkäinen rakenne. Otos-avaruuden romahduksen vaikutus on läsnä myös diskurssin muodostumisen laajemmassa kontekstissa, sillä aihe ja sen retorinen kehitys asettavat otosavaruudelle peräkkäisen sisäkkäisen rajoituksen. (Verkkoversio värillisenä.)

kieliopin merkitys pesimälle on ilmeinen. Tyypillisesti englannin kielessä ensimmäinen sana on substantiivi, jolla on subjektin kieliopillinen rooli. Se, että ensimmäinen sana on substantiivi, rajoittaa seuraavan sanan mahdollisuudet sanallisten lauseiden osajoukkoon. Valitusta verbistä riippuen seuraavat sanat ovat tyypillisesti objektin kieliopillisessa roolissa ja taas suppeampia. Käytämme termejä sample-space reduction ja sisäkkäinen hierarkkinen rakenne lauseita keskenään. Se ei ole vain kieliopillinen rakenne, joka asettaa peräkkäisiä rajoituksia näyte-tilaa sanoja lauseen edetessä; tarve ymmärrettävyys on sama vaikutus. Ilman (ainakin osittaisia) hierarkkisia rakenteita lauseiden muodostamisessa niiden tulkinnasta tulisi hyvin vaikeaa . Lauseissa olevat sisäkkäiset rakenteet eivät kuitenkaan yleensä toteudu tarkasti. Muussa tapauksessa kielen luova käyttö ja joustavuus olisi vakavasti rajoitettua. Joskus sanat voivat toimia kielellisenä saranana, mikä tarkoittaa, että se mahdollistaa paljon enemmän peräkkäisiä sanoja kuin oli käytettävissä sen edeltävään sanaan. Odotetaan, että nesteytyminen toteutuu vain jossain määrin. Epätäydellisyys mahdollistaa jonkin verran epäselvyyttä kielellinen säännöstö ja on yksi lähteistä sen hämmästyttävän monipuolisuus .

tässä asiakirjassa me kvantifioimme tekstin nestedness-asteen sen sanasiirtymämatriisista M (verkko). Luonnehtiaksemme tekstin hierarkkista rakennetta, jossa on yksi luku, määrittelemme sen nesteytyksen n M: n ominaisuudeksi

Näyttökaava

1,3

, jossa keskiarvoksi otetaan kaikki mahdolliset sanaparit (i, j). Nesteytys on luku 0: n ja 1: n väliltä ja määrittää, missä määrin otos-avaruuden vähennys on tekstissä keskimäärin.1 tiukasti sisäkkäinen järjestelmä, kuten yksi esitetty yhtälö (1,2), on n(M) = 1. Kielellisesti tiukka nesteytyminen on selvästi epärealistista.

käytämme varsinaisista englanninkielisistä teksteistä sanasiirtymämatriiseja, jotka toimivat syötteenä yksinkertaiselle mallille lauseenmuodostukselle. Sitten tutkitaan näiden keinotekoisesti tuotettujen tekstien sanataajuusjakaumia ja verrataan niitä alkutekstien jakaumiin. Ensimmäistä kertaa osoitamme, että on mahdollista suhteuttaa (paikallisen) nestedession topologinen piirre lauseenmuodostuksessa pitkien tekstien sanataajuusjakaumien maailmanlaajuisiin piirteisiin. Tässä yhteydessä ehdotamme tapaa ymmärtää sanataajuustilastoja-erityisesti Zipfin lakia-kielen todellisen rakenteellisen piirteen, nestediivisyyden avulla ilman, että on tarpeen turvautua aiempiin yrityksiin, kuten kertoviin prosesseihin, etuoikeutettuun kiintymykseen tai itseorganisoituneeseen kriittisyyteen, jotka kielen kontekstissa näyttävät joskus nojaavan vahvoihin ja epäuskottaviin oletuksiin.

malli

oletamme n-sanojen äärellisen sanaston. Mistä tahansa tekstistä saadaan empiirinen sana-siirtymämatriisi M. sanoja merkitään latinalaisilla indekseillä. Mij = 1 tarkoittaa, että tekstistä löytyy ainakin yksi tilanne, jossa sana j seuraa suoraan i: tä; jos Mij = 0, sana j ei koskaan seuraa i: tä koko tekstissä. Kuvassa 3a esitetään lajien alkuperän siirtymämatriisi. Kvantifioida näyte-avaruus yksittäisten sanojen, huomaa, että rivi i m sisältää joukon sanoja, Ωi = {K / Mik = 1}, joka seuraa suoraan sanaa i. By |Ωi|, me merkitä koko (määrä elementtejä) of Ωi, joka on useita eri sanoja, jotka voivat seurata i. Ωi on approksimaatio näyte-avaruuden tilavuus, joka on saatavilla jälkeen sana i on tapahtunut. Eri sanoissa on erilaisia otos-avaruuden tilavuuksia (kuva 3b), jossa näyte-avaruuden profiili esitetään. Parametrisoimme Profiilin muotoon yk = x, jossa x vastaa otosavaruuden tilavuutta |Ωi| ja y otosavaruuden indeksiä i. kutsumme systeemiä lineaarisesti sisäkkäiseksi, jos κ = 1 (kuten yhtälössä (1.2)), heikosti sisäkkäiseksi κ < 1 ja voimakkaasti sisäkkäiseksi, jos κ > 1 (kuten kuvassa 3B). Esimerkki heikosti sisäkkäisestä profiilista voidaan nähdä yhdessä kuvan 4c lisäyksistä. Parametrilla κ on intuitiivinen tulkinta sanan siirtymien ”struktuurisuuden” mittana. Heikosti sisäkkäisessä profiilissa (κ < 1) on monia sanoja, joita voi seurata monta eri sanaa, kun taas vahvasti sisäkkäisessä profiilissa (κ > 1) on muutamia sanoja, joita seuraa monta muuta sanaa, ja monia sanoja, joita voi seurata vain hyvin harva. Tässä mielessä κ mittaa, missä määrin sanan siirtymät ovat tehokkaasti rajoitettuja.

kuva 3.

kuva 3. Osa sana-siirtymämatriisista M niille 250 sanalle, jotka osoittavat peräkkäisten sanojen suurimman näyteavaruuden tilavuuden (a). Musta merkintä (Mij = 1) tarkoittaa, että annettua sanaa i (y-akseli) seuraa sana j (x-akseli). Ei-triviaali nesteytys nähdään sanojen tiheyden likimääräisestä suppilomaisesta muodosta. Näyteavaruuden tilavuuden todellinen arvo jokaiselle sanalle i, |Ωi/, esitetään kohdassa (b), joka saadaan siirtämällä kaikki janojen I merkinnät vasemmanpuoleisimpiin asemiin. Kutsumme (B) näyte-avaruusprofiilia.

Kuva 4.

kuva 4. α eksponentit arvojärjestyksessä olevista 10 kirjan sanataajuusjakaumista vs. amodelin (a) mallitulokset. On selvää, että malli selittää pitkälti todelliset arvot. (B) α eksponentit vs. nestedness n (M) 10 kirjaa. c) amodelin eksponentit vs. näyte-avaruusprofiilin parametri κ. Suurille sanastoille n = 100 000, At κ ∼ 1, tapahtuu nopea siirtyminen heikosta pesimästä vahvaan pesimäjärjestelmään, jossa tavataan vastaavasti amodel ∼ 0 ja amodel ∼ 1. Heikot ja vahvat pesäprofiilit on merkitty kaavamaisesti. Pienemmällä (realistisella) N: llä transitio näkyy asteikolla κ < 1, ja amodeli kattaa skaalausvaiheessa noin 0, 85: n ja 1, 1: n välisen alueen, mikä sopii kohdassa (A) nähtyyn empiiriseen vaihteluväliin. (Verkkoversio värillisenä.)

huomaa, että kuvan 3b profiiliin ei itse asiassa sovi hyvin potenssilaki; parametrisoinnin syy on puhtaasti teoreettinen argumentti, joka selviää alla. Suljemme pois sanat, joita seuraa koko tekstistä vähemmän kuin kaksi eri sanaa, eli poistamme M: stä kaikki rivit i, joille |Ωi| < 2. Tiukkaa pesimättömyyttä ei pidä sekoittaa vahvaan tai heikkoon pesintään. Jälkimmäiset ovat näyte-avaruusprofiilin ominaisuuksia.

tilastollisessa testauksessa muodostetaan kaksi satunnaistettua versiota M: stä ja merkitään ne vastaavasti Mrand: llä ja Mrow-permillä. Mrand saadaan permittaamalla satunnaisesti matriisin m yksittäisten rivien rivit. tämä pitää nollasta poikkeavien merkintöjen määrän jokaisella rivillä samana kuin alkuperäisessä matriisissa M, mutta tuhoaa sen nesteytyksen ja tiedon, mitkä sanat seuraavat toisiaan. Toinen satunnaistettu versio Mrow-perm saadaan permutoimalla matriisin M (koko) rivit. tämä pitää matriisin nesteytyksen ennallaan, mutta tuhoaa tiedon sanan siirtymistä.

kun otetaan huomioon M, muodostetaan satunnaislauseet, joiden pituus on L, seuraavalla mallilla:

— valitaan jokin N-sanoista satunnaisesti. Sano, että sana oli I. Kirjoita i sanalistalle W, niin että W = {i}.

— hyppää riville I M ja valitse satunnaisesti sana joukosta Ωi. Sano, että valittu sana on k; Päivitä sanalista W = {i, k}.

— hyppää riville K ja valitse jokin Ωk: n sanoista; sano, että saat j: n, ja päivitä W = {i, k, j}.

— toista toimenpide l kertaa. Tässä vaiheessa muodostetaan satunnainen lause.

— toista prosessi Nsent-lauseiden tuottamiseksi.

näin saadaan l × Nsent-merkinnöillä varustettu sanalista, joka on satunnainen kirja, joka syntyy varsinaisen kirjan sanansiirtomatriisilla. Wordlist, saamme sanan taajuusjakelu fmodel. Nykyinen malli on samanlainen kuin yksi, mutta eroaa kolmessa suhteessa: se mahdollistaa ei-täydellisen pesinnän n < 1, siinä ei ole eksplisiittistä kohinakomponenttia, ja sillä on kiinteä sekvenssin (lauseen) pituus.

tulokset

analysoimme mallia tietokonesimulaatioilla ja määrittelemme L = 10 ja Nsent = 100 000. Käytämme 10 satunnaisesti valittua kirjaa2 Project Gutenberg (www.gutenberg.org). jokaisen kirjan osalta määritämme sen sanaston N, sen matriisin M, sen Ωi kaikille sanoille, sen nestedness n(M) ja arvojärjestyksessä olevan sanan taajuusjakauman α eksponentin (pienin neliö sopii f(r): iin, sovitusalue välillä 5 ≤ R ≤ 200). f (r) on esitetty lajien synnylle kuvassa 1 (Sininen); eksponentti on α ∼ 0,90. Suoritamme mallin jokaisen yksittäisen kirjan parametreille luodaksemme satunnaisen tekstin. Käyttämällä empiiristä Ωi mallia varmistaa, että tämä satunnainen teksti on täsmälleen sama näyte-avaruus profiili ja nestedness kuin kirja.

mallifmodelista saatu jakauma pystyy selvästi toistamaan lajien synnyn likimääräisen potenssilain eksponentin, amodelin ∼ 0,86 (sama fit-alue). Lisäksi se tallentaa tiedot jakelun f. Suurille r-arvoille fmodelissa (r) muodostuu tasanne ennen kuin havaitaan eksponentiaalinen äärellisen koon raja-arvo. Sekä tasanne että cut-off voidaan täysin ymmärtää satunnaistetulla mallilla.

kuvassa 4a vertaamme kirjoista poimittuja α-eksponentteja mallituloksiin amodel. Malli tietenkin selittää todelliset arvot suurelta osin, hieman aliarvioimalla todelliset eksponentit. Saamme korrelaatiokertoimen ρ = 0,95 (p < 3,7 × 10-5). Kuvassa 4b osoitamme, että pesimä n(M) liittyy eksponentteihin α likimain lineaarisesti. Testaamme hypoteesia, että tuhoamalla nesteytyksen eksponentit katoavat. Satunnaistetun mrd: n avulla saadaan selville Inline kaava (sama sovitusalue), joka tuhoaa tehokkaasti voimalain. Käyttämällä toista satunnaistettua versiota, joka pitää nestedency ehjänä, Mrow-perm, matalia sanoja (jopa noin listalla n. 10), löydämme samanlaisia sanan taajuus jakaumia kuin M; kuitenkin, kuten odotettiin, power law tail (korkea riveissä) katoaa mrow-perm johtuen melun osuus satunnaistaminen (ei esitetty). Vahvistaaksemme oletuksemme, että sanojen tilaaminen on välttämätöntä, laskimme mallin sijoitusjakaumat käyttämällä transponoitua matriisia MT, mikä tarkoittaa, että käännämme mallin aikavirran. Tuloksia on kaksi. Ensinnäkin korrelaatio kirjojen eksponenttien α ja mallin Inline kaava katoaa, mikä näkyy merkityksettömänä korrelaatiokertoimena ρ = 0,47 (p = 0,17). Toiseksi eksponentit (keskiarvona 10 kirjaa) ovat huomattavasti pienempiä, Inline formula_1/Div> kuin oikea aikavirta, jolloin saadaanInline Formula_4/Div> vastaava t-testin p-arvo on 0,039.

lopuksi yritetään ymmärtää otos-avaruusprofiilin merkitys skaalaeksponenteille. Tätä varten syntyy sarja M-matriiseja, joiden profiiliparametrit ovat potenssilla κ. Kuvassa 4c mallin eksponentit amodel näistä keinotekoisesti tuotetuista M esitetään κ: n funktiona, eri kokoisille sanastoille N. Jos κ < 1 (heikko pesintä), löydämme eksponentit amodel ≈ 0 eli ei skaalauslakia. Suurelle N: lle At κ = 1 tapahtuu nopea siirtyminen amodel ≈ 1 (Zipf). Pienemmälle N: lle löytyy mutkikkaampi siirtymän käyttäytyminen, rakentaen maksimieksponentin asteikolla κ < 1. Kirja-eksponenttien α vaihteluväli on 0,85 – 1.1, joka on täsmälleen havaitun alueen realistinen sanasto koot n ∼ 1000-10 000. Varmistimme, että lauseen pituuden vaihtelut (poikkeuksena L = 1) eivät muuta raportoituja tuloksia. Yhden sanan lauseille (L = 1) saadaan ilmeisesti yhtenäinen sanataajuusjakauma ja sen seurauksena tasainen rankkajakauma, sillä useimmilla sanoilla on lähes sama sijoitus. Vaihdoimme lauseiden määrää Nsent = 104: stä 106: een, emmekä löydä käytännössä mitään vaikutusta raportoituihin tuloksiin.

Keskustelu

tässä asiakirjassa keskitytään olennaiseen ominaisuuteen, joka piilee missä tahansa koodissa, joka välittää mielekästä tietoa, kuten kielessä. Väitämme, että jos pesintää ei olisi, päädyttäisiin helposti sekaviin tilanteisiin, kuten on kuvattu J. L. Borgesin teoksessa La Biblioteca de Babel, jossa hypoteettinen kirjasto omistaa kaikki kirjat, jotka koostuvat kaikista mahdollisista merkkiyhdistelmistä täyttäen 410 sivua. Määrittelemme ja kvantifioimme jonkin verran kielikoodia. Matala nesteytysaste tarkoittaa tyypillisesti vähemmän tiukkaa hierarkiaa sanankäytössä tai tasa-arvoisempaa sanaston käyttöä kuin tekstit, joissa on korkea nesteytysaste. Teksteillä on odotetusti hyvin määritelty, mutta ei tiukasti sisäkkäinen rakenne, joka saattaa syntyä spesifisyyden (yksiselitteisten viestien välittäminen) ja joustavuuden (luovan kielenkäytön mahdollistaminen) kompromissista. Havaitsemme, että nestediivisyys vaihtelee eri tekstien välillä, mikä viittaa siihen, että erilaiset tavat käyttää sanastoa ja kielioppia toimivat. Tekstinäytteemme sisälsi kolme Shakespearen näytelmää, kolme tieteellistä tekstiä ja neljä romaania. Huomaamme, että näytelmät, jotka ovat ehkä lähimpänä puhuttua kieltä, osoittavat matalampaa pesäpakoisuutta kuin tiedekirjat. Novelleissa on eniten nesteytystä. Otos on liian pieni tekemään johtopäätöksiä siitä, onko erityyppisille teksteille ominaista tyypilliset nestedness-arvot; on kuitenkin merkittävää, että nestedness korreloi kirjakohtaisesti sanojen taajuuksien skaalauseksponenttien vaihteluiden kanssa.

tämän paperin tärkein havainto on, että yksinkertainen otosavaruuden vähentämismalli voi osoittaa, että nestedness todellakin selittää skaalauslakien syntymisen sanataajuuksissa, erityisesti Zipf: n laissa. Täsmällisemmin pystyimme yhdistämään skaalauslakien syntymisen sananvaihtomatriisin eli ”phasespacen” topologiseen rakenteeseen. Tulos on merkittävä, koska matriisi ei koodaa mitään tietoa siitä, kuinka usein sana j seuraa sanaa i, se vain kertoo, että j seurasi i ainakin kerran koko tekstissä. Matriisin satunnaiset permutaatiot, jotka tuhoavat sen pesän, eivät voi enää selittää skaalausta, kun taas permutaatiot, jotka pitävät pesän ehjänä, kertovat voimalakien olemassaolosta. Merkillepantavaa on myös se, että havaitun skaalauksen ymmärtämiseen ei tarvita (Ei-paikallisia) etuoikeutettuja, multiplikatiivisia tai itseorganisoituneita kriittisiä oletuksia, eikä muuttujia tarvita sanasiirtymämatriisien lisäksi.

se, että yksinkertainen malli on niin onnistunut toistamaan yksityiskohtaista skaalausominaisuutta sanataajuustilastoissa, saattaa viitata kielen tärkeään näkökohtaan, jota ei ole tähän mennessä huomattu; siihen, että sanojen yleiseen käyttöön vaikuttavat tilastollisesti voimakkaasti paikallisten hierarkkisten rakenteiden ja rajoitusten käyttö, joita käytämme lauseiden tuottamisessa. Uskomme, että nestediivisyyden ja skaalauseksponentin välinen läheinen suhde avaa oven sanojen taajuusjakaumien tulkinnalle tilastollisena havainnoitavana, joka riippuu vahvasti sanaston ja kieliopin käytöstä kielen sisällä. Näin ollen arvelemme, että Zipfin laki ei välttämättä ole universaali, vaan että sanankäyttötilastot riippuvat paikallisista rakenteista, jotka voivat olla erilaisia tekstien ja jopa lauseiden sisällä. Tämän asian selventämiseksi tarvitaan lisätutkimuksia.

lopuksi on syytä huomata, että otostilaa pienentävien prosessien luokka tarjoaa riippumattoman reitin skaalaukseen, jolla voi olla monenlaisia sovelluksia historiasta riippuvaisille ja ikääntyville prosesseille . Tilastollisessa fysiikassa tiedetään, että prosesseille, jotka asteittain supistavat vaiheistilaansa kehittyessään, on ominaista potenssilaki tai venytetyt eksponentiaaliset jakaumafunktiot. Nämä jakaumat syntyvät yleensä phasespace-romahduksen seurauksena .

tekijöiden osuudet

S. T. suunniteltu tutkimus, suoritetaan numeerinen analyysi ja kirjoitti käsikirjoituksen. R. H. ja B. C.-M. suorittivat numeerisen analyysin ja kirjoittivat käsikirjoituksen. B. L. teki kirjojen esikäsittelyn ja teki numeerisen analyysin.

kilpailevat intressit

kirjoittajat ilmoittavat, ettei kilpailevia taloudellisia intressejä ole.

Rahoitus

tätä työtä tuki Itävallan Tiederahasto FWF kpp23378fw-ohjelmalla.

alaviitteet

loppuviitteet

1 Huomaa, että pesimäindikaattori yhtälössä (1.3) on kohtuullinen vain siinä tapauksessa, että kahden sanan I, j, joilla on sama näyteavaruus, todennäköisyys on hyvin pieni, p(Ωi = Ωj) ≈ 0. Tämä pätee tarkasteltuihin siirtymämatriiseihin.

2 erityisesti käytämme Theodore Dreiserin amerikkalaista tragediaa; Charles Darwinin Lajien synty, ihmisen synty ja kasvien eri muodot; Charles Dickensin Tale of two cities ja David Copperfield; William Shakespearen Romeo ja Julia, Henry V ja Hamlet; ja James Joycen Odysseus. Sanasto vaihtelee n = 3102 (Romeo ja Julia) ja 22 000 (Ulysses) sanaa.

© 2015 the Author(s) Published by the Royal Society. Kaikki oikeudet pidätetään.
  • 1
    Zipf GK. 1949ihmisen käyttäytyminen ja periaate vähiten vaivaa. Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953an informational theory of the statistical structure of language. Kommunikaatioteoria (toim. & Jackson W). Lontoo, Iso-Britannia: Butterworths. Google Scholar
  • 3
    Harremoës P& Topsøe F. 2001Maximum entropy fundamentals. Entropia 3, 191-226. (doi:10, 3390/e3030191). Crossref, Google Scholar
  • 4
    Ferrer i Cancho R& Solé RV. 2003viimeinen ponnistus ja ihmiskielen skaalauksen alkuperä. Proc. Natl Acad. Sci. USA 100, 788-791. (doi: 10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& Solé RV. 2011häviö Zipf: n lain kehitys viestinnän. Liikuntaa. Rev. E 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, ISI, Google Scholar
  • 6
    Simon HA. 1955 skew-jakelutoimintojen luokassa. Biometrika 42, 425-440. (doi: 10.1093/biomet / 42.3-4.425). Crossref, ISI, Google Scholar
  • 7
    Zanette DH& Montemurro MA. 2005dynamics of text generation with realistic Zipf ’ s distribution. J. Quant. Kielitieteilijä. 12, 29–40. (doi:10.1080/09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992random-teksteissä esiintyy Zipf: n lakimaista sanataajuusjakaumaa. IEEE Trans. Ilmoittaa. Teoria 38, 1842-1845. (doi:10.1109/18.165464). Crossref, ISI, Google Scholar
  • 9
    Miller GA. 1957 ajoittaisen hiljaisuuden vaikutuksia. On. J. Psychol. 70, 311–314. (doi:10.2307/1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller GA& Chomsky N. 1963finitary models of language users. Handbook of mathematical psychology, vol. 2 (eds, Luce RD, Bush r& Galanter E), S.419-491. New York, NY: Wiley. Google Scholar
  • 11
    Kosmidis K, Kalampokis a& Argyrakis P. 2006Statistical mechanical approach to human language. Liikuntaa. 366, 495-502. (doi: 10.1016 / J. physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005on the power-law distribution of language family sions. J. Kielitieteilijä. 41, 117–131. (doi:10.1017/S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini a& Menczer F. 2009modeling statistical properties of written text. PLoS yksi 4, e5372. (doi: 10.1371 / lehti.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette DH& Montemurro MA. 2011 kieliperheiden sanajärjestyksen universaalinen entropia. PLoS yksi 6, e19875. (doi: 10.1371 / lehti.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda G& Corral A. 2013a scaling law beyond Zipf’ s law and its relation to Heaps ’ law. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan X-Y& Minnhagen P. 2014Comment on ”scaling law beyond Zipf’ s law and its relation to Heaps ” law.’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura k& Hatano N. 2002 universality of Zipf ’ s law. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143 / JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. 2001ZIPF Jakelu Yhdysvaltain yritysten koot. Science 293, 1818-1820. (doi:10.1126/tiede.1062081). Crossref, PubMed, ISI, Google Scholar
  • 19
    Makse H-A, Havlin s& Stanley HE. 1995 kaupunkien kasvumallien mallintaminen. Luonto 377, 608-612. (doi:10.1038 / 377608a0). Crossref, ISI, Google Scholar
  • 20
    Krugman P. 1996confronting the mystery of urban hierarchy. J. Jpn Int. Ekonomi. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blank a& Solomon S. 2000power laws in cities population, financial markets and internet sites. Liikuntaa. 287, 279-288. (doi:10.1016/S0378-4371 (00)00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J& Moses M-E. 2007globaalikuviot kaupungin kokojakaumista ja niiden perustekijät. PLoS yksi 2, 934. (doi: 10.1371 / lehti.pone.0000934). Crossref, ISI, Google Scholar
  • 23
    Stanley HE, Buldyrev S, Goldberger A, Havlin s, Peng C& Simons M. 1999scaling features of noncoding DNA. Liikuntaa. A 273, 1-18. (doi:10.1016/S0378-4371 (99)00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-h& Manrubia s-C. 2001Vertical transmission of culture and the distribution of family names. Liikuntaa. 295, 1-8. (doi:10.1016/S0378-4371 (01)00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V. 1896cours d ’ Economie Politique. Geneve, Sveitsi: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu m& Takayasu H. 1999zipfin laki yritysten tulonjaosta. Liikuntaa. A 269, 125-131. (doi:10.1016/S0378-4371 (99)00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003a theory of power-law distributions in financial market flowings. Nature 423, 267-270. (doi: 10.1038 / nature01624). Crossref, PubMed, ISI, Google Scholar
  • 28
    Reed WJ& Hughes BD. 2002 geeniperheistä ja suvuista tuloihin ja Internetin tiedostokokoihin: miksi valtalait ovat niin yleisiä luonnossa. Liikuntaa. Rev. E 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner s, Szell m& Sinatra R. 2012ihmisten käyttäytymissekvenssien hyvän käytöksen, skaalauksen ja Zipf-lakienergence in human behavioral sequences in an online world. PLoS yksi 7, e29796. (doi: 10.1371 / lehti.pone.0029796). Crossref, PubMed, ISI, Google Scholar
  • 30
    Newman MEJ. 2005Power lait, Pareto jakelut ja Zipf laki. Halpamainen. Liikuntaa. 46, 323–351. (doi:10.1080/00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon s& Levy M. 1996pontaaninen skaalaus emergence yleisissä stokastisissa järjestelmissä. Int. J. Mod. Liikuntaa. C 7, 745-751. (doi:10.1142/S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai O, Biham o& Solomon S. 1999power-law distributions and Lévy-stable intention flaughters in stokastic systems of many autocatalytic elements. Liikuntaa. Rev. E 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu ET& Hamilton RJ. 1991valanches of the distribution of solar flares. Astrofyysejä. J. 380, 89–92. (doi:10.1086/186180). Crossref, ISI, Google Scholar
  • 34
    Barabási a-l& Albert R. 1999havainto skaalautumisesta satunnaisverkoissa. Science 286, 509-512. (doi:10.1126/tiede.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang C& Wiesenfeld K. 1987self-organized criticality: an explanation of the 1/f noise. Liikuntaa. Pastori Lett. 59, 381–384. (doi: 10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y& Sornette D. 2008 theory of Zipf ’ s law and of general power law distributions with Gibratin law of proportional growth. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001explaining the epäyhtenäinen distribution of numbers in nature: the laws of Benford and Zipf. Liikuntaa. 293, 297-304. (doi:10.1016/S0378-4371 (00)00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner s& Tsallis C. 2005non extensible aspects of self-organized scale-free gas-like networks. Europhyt. Lett. 72, 197–203. (doi:10.1209/epl/i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra b& Solé RV. 2010 Zipf: n lain universaalisuus. Liikuntaa. Rev. E 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
  • 40
    Montroll E-W& Shlesinger M-F. 1982On 1 / f melu ja muut jakelut pitkillä hännillä. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi: 10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel r& Thurner S. 2015 understanding scaling through history-dependent processes with collapsing sample space. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi: 10.1073 / pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
  • 42
    Kac M. 1989a historiariippuvainen random sequence defined by Ulam. ADV. Appl. Matematiikka. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI,Google Scholar
  • 45
    Hanel R& Thurner S. 2013generalised (c, d)-entropia and aging random walks. Entropia 15, 5324-5337. (doi: 10.3390 / e15125324). Crossref, ISI, Google Scholar
  • 46
    Partee BH. 1976montaguen kielioppi. New York, NY: Academic Press. Google Scholar
  • 47
    Fortuny J& Corominas-Murtra B. 2013on the origin of ambiguity in efficient communication. J. Logic Lang. Ilmoittaa. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *