Articles

la Comprensione Zipf legge di parola frequenze attraverso il campione-spazio crollo frase di formazione

Introduzione

Scritto testi mostrano la caratteristica notevole che l’ordine di distribuzione della frequenza delle parole segue un approssimativo legge di potenza

Display Formula

1.1

dove r è il rango che viene assegnato a ogni parola nel testo. Per la maggior parte dei testi, indipendentemente dalla lingua, dal momento della creazione, dal genere della letteratura, dal suo scopo, ecc. si trova che α 1 1, che viene indicato come legge di Zipf . Nella figura 1, la parola frequenza è mostrata per il testo di Darwin, L’origine delle specie. La ricerca di una comprensione dell’origine di questa regolarità statistica è andata avanti per quasi un secolo. Lo stesso Zipf ha offerto una spiegazione qualitativa basata sugli sforzi investiti in eventi di comunicazione da parte di un mittente e di un destinatario . Queste idee sono state successivamente formalizzate all’interno di un quadro teorico-informativo . Il primo modello quantitativo basato su ipotesi linguistiche sulla generazione del testo è stato proposto da Simon . Il modello presuppone che quando il contesto emerge nella generazione di un testo, le parole che sono già apparse nel testo sono favorite rispetto ad altre. Con il semplice presupposto che le parole che sono apparse in precedenza vengono aggiunte al testo con una probabilità proporzionale al loro aspetto precedente (allegato preferenziale), e supponendo che le parole che finora non sono apparse vengano aggiunte a un tasso costante, è possibile derivare la legge di Zipf, dato che quest’ultimo tasso è basso. Questo modello di attaccamento preferenziale è stato perfezionato implementando il fatto empirico che il tasso di comparsa di nuove parole diminuisce all’aumentare della lunghezza dei testi . È stato dimostrato in opere classiche che modelli dattiloscritti casuali possono portare a distribuzioni simili a Zipf delle frequenze delle parole . Tuttavia, questi lavori si basano su ipotesi irrealistiche sulle distribuzioni di parole e portano a testi non strutturati e non interpretabili. Tuttavia, come mostreremo, la struttura grammaticale, insieme ai meccanismi di generazione del discorso, può svolgere un ruolo essenziale nell’origine della legge di Zipf in un contesto realistico. È importante sottolineare che lo studio statistico dettagliato delle proprietà del linguaggio non finisce qui; è stato presentato un lavoro importante al di là della legge di Zipf (ad esempio ). Studi recenti trattano la dipendenza dettagliata degli esponenti di scala sulla lunghezza del corpo del testo in studio .

Figura 1.

Figura 1. La distribuzione ordinata in classifica delle frequenze delle parole per l’origine delle specie (blu) mostra una legge di potenza approssimativa con una pendenza di circa α 0 0.9. Il risultato del modello (linea rossa) spiega non solo l’esponente della legge di potenza, ma cattura anche i dettagli della distribuzione. Il cut-off esponenziale può essere spiegato dalla versione randomizzata del modello.

La legge di Zipf non è limitata alle frequenze delle parole, ma appare in innumerevoli sistemi e processi apparentemente non correlati . Solo per citarne alcuni, è stato trovato nelle statistiche di dimensioni aziendali , dimensioni delle città , il genoma , nomi di famiglia , reddito , mercati finanziari , dimensioni dei file Internet, o il comportamento umano ; per ulteriori esempi vedere . Ci sono stati enormi sforzi per comprendere l’origine della legge di Zipf, e più in generale l’origine del ridimensionamento in sistemi complessi. Ci sono tre vie principali per scalare: processi moltiplicativi , processi preferenziali e criticità auto-organizzata . Sono stati proposti diversi altri meccanismi più o meno correlati a questi percorsi di base per il ridimensionamento (ad esempio ).

Recentemente, è stata introdotta una quarta via indipendente al ridimensionamento sulla base di processi stocastici che riducono i loro potenziali risultati (spazio campione) nel tempo . Questi sono processi casuali dipendenti dalla storia che sono stati studiati in diversi contesti nella letteratura matematica e più recentemente nel contesto delle leggi di scala . Un esempio di processi di riduzione dello spazio campione è il seguente. Pensa a un set di N dadi in cui il dado numero 1 ha una faccia, il dado numero 2 ha due facce (moneta), il dado numero 3 ha tre facce e così via. Die numero N ha N facce. Inizia con la scelta di uno dei dadi N a caso, dire dadi numero i. Gettarlo e registrare il valore nominale ottenuto, che era dire k. Poi prendere die numero k-1 gettarlo, ottenere j, record j, prendere die numero j-1, gettarlo, eccetera. Continuare a lanciare i dadi in questo modo fino a quando si lancia 1 per la prima volta. Poiché non esiste un dado con meno di 1 facce, il processo termina qui. La sequenza di valori nominali registrati nella prescrizione precedente (i, k, j, … , 1) è ovviamente strettamente ordinata o nidificata, i > k > j >> 1. In, è stato dimostrato rigorosamente che se questo processo viene ripetuto molte volte, la distribuzione dei risultati (valori facciali 1, 2, … , N) è una legge Zipf esatta, cioè la probabilità di osservare un valore nominale m nel processo di cui sopra(sequenza di lanci) è esattamente PN (m) = m−1, dato che iniziamo con N dadi. Si noti che è necessario mantenere N fisso durante le ripetizioni del processo per ottenere l’esatta legge Zipf. Se N varia durante le ripetizioni, chiaramente il ridimensionamento Zipf è presente in modo asintotico per i ranghi alti; tuttavia, a causa della miscelazione di diversi N, le deviazioni dall’esatta legge Zipf appariranno per i ranghi bassi.

Più formalmente, ogni dado N ha uno spazio campione, indicato con ΩN = {1, 2,…, N}, che è il numero di risultati potenziali, cioè il numero di facce di dadi N. Lanciare questi dadi nel modo precedente dà origine a una sequenza di spazi campione nidificati

Visualizza Formula

1.2

La nidificazione degli spazi campione in una sequenza dipendente dalla storia è al centro dell’origine delle leggi di ridimensionamento in questo tipo di processo. Per i dettagli, vedere dove viene anche mostrato che se il rumore viene aggiunto ai processi dipendenti dalla cronologia, si ottiene la legge di ridimensionamento PN(m) m m−λ, dove 0 << 1 è il livello di rumore.

In questo articolo, presentiamo una derivazione della legge di Zipf delle frequenze delle parole, basata su un semplice modello per la formazione di frasi / discorsi. Il modello è motivato dall’osservazione che il processo di formazione di una frase—o più in generale un discorso—è un processo di riduzione dello spazio campione dipendente dalla storia. Le parole non sono estratte casualmente dallo spazio campione di tutte le parole possibili, ma sono usate in strette relazioni l’una con l’altra. L’uso di parole specifiche in una frase limita fortemente l’uso di parole consecutive, portando a un processo di annidamento (o riduzione dello spazio campione), simile a quello descritto sopra. Il collasso dello spazio campione nei testi è necessario per trasmettere informazioni significative. Altrimenti, qualsiasi interpretazione, anche in termini metaforici o poetici, diventerebbe impossibile. Rendiamo il punto più concreto con un esempio per la formazione di una frase, dove sia i vincoli grammaticali che contestuali (che riducono lo spazio campione) sono al lavoro (figura 2). Formiamo la frase: ‘Il lupo ulula nella notte’. In linea di principio, la prima parola “Il lupo” (ignorando articoli e preposizioni per il momento) può essere tratta da tutte le parole possibili. Supponiamo che esistano n parole possibili e denoti il rispettivo spazio campione con ΩN = {1 , 2,…, N}, dove ogni numero ora rappresenta una parola. Questo è schematicamente illustrato in figura 2a. Dato che abbiamo scelto ‘Il lupo’ da ΩN = {1, 2, … , N}, figura 2b, la parola successiva ora (di solito) non sarà scelta da ΩN = {1, 2, … , N}, ma da un sottoinsieme di esso (figura 2c). Immagina che il sottoinsieme contenga parole L, abbiamo ΩL Ω ΩN. In genere, ci aspettiamo che il sottoinsieme contenga parole associate a proprietà di canini, funzioni biologiche, altri animali, ecc. ma non tutte le parole possibili più. Una volta specificata la seconda parola ‘ulula’ Ω ΩL, il contesto, l’intelligibilità e la struttura grammaticale limitano ulteriormente lo spazio campione per la terza parola a ΩM Ω ΩL, da cui infine disegniamo ‘notte’. Ovviamente, la nidificazione nella formazione delle frasi è simile all’esempio dei dadi annidati prima. L’annidamento è imposto attraverso vincoli grammaticali e/o contestuali e/o interpretativi.

Figura 2.

Figura 2. Visione schematica della nidificazione nella formazione delle frasi. (a) Tra tutte le potenziali N parole che definiscono lo spazio campione iniziale, scegliamo ‘lupo’ (b). Questa scelta limita lo spazio campione per la parola successiva (cerchio arancione) che deve essere grammaticalmente e semanticamente compatibile con ‘lupo’. (c) Da questo insieme, scegliamo ‘ululati’, che riduce di nuovo lo spazio campione (cerchio rosso) (d), poiché la parola successiva deve ora essere coerente sia semanticamente che grammaticalmente con ‘Il lupo ulula’. La sequenza di parole mostra una struttura annidata. L’effetto del collasso dello spazio campione è presente anche nel più ampio contesto della formazione del discorso, poiché un argomento e il suo sviluppo retorico impongono un vincolo nidificato successivo allo spazio campione. (Versione online a colori.)

Il ruolo della grammatica per il nesting è ovvio. Tipicamente in inglese, la prima parola è un nome con il ruolo grammaticale del soggetto. Il fatto che la prima parola sia un sostantivo limita le possibilità per la parola successiva al sottoinsieme di frasi verbali. A seconda del particolare verbo scelto, le parole che possono ora seguire in genere svolgono il ruolo grammaticale dell’oggetto e sono di nuovo più limitate. Usiamo i termini riduzione dello spazio campione e struttura gerarchica nidificata in frasi in modo intercambiabile. Non è solo la struttura grammaticale che impone restrizioni consecutive sullo spazio campione delle parole mentre la frase progredisce; la necessità di intelligibilità ha lo stesso effetto. Senza strutture gerarchiche (almeno parziali) nella formazione delle frasi, la loro interpretazione diventerebbe molto difficile . Tuttavia, le strutture annidate nelle frasi generalmente non saranno realizzate rigorosamente. Altrimenti l’uso creativo e la flessibilità del linguaggio sarebbero seriamente limitati. A volte le parole possono fungere da cerniera linguistica, il che significa che consente molte più parole consecutive di quelle disponibili per la parola precedente. Ci si aspetta che la nidificazione si realizzi solo in una certa misura. La nidificazione imperfetta consente un certo grado di ambiguità nel codice linguistico ed è una delle fonti della sua sorprendente versatilità .

In questo articolo, quantifichiamo il grado di nidificazione di un testo dalla sua matrice di transizione delle parole M (rete). Per caratterizzare la struttura gerarchica di un testo con un singolo numero, definiamo la sua nidificazione n come una proprietà di M da

Visualizza la formula

1.3

dove la media viene rilevata su tutte le possibili coppie di parole (i, j). Nestedness è un numero compreso tra 0 e 1 e specifica in che misura la riduzione dello spazio campione è presente in media nel testo.1 Un sistema strettamente annidato, come quello mostrato nell’equazione (1.2), ha n(M) = 1. In termini linguistici, la rigida nidificazione è chiaramente irrealistica.

Usiamo matrici di transizione di parole da testi inglesi reali, che servono come input per un modello semplice per la formazione di frasi. Quindi studiamo le distribuzioni di frequenza delle parole di questi testi prodotti artificialmente e li confrontiamo con le distribuzioni dei testi originali. Per la prima volta, mostriamo che è possibile mettere in relazione la caratteristica topologica della nidificazione (locale) nella formazione delle frasi con le caratteristiche globali delle distribuzioni di frequenza delle parole di testi lunghi. A questo proposito, proponiamo un modo per comprendere la statistica delle frequenze delle parole-la legge di Zipf in particolare-dall’effettiva caratteristica strutturale del linguaggio, l’annidamento, senza la necessità di ricorrere a tentativi precedenti tra cui processi moltiplicativi, attaccamento preferenziale o criticità auto-organizzate, che, nel contesto del linguaggio, a volte sembrano poggiare su ipotesi forti e non plausibili.

Modello

Assumiamo un vocabolario finito di N parole. Da un dato testo, otteniamo una matrice empirica di transizione delle parole M. Le parole sono etichettate con indici latini. Mij = 1 significa che nel testo troviamo almeno un’occasione in cui la parola j segue direttamente i; se Mij = 0, la parola j non segue mai i nell’intero testo. La figura 3a mostra la matrice di transizione per l’origine delle specie. Per quantificare il campione spazio per singole parole, di notare che la riga i in M contiene l’insieme di parole, Ωi = {k|Mik = 1}, direttamente a seguire la parola io. Da |Ωi|, ci danno la dimensione (numero di elementi) di Ωi, che è il numero di parole diverse che possono seguire. Ωi è un’approssimazione per il campione-il volume dello spazio che è accessibile dopo parola, mi si è verificato. Parole diverse hanno diversi volumi di spazio campione (figura 3b), dove viene mostrato il profilo di spazio campione. Abbiamo parametrizzare il profilo yk = x, dove x corrisponde al campione-il volume dello spazio, |Ωi| e y per il campione spazio-indice i. Chiamiamo un sistema linearmente se nidificata κ = 1 (come nell’equazione (1.2)), debolmente nidificati per κ < 1 e fortemente se nidificata κ > 1 (come in figura 3b). Un esempio per un profilo debolmente annidato può essere visto in uno degli inserti della figura 4c. Il parametro κ ha un’interpretazione intuitiva in termini di una misura di “strutturazione” delle transizioni di parole. Nel caso di un debole profilo nidificata (κ < 1) ci sono molte parole che possono essere seguiti da molte parole diverse, mentre in un forte profilo nidificata (κ > 1), ci sono alcune parole che sono seguite da molte altre parole, molte parole che può essere seguita solo da pochi. In questo senso, κ misura in che misura le transizioni di parole sono effettivamente vincolate.

Figura 3.

Figura 3. Sezione della matrice di transizione delle parole M per le 250 parole che mostrano il più grande volume di spazio campione di parole consecutive (a). Una voce nera (Mij = 1) significa che una data parola i (asse y) è seguita dalla parola j (asse x). La nidificazione non banale è vista dalla forma approssimativa a imbuto della densità delle parole. Il valore effettivo del volume dello spazio campione per ogni parola i, / Ωi/, è mostrato in (b), che si ottiene spostando tutte le voci delle righe i nelle posizioni più a sinistra. Chiamiamo (b) il profilo dello spazio campione.

Figura 4.

Figura 4. α esponenti da distribuzioni di frequenza delle parole ordinate in ordine di classifica di 10 libri rispetto ai risultati del modello per amodel (a). Chiaramente, il modello spiega i valori effettivi in larga misura. (b) α esponenti contro nidificazione n (M) dei 10 libri. (c) esponenti di amodel rispetto al parametro del profilo dello spazio campione κ. Per i vocabolari di grandi dimensioni N = 100 000, a κ 1 1, si verifica una transizione veloce dal regime di nidificazione debole al regime di nidificazione forte, dove troviamo amodel respectively 0 e amodel respectively 1, rispettivamente. I profili di nidificazione deboli e forti sono indicati schematicamente. Per N più piccolo (realistico), la transizione appare in κ < 1, e amodel copre un intervallo compreso tra circa 0,85 e 1,1 nella fase di scala, che si adatta all’intervallo empirico visto in (a). (Versione online a colori.)

Si noti che il profilo in figura 3b non è in realtà ben dotato di una legge di potenza; il motivo della parametrizzazione è per un argomento puramente teorico che diventerà chiaro di seguito. Escludiamo le parole che sono seguite da meno di due parole diverse nell’intero testo, cioè rimuoviamo tutte le righe i da M per le quali |Ωi| < 2. La nidificazione rigorosa non deve essere confusa con la nidificazione forte o debole. Queste ultime sono proprietà del profilo dello spazio campione.

Per i test statistici, costruiamo due versioni randomizzate di M e le denotiamo rispettivamente con Mrand e Mrow-perm. Mrand è ottenuto permutando casualmente le righe delle singole righe della matrice M. Questo mantiene il numero di voci diverse da zero in ogni riga lo stesso della matrice originale M, ma distrugge la sua nidificazione e le informazioni che le parole si susseguono. La seconda versione randomizzata Mrow-perm si ottiene permutando le (intere) righe della matrice M. Ciò mantiene invariata la nidificazione della matrice, ma distrugge le informazioni sulle transizioni di parole.

Dato M, costruiamo frasi casuali di lunghezza L con il seguente modello:

— Scegli una delle N parole in modo casuale. Dì che la parola era i. Scrivi i in una lista di parole W, in modo che W = {i}.

— Salta alla riga i in M e scegli casualmente una parola dal set Ωi. Dì che la parola scelta è k; aggiorna la lista di parole W = {i, k}.

— Vai alla riga k e scegli una delle parole da Ωk; dì che ottieni j e aggiorna W = {i, k, j}.

— Ripetere la procedura L volte. In questa fase, si forma una frase casuale.

— Ripetere il processo per produrre frasi Nsent.

In questo modo, otteniamo un elenco di parole con voci L × Nsent, che è un libro casuale generato con la matrice di transizione delle parole di un libro reale. Dalla lista di parole, otteniamo la parola distribuzione di frequenza fmodel. Il modello attuale è simile a quello in ma differisce in tre aspetti: consente il nesting non perfetto n < 1, non ha alcun componente di rumore esplicito e ha una lunghezza di sequenza fissa (frase).

Risultati

Analizziamo il modello con simulazioni al computer, specificando L = 10 e Nsent = 100 000. Usiamo 10 libri scelti a caso2 dal Progetto Gutenberg (www.gutenberg.org). Per ogni libro, determiniamo il suo vocabolario N, la sua matrice M, il suo Ωi per tutte le parole, la sua nidificazione n(M) e l’esponente della distribuzione della frequenza delle parole ordinata dal rango α (il minimo quadrato si adatta a f(r), intervallo di adattamento tra 5 ≤ r ≤ 200). f (r) è mostrato per L’origine delle specie in figura 1 (blu); l’esponente è α 0 0.90. Eseguiamo il modello per i parametri di ogni singolo libro per generare un testo casuale. L’uso dell’Ωi empirico per il modello assicura che questo testo casuale abbia esattamente lo stesso profilo di spazio campione e la nidificazione del libro.

La distribuzione ottenuta dal modello fmodel è chiaramente in grado di riprodurre l’esponente approssimativo della legge di potenza per l’origine delle specie, amodel 0 0.86 (stesso intervallo di adattamento). Inoltre, cattura i dettagli della distribuzione f. Per grandi valori di r in fmodel (r), si sta formando un plateau prima che si osservi il cut-off esponenziale delle dimensioni finite. Sia plateau che cut-off possono essere pienamente compresi con il modello randomizzato.

In figura 4a, confrontiamo gli esponenti α estratti dai libri con i risultati del modello amodel. Il modello spiega ovviamente i valori effettivi in larga misura, sottovalutando leggermente gli esponenti effettivi. Otteniamo un coefficiente di correlazione di ρ = 0,95 (p < 3,7 × 10-5). Nella figura 4b, mostriamo che il nesting n (M) è correlato agli esponenti α in modo approssimativamente lineare. Testiamo l’ipotesi che distruggendo nestedness gli esponenti svaniranno. Usando il Mrand randomizzato, troviamoFormula inline (stesso intervallo di adattamento), che distrugge efficacemente la legge di potenza. Usando l’altra versione randomizzata che mantiene intatta la nidificazione, Mrow-perm, per parole di basso rango (fino a circa rango ca. 10), troviamo distribuzioni di frequenza di parola simili come per M; tuttavia, come previsto, la coda della legge di potenza (alti ranghi) scompare per Mrow-perm a causa del contributo di rumore della randomizzazione (non mostrato). Per convalidare la nostra ipotesi che l’ordinamento delle parole sia essenziale, abbiamo calcolato le distribuzioni di rango del modello utilizzando la matrice trasposta MT, il che significa che invertiamo il flusso temporale nel modello. Troviamo due risultati. In primo luogo, la correlazione tra gli esponenti dei libri α e il modello Inline Formula svanisce, riflessa da un coefficiente di correlazione insignificante ρ = 0.47 (p = 0.17). In secondo luogo, gli esponenti (in media sui 10 libri) sono significativamente più piccoli, Formula inline rispetto al flusso temporale corretto, dove otteniamo Formula inline Il corrispondente p-il valore di un t-test è 0,039.

Infine, cerchiamo di capire l’importanza del profilo campione-spazio sugli esponenti di scala. Per questo, generiamo una serie di matrici M che hanno un profilo parametrizzato con una potenza κ. Nella figura 4c, gli esponenti del modello amodel da questi M generati artificialmente sono mostrati come una funzione di κ, per varie dimensioni del vocabolario N. Per κ < 1 (nidificazione debole), troviamo esponenti amodel ≈ 0, cioè nessuna legge di ridimensionamento. Per grande N a κ = 1, si verifica una transizione veloce a amodel ≈ 1 (Zipf). Per N più piccolo, troviamo un comportamento più complicato della transizione, costruendo un esponente massimo a κ< 1. La gamma di esponenti del libro α varia tra 0,85 e 1.1, che è esattamente l’intervallo osservato per le dimensioni del vocabolario realistico N 1 1000-10 000. Abbiamo verificato che le variazioni nella lunghezza della frase (ad eccezione di L = 1) non modificano i risultati riportati. Per le frasi di una parola (L = 1), ovviamente otteniamo una distribuzione di frequenza delle parole uniforme e, di conseguenza, una distribuzione di rango piatto, poiché la maggior parte delle parole ha quasi lo stesso rango. Abbiamo variato il numero di frasi da Nsent = 104 a 106 e non abbiamo trovato praticamente alcuna influenza sui risultati riportati.

Discussione

In questo articolo, ci concentriamo sulla proprietà fondamentale di nestedness in qualsiasi codice che trasmette informazioni significative, come il linguaggio. Noi sosteniamo che se la nidificazione non fosse presente, si finirebbe facilmente in situazioni confuse come descritto in La Biblioteca de Babel di J. L. Borges, dove un’ipotetica biblioteca possiede tutti i libri composti da tutte le possibili combinazioni di caratteri che riempiono 410 pagine. Definiamo e quantifichiamo un grado di nidificazione nel codice linguistico. Bassi gradi di nidificazione in genere implicano una gerarchia meno rigorosa sull’uso delle parole o un uso più egualitario del vocabolario, rispetto ai testi con alta nidificazione. Come previsto, i testi hanno una struttura ben definita, ma non strettamente annidata, che potrebbe derivare da un compromesso di specificità (per trasmettere messaggi inequivocabili) e flessibilità (per consentire un uso creativo del linguaggio). Troviamo che nidificazione varia tra i diversi testi, suggerendo che diversi modi di usare il vocabolario e la grammatica sono al lavoro. Il nostro campione di testi comprendeva tre opere teatrali di Shakespeare, tre testi scientifici e quattro romanzi. Troviamo che le opere teatrali, forse più vicine alla lingua parlata, mostrano una nidificazione inferiore rispetto ai libri di scienza. I romanzi mostrano i più alti livelli di nidificazione. Il campione è troppo piccolo per trarre conclusioni sul fatto che diversi tipi di testi siano caratterizzati da valori tipici della nidificazione; tuttavia è notevole che la nidificazione sia correlata con le variazioni degli esponenti di scala delle frequenze delle parole su base libro per libro.

La scoperta principale di questo articolo è che un semplice modello di riduzione dello spazio campione può mostrare che la nidificazione spiega effettivamente l’emergere di leggi di ridimensionamento nelle frequenze di parole, in particolare, la legge di Zipf. Più precisamente, siamo stati in grado di mettere in relazione l’emergere di leggi di ridimensionamento con la struttura topologica della matrice di transizione delle parole, o “phasespace”. Il risultato è notevole in quanto la matrice non codifica alcuna informazione su quanto spesso la parola j segue la parola i, dice solo che j ha seguito i almeno una volta nell’intero testo. Le permutazioni casuali della matrice che distruggono la sua nidificazione non possono più spiegare il ridimensionamento, mentre le permutazioni che mantengono intatta la nidificazione indicano l’esistenza delle leggi di potere. È inoltre notevole che non sono necessarie ipotesi critiche preferenziali, moltiplicative o auto-organizzate (non locali) per comprendere il ridimensionamento osservato e che non sono necessari parametri oltre le matrici di transizione delle parole.

Il fatto che il modello semplice sia così efficace nel riprodurre la proprietà di ridimensionamento dettagliata nelle statistiche di frequenza delle parole potrebbe indicare un aspetto importante del linguaggio che non è stato notato finora; il fatto che l’uso generale delle parole sia statisticamente fortemente influenzato dall’uso di strutture gerarchiche locali e vincoli che usiamo nella generazione di frasi. Crediamo che la stretta relazione tra nestedness e l’esponente di scaling apra la porta a un’interpretazione delle distribuzioni di frequenza delle parole come osservabile statistico che dipende fortemente dall’uso del vocabolario e della grammatica all’interno di una lingua. Di conseguenza, ipotizziamo che la legge di Zipf potrebbe non essere universale, ma che le statistiche sull’uso delle parole dipendono da strutture locali che possono essere diverse tra i testi e persino all’interno delle frasi. Sono necessarie ulteriori ricerche per chiarire questo punto.

Infine, vale la pena notare che la classe di processi di riduzione dello spazio campione fornisce un percorso indipendente per il ridimensionamento che potrebbe avere una vasta gamma di applicazioni per processi dipendenti dalla storia e dall’invecchiamento . Nella fisica statistica, è noto che i processi che riducono successivamente le loro fasispazio mentre si svolgono sono caratterizzati dalla legge di potenza o dalle funzioni di distribuzione esponenziale allungata. Queste distribuzioni sorgono genericamente come conseguenza del collasso di phasespace .

Contributi degli autori

S. T. ha progettato la ricerca, eseguito l’analisi numerica e ha scritto il manoscritto. R. H. e B. C.-M. eseguirono analisi numeriche e scrissero il manoscritto. B. L. ha fatto la pre-elaborazione dei libri e ha eseguito analisi numeriche.

Interessi concorrenti

Gli autori non dichiarano interessi finanziari concorrenti.

Finanziamento

Questo lavoro è stato sostenuto dal Fondo scientifico austriaco FWF sotto KPP23378FW.

Note a piè di pagina

Note di chiusura

1 Si noti che l’indicatore di nidificazione nell’equazione (1.3) è ragionevole solo per il caso in cui la probabilità di due parole i, j che hanno lo stesso spazio campione è molto bassa, p(Ωi = Ωj) ≈ 0. Questo è il caso delle matrici di transizione considerate.

2 In particolare, usiamo Una tragedia americana, di Theodore Dreiser; L’origine delle specie, La discesa dell’uomo e le diverse forme di piante di Charles Darwin; Racconto di due città e David Copperfield di Charles Dickens; Romeo e Giulietta, Enrico V e Amleto di William Shakespeare; e Ulisse di James Joyce. Il vocabolario varia da N = 3102 (Romeo e Giulietta) a 22 000 (Ulisse) parole.

© 2015 Gli autori pubblicati dalla Royal Society. Tutti i diritti riservati.
  • 1
    Zipf GK. 1949comportamento umano e principio del minimo sforzo. La lettura, MA: Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953una teoria informativa della struttura statistica del linguaggio. Teoria della comunicazione (ed. & Jackson W). Londra, Regno Unito: Butterworths. Google Scholar
  • 3
    Harremoës P & Topsøe F. 2001Maximum entropy fundamentals. Entropia 3, 191-226. (doi:10.3390/e3030191). Crossref, Google Scholar
  • 4
    Ferrer i Cancho R& Solé RV. 2003Least effort and the origins of scaling in human language. Proc. Natl Acad. Sic. USA 100, 788-791. (doi: 10.1073 / pnas.0335980100). Crossref, PubMed, ISI, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& Solé RV. 2011Emergenza della legge Zipf nell’evoluzione della comunicazione. Phys. Rev. E 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, ISI, Google Scholar
  • 6
    Simon HA. 1955Su una classe di funzioni di distribuzione obliqua. Biometrika 42, 425-440. (doi: 10.1093/biomet / 42.3-4.425). Crossref, ISI, Google Scholar
  • 7
    Zanette DH & Montemurro MA. 2005Dynamics of text generation with realistic Zipf’s distribution. J. Quant. Linguista. 12, 29–40. (doi:10.1080 / 09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992testi casuali mostrano una distribuzione di frequenza delle parole simile alla legge di Zipf. IEEE Trans. Informare. Teoria 38, 1842-1845. (doi: 10.1109 / 18.165464). Crossref, ISI, Google Scholar
  • 9
    Miller GA. 1957alcuni effetti del silenzio intermittente. Essere. J. Psicol. 70, 311–314. (doi: 10.2307 / 1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller GA& Chomsky N. 1963modelli finanziari di utenti linguistici. Manuale di psicologia matematica, vol. 2 (eds, Luce RD, Bush R & Galanter E), pp. 419-491. La storia di un uomo. Google Scholar
  • 11
    Kosmidis K, Kalampokis A & Argyrakis P. 2006approccio statistico meccanico al linguaggio umano. Phys. A 366, 495-502. (doi: 10.1016 / j.physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005sulla distribuzione della legge di potere delle dimensioni della famiglia linguistica. J. Linguista. 41, 117–131. (doi: 10.1017 / S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini A& Menczer F. 2009Modeling statistical properties of written text. PLoS UNO 4, e5372. (doi: 10.1371 / giornale.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette DH& Montemurro MA. 2011 Entropia universale dell’ordinamento delle parole tra famiglie linguistiche. PLoS UNO 6, e19875. (doi: 10.1371 / giornale.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda G & Corral A. 2013A scaling law beyond Zipf’s law and its relation to Heaps ‘ law. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan XY & Minnhagen P. 2014Comment on ‘ A scaling law beyond Zipf’s law and its relation to Heaps’ law.’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K& Hatano N. 2002Universalità della legge di Zipf. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143 / JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. 2001Zipf distribuzione di dimensioni aziendali statunitensi. Scienza 293, 1818-1820. (doi: 10.1126 / scienza.1062081). 19

    Makse H-A, Havlin S & Stanley HE. 1995Modelling urban growth patterns. Natura 377, 608-612. (doi: 10.1038 / 377608a0). Crossref, ISI, Google Scholar
  • 20
    Krugman P. 1996Confronting the mystery of urban hierarchy. J. Jpn Int. Economia. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blank A& Solomon S. 2000le leggi di potenza in città popolazione, mercati finanziari e siti internet. Phys. A 287, 279-288. (doi: 10.1016 / S0378-4371(00) 00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J & Moses M-E. 2007modelli globali delle distribuzioni delle dimensioni delle città e dei loro driver fondamentali. PLoS UNO 2, 934. (doi: 10.1371 / giornale.pone.0000934). 23

    Stanley HE, Buldyrev S, Goldberger A, Havlin S, Peng C& Simons M. 1999caling caratteristiche del DNA non codificante. Phys. A 273, 1-18. (doi: 10.1016 / S0378-4371 (99)00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-H& Manrubia S-C. 2001trasmissione verticale della cultura e distribuzione dei cognomi. Phys. A 295, 1-8. (doi:10.1016/S0378-4371(01) 00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V. 1896Cours d’Economie Politique. Ginevra, Svizzera: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu M & Takayasu H. 1999la legge di Zipf nella distribuzione del reddito delle aziende. Phys. A 269, 125-131. (doi:10.1016 / S0378-4371 (99)00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003UNA teoria delle distribuzioni della legge del potere nelle fluttuazioni dei mercati finanziari. Natura 423, 267-270. (doi: 10.1038 / nature01624). Crossref, PubMed, ISI, Google Scholar
  • 28
    Reed WJ& Hughes BD. 2002da famiglie geniche e generi a redditi e dimensioni di file Internet: perché le leggi di potere sono così comuni in natura. Phys. Rev. E 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner S, Szell M & Sinatra R. 2012Emergence of good conduct, scaling and Zipf laws in human behavioral sequences in an online world. PLoS UNO 7, e29796. (doi: 10.1371 / giornale.pone.0029796). Crossref, PubMed, ISI, Google Scholar
  • 30
    Newman MEJ. 2005Power laws, distribuzioni di Pareto e legge di Zipf. Contemp. Phys. 46, 323–351. (doi:10.1080 / 00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon S& Levy M. 1996 Emergenza di scalatura spontanea in sistemi stocastici generici. Int. J. Mod. Phys. C 7, 745-751. (doi:10.1142 / S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai O, Biham O& Solomon S. 1999 Distribuzioni di potenza e fluttuazioni intermittenti stabili di Lévy in sistemi stocastici di molti elementi autocatalitici. Phys. Apoc E 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu ET & Hamilton RJ. 1991avalanche della distribuzione dei brillamenti solari. Astrophys. J. 380, 89–92. (doi: 10.1086 / 186180). Crossref, ISI, Google Scholar
  • 34
    Barabási A-L& Albert R. 1999Emergenza di ridimensionamento in reti casuali. Scienza 286, 509-512. (doi: 10.1126 / scienza.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang C& Wiesenfeld K. 1987self-organized criticality: an explanation of the 1/f noise. Phys. Rev. Lett. 59, 381–384. (doi:10.1103 / PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y & Sornette D. 2008Theory of Zipf’s law and of general power law distributions with Gibrat’s law of proportional growth. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001spiegando la distribuzione disomogenea dei numeri in natura: le leggi di Benford e Zipf. Phys. A 293, 297-304. (doi: 10.1016 / S0378-4371(00) 00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner S& Tsallis C. 2005nonextensive aspects of self-organized scale-free gas-like networks. Europhys. Lett. 72, 197–203. (doi: 10.1209 / epl / i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra B & Solé RV. 2010Universalità della legge di Zipf. Phys. Rev. E 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, ISI, Google Scholar
  • 40
    Montroll E-W & Shlesinger M-F. 1982On 1 / f rumore e altre distribuzioni con code lunghe. Proc. Natl Acad. Sic. Stati Uniti D’America 79, 3380-3383. (doi: 10.1073 / pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel R& Thurner S. 2015comprensione del ridimensionamento attraverso processi dipendenti dalla storia con spazio campione collassante. Proc. Natl Acad. Sic. USA 112, 5348-5353. (doi: 10.1073 / pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
  • 42
    Kac M. 1989UNA sequenza casuale dipendente dalla storia definita da Ulam. Avv. Appl. Matematica. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI, Google Scholar
  • 45
    Hanel R& Thurner S. 2013Generalized (c,d)-entropia e invecchiamento passeggiate casuali. Entropia 15, 5324-5337. (doi: 10.3390/e15125324). Crossref, ISI, Google Scholar
  • 46
    Partecipante BH. 1976Montague grammar. New York, NY: Academic Press. Google Scholar
  • 47
    Fortuny J & Corominas-Murtra B. 2013sull’origine dell’ambiguità nella comunicazione efficiente. J. Logic Lang. Informare. 22, 249–267. (doi: 10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *