Articles

Comprendre la loi de Zipf sur les fréquences des mots grâce à l’effondrement de l’espace d’échantillon dans la formation de phrases

Introduction

Les textes écrits montrent la caractéristique remarquable que la distribution par ordre de rang des fréquences des mots suit une loi de puissance approximative

Formule d'affichage

1.1
div>

où r est le rang attribué à chaque mot du texte. Pour la plupart des textes, indépendamment de la langue, du temps de création, du genre littéraire, de son but, etc. on trouve que α ∼ 1, qui est appelée loi de Zipf. Dans la figure 1, la fréquence des mots est indiquée pour le texte de Darwin, L’origine des espèces. La recherche d’une compréhension de l’origine de cette régularité statistique dure depuis près d’un siècle. Zipf lui-même a proposé une explication qualitative basée sur les efforts investis dans les événements de communication par un expéditeur et un destinataire. Ces idées ont ensuite été formalisées dans un cadre théorique de l’information. Le premier modèle quantitatif basé sur des hypothèses linguistiques sur la génération de texte a été proposé par Simon. Le modèle suppose qu’à mesure que le contexte apparaît dans la génération d’un texte, les mots qui sont déjà apparus dans le texte sont favorisés par rapport aux autres. Par la simple hypothèse que les mots qui sont apparus précédemment sont ajoutés au texte avec une probabilité proportionnelle à leur apparition précédente (attachement préférentiel), et en supposant que les mots qui ne sont pas apparus jusqu’à présent sont ajoutés à un taux constant, il est possible de dériver la loi de Zipf, étant donné que ce dernier taux est faible. Ce modèle d’attachement préférentiel a été affiné en mettant en œuvre le fait empirique que le taux d’apparition de nouveaux mots diminue à mesure que la longueur des textes augmente. Il a été démontré dans les travaux classiques que des modèles de dactylographie aléatoires peuvent conduire à des distributions de fréquences de mots de type Zipf. Cependant, ces travaux sont basés sur des hypothèses irréalistes sur les distributions de longueur de mots et conduisent à des textes non structurés et ininterprétables. Cependant, comme nous le montrerons, la structure grammaticale, conjointement avec les mécanismes de génération du discours, peut jouer un rôle essentiel dans l’origine de la loi de Zipf dans un contexte réaliste. Il est important de souligner que l’étude statistique détaillée des propriétés du langage ne s’arrête pas là; d’importants travaux au-delà de la loi de Zipf ont été avancés (par exemple). Des études récentes traitent de la dépendance détaillée des exposants de mise à l’échelle sur la longueur du corps de texte à l’étude.

Figure 1.

Figure 1. La distribution par ordre de rang des fréquences des mots pour l’origine des espèces (bleu) montre une loi de puissance approximative avec une pente d’environ α ∼ 0,9. Le résultat du modèle (ligne rouge) explique non seulement l’exposant de la loi de puissance, mais capture également les détails de la distribution. La coupure exponentielle peut s’expliquer par la version randomisée du modèle.

La loi de Zipf ne se limite pas aux fréquences de mots mais apparaît dans d’innombrables systèmes et processus apparemment sans rapport. Pour n’en citer que quelques-uns, il a été trouvé dans les statistiques de la taille des entreprises, de la taille des villes, du génome, des noms de famille, du revenu, des marchés financiers, de la taille des fichiers Internet ou du comportement humain; pour plus d’exemples, voir. Des efforts considérables ont été déployés pour comprendre l’origine de la loi de Zipf, et plus généralement l’origine de la mise à l’échelle dans des systèmes complexes. Il existe trois voies principales vers la mise à l’échelle: les processus multiplicatifs, les processus préférentiels et la criticité auto-organisée. Plusieurs autres mécanismes plus ou moins liés à ces voies de base de mise à l’échelle ont été proposés (par exemple).

Récemment, une quatrième voie indépendante de mise à l’échelle a été introduite sur la base de processus stochastiques qui réduisent leurs résultats potentiels (espace-échantillon) au fil du temps. Ce sont des processus aléatoires dépendants de l’histoire qui ont été étudiés dans différents contextes dans la littérature mathématique, et plus récemment dans le contexte des lois de mise à l’échelle. Voici un exemple de processus de réduction de l’espace d’échantillonnage. Pensez à un ensemble de N dés où le dé numéro 1 a une face, le dé numéro 2 a deux faces (pièce de monnaie), le dé numéro 3 a trois faces, etc. Le numéro de matrice N a n faces. Commencez par choisir l’un des N dés au hasard, dites le numéro de dés i. Lancez-le et enregistrez la valeur nominale obtenue, qui était par exemple k. Prenez ensuite le numéro de dé k-1 lancez-le, obtenez j, enregistrez j, prenez le numéro de dé j-1, lancez-le, etc. Continuez à lancer les dés de cette façon jusqu’à ce que vous en lanciez 1 pour la première fois. Comme il n’y a pas de matrice avec moins de 1 faces, le processus se termine ici. La séquence des valeurs faciales enregistrées dans la prescription ci-dessus (i, k, j, …, 1) est évidemment strictement ordonnée ou imbriquée, i >k > j >>1. En, il a été montré rigoureusement que si ce processus est répété plusieurs fois, la distribution des résultats (valeurs faciales 1, 2, …, N) est une loi Zipf exacte, c’est−à-dire que la probabilité d’observer une valeur faciale m dans le processus ci-dessus (séquence de lancers) est exactement PN(m) = m-1, étant donné que nous commençons par N dés. Notez qu’il est nécessaire de garder N fixe pendant les répétitions du processus pour obtenir la loi Zipf exacte. Si N varie pendant les répétitions, une mise à l’échelle Zipf est clairement présente asymptotiquement pour les rangs élevés; cependant, en raison du mélange de différents N, des écarts par rapport à la loi exacte de Zipf apparaîtront pour les rangs bas.

Plus formellement, chaque dé N a un espace-échantillon, noté ΩN = {1, 2, …, N}, qui est le nombre de résultats potentiels, c’est-à-dire le nombre de faces du dé N. Lancer ces dés de la manière ci-dessus donne lieu à une séquence d’espaces-échantillons imbriqués

Formule d'affichage

1.2

L’imbrication des espaces-échantillons dans une séquence dépendante de l’histoire est au cœur de l’origine des lois de mise à l’échelle dans ce type de processus. Pour plus de détails, voir où il est également montré que si du bruit est ajouté aux processus dépendants de l’historique, la loi de mise à l’échelle PN(m) ∝ m-λ est obtenue, où 0 << 1 est le niveau de bruit.

Dans cet article, nous présentons une dérivation de la loi de Zipf sur les fréquences des mots, basée sur un modèle simple de formation de phrase / discours. Le modèle est motivé par l’observation que le processus de formation d’une phrase — ou plus généralement d’un discours — est un processus de réduction de l’espace-échantillon dépendant de l’histoire. Les mots ne sont pas tirés au hasard de l’espace-échantillon de tous les mots possibles, mais sont utilisés dans des relations strictes les uns avec les autres. L’utilisation de mots spécifiques dans une phrase limite fortement l’utilisation de mots consécutifs, conduisant à un processus d’imbrication (ou de réduction de l’espace d’échantillonnage), similaire à celui décrit ci-dessus. L’effondrement de l’espace-échantillon dans les textes est nécessaire pour transmettre des informations significatives. Sinon, toute interprétation, même en termes métaphoriques ou poétiques, deviendrait impossible. Rendons le point plus concret avec un exemple pour la formation d’une phrase, où les contraintes grammaticales et contextuelles (qui réduisent l’espace d’échantillonnage) sont à l’œuvre (figure 2). Nous formons la phrase‘ « Le loup hurle dans la nuit ». En principe, le premier mot « Le loup » (en ignorant les articles et les prépositions pour le moment) peut être tiré de tous les mots possibles. Supposons qu’il existe n mots possibles et désignent l’espace-échantillon respectif par ΩN = {1, 2, N, N}, où chaque nombre représente maintenant un mot. Ceci est schématiquement illustré sur la figure 2a. Étant donné que nous avons choisi « Le loup » parmi ΩN = {1, 2, …, N}, figure 2b, le mot suivant ne sera maintenant (généralement) pas choisi parmi ΩN = {1, 2, …, N}, mais parmi un sous-ensemble de celui-ci (figure 2c). Imaginez que le sous-ensemble contient L mots, nous avons ΩL ⊂ ΩN. En règle générale, nous nous attendons à ce que le sous-ensemble contienne des mots associés aux propriétés des canines, des fonctions biologiques, d’autres animaux, etc. mais plus tous les mots possibles. Une fois que nous spécifions le deuxième mot « hurlements » ∈ ΩL, le contexte, l’intelligibilité et la structure grammaticale restreignent davantage l’espace d’échantillon pour le troisième mot à ΩM ⊂ ΩL, d’où nous tirons finalement « nuit ». De toute évidence, l’imbrication dans la formation des phrases est similaire à l’exemple des dés imbriqués auparavant. L’imbrication est imposée par des contraintes grammaticales et/ou contextuelles et/ou interprétatives.

Figure 2.

Figure 2. Vue schématique de l’imbrication dans la formation des phrases. (a) Parmi tous les N mots potentiels définissant l’espace-échantillon initial, nous choisissons « loup » (b). Ce choix limite l’espace d’échantillonnage pour le mot suivant (cercle orange) qui doit être grammaticalement et sémantiquement compatible avec « wolf ». (c) Dans cet ensemble, nous choisissons « hurlements », ce qui réduit à nouveau l’espace d’échantillonnage (cercle rouge) (d), car le mot suivant doit maintenant être cohérent à la fois sémantiquement et grammaticalement avec « Les hurlements de loup ». La séquence de mots montre une structure imbriquée. L’effet de l’effondrement de l’espace échantillon est également présent dans le contexte plus large de la formation du discours, car un sujet et son développement rhétorique imposent une contrainte imbriquée successive à l’espace échantillon. (Version en ligne en couleur.)

Le rôle de la grammaire pour l’imbrication est évident. Typiquement en anglais, le premier mot est un nom avec le rôle grammatical du sujet. Le fait que le premier mot soit un nom limite les possibilités du mot suivant au sous-ensemble de phrases verbales. Selon le verbe choisi, les mots qui peuvent maintenant suivre jouent généralement le rôle grammatical de l’objet et sont à nouveau plus restreints. Nous utilisons les termes réduction de l’espace d’échantillonnage et structure hiérarchique imbriquée dans les phrases de manière interchangeable. Ce n’est pas seulement la structure grammaticale qui impose des restrictions consécutives à l’espace-échantillon des mots au fur et à mesure de la progression de la phrase; le besoin d’intelligibilité a le même effet. Sans structures hiérarchiques (au moins partielles) dans la formation des phrases, leur interprétation deviendrait très difficile. Cependant, les structures imbriquées dans les phrases ne seront généralement pas strictement réalisées. Sinon, l’utilisation créative et la flexibilité du langage seraient sérieusement limitées. Parfois, les mots peuvent agir comme une charnière linguistique, ce qui signifie qu’il permet beaucoup plus de mots consécutifs que ceux disponibles pour le mot précédent. On s’attend à ce que l’imbrication ne se réalise que dans une certaine mesure. L’imbrication imparfaite permet une certaine ambiguïté dans le code linguistique et est l’une des sources de son étonnante polyvalence.

Dans cet article, nous quantifions le degré d’imbrication d’un texte à partir de sa matrice de transition de mots M (réseau). Pour caractériser la structure hiérarchique d’un texte avec un seul nombre, nous définissons son imbrication n comme une propriété de M par

Formule d'affichage

1.3

où la moyenne est prise sur toutes les paires de mots possibles (i, j). L’imbrication est un nombre compris entre 0 et 1 et spécifie dans quelle mesure la réduction de l’espace d’échantillonnage est présente en moyenne dans le texte.1 Un système strictement imbriqué, comme celui montré dans l’équation (1.2), a n(M) = 1. En termes linguistiques, l’imbrication stricte est clairement irréaliste.

Nous utilisons des matrices de transition de mots à partir de textes anglais réels, qui servent d’entrée à un modèle simple pour la formation de phrases. Nous étudions ensuite les distributions de fréquence des mots de ces textes produits artificiellement et les comparons avec les distributions des textes originaux. Pour la première fois, nous montrons qu’il est possible de relier la caractéristique topologique de l’imbrication (locale) dans la formation des phrases aux caractéristiques globales des distributions de fréquence des mots des textes longs. À cet égard, nous proposons un moyen de comprendre les statistiques de fréquences de mots — la loi de Zipf en particulier — par la caractéristique structurelle réelle du langage, l’imbrication, sans avoir besoin de recourir à des tentatives antérieures incluant des processus multiplicatifs, un attachement préférentiel ou une criticité auto-organisée, qui, dans le contexte du langage, semblent parfois reposer sur des hypothèses fortes et invraisemblables.

Modèle

Nous supposons un vocabulaire fini de N mots. À partir d’un texte donné, nous obtenons une matrice empirique de transition de mots M. Les mots sont étiquetés avec des indices latins. Mij = 1 signifie que dans le texte, nous trouvons au moins une occasion où le mot j suit directement i; si Mij = 0, le mot j ne suit jamais i dans tout le texte. La figure 3a montre la matrice de transition pour l’origine des espèces. Pour quantifier l’espace-échantillon pour des mots individuels, notez qu’une ligne i dans M contient l’ensemble des mots, Ωi = {k/Mik = 1}, qui suivent directement le mot i. Par /Ωi|, nous désignons la taille (nombre d’éléments) de Ωi, qui est le nombre de mots différents pouvant suivre i. Ωi est une approximation du volume d’espace-échantillon accessible après que le mot i se soit produit. Différents mots ont des volumes d’espace d’échantillon différents (figure 3b), où le profil d’espace d’échantillon est illustré. Nous paramétrons le profil comme yk = x, où x correspond au volume de l’espace échantillon, |Ωi |, et y à l’indice de l’espace échantillon i. Nous appelons un système linéairement imbriqué si κ = 1 (comme dans l’équation (1.2)), faiblement imbriqué pour κ < 1 et fortement imbriqué si κ > 1 (comme dans la figure 3b ). Un exemple de profil faiblement imbriqué peut être vu dans l’un des encarts de la figure 4c. Le paramètre κ a une interprétation intuitive en termes de mesure de la « structure » des transitions de mots. Dans le cas d’un profil faiblement imbriqué (κ< 1), il y a beaucoup de mots qui peuvent être suivis de beaucoup de mots différents, alors que dans un profil fortement imbriqué (κ> 1), il y a quelques mots qui sont suivis de beaucoup d’autres mots, et beaucoup de mots qui ne peuvent être suivis que de très peu. En ce sens, κ mesure dans quelle mesure les transitions de mots sont effectivement contraintes.

Figure 3.

Figure 3. Section de la matrice de transition de mots M pour les 250 mots qui montrent le plus grand volume d’espace d’échantillon de mots consécutifs (a). Une entrée noire (Mij = 1) signifie qu’un mot donné i (axe des ordonnées) est suivi du mot j (axe des abscisses). L’imbrication non triviale se voit par la forme approximative en entonnoir de la densité des mots. La valeur réelle du volume de l’espace d’échantillonnage pour chaque mot i, /Ωi/, est indiquée en (b), qui est obtenue en décalant toutes les entrées des lignes i aux positions les plus à gauche. Nous appelons (b) le profil d’espace d’échantillon.

Figure 4.

Figure 4. exposants α des distributions de fréquence des mots classées par ordre de rang de 10 livres par rapport aux résultats du modèle pour amodel (a). De toute évidence, le modèle explique dans une large mesure les valeurs réelles. (b) les exposants α par rapport à l’imbrication n(M) des 10 livres. (c) les exposants d’un modèle par rapport au paramètre de profil d’espace-échantillon κ. Pour les grands vocabulaires N = 100 000, à κ ∼ 1, une transition rapide du régime de nidification faible au régime de nidification fort se produit, où nous trouvons amodèle ∼ 0 et amodèle ∼ 1, respectivement. Les profils d’imbrication faibles et forts sont schématiquement indiqués. Pour un N plus petit (réaliste), la transition apparaît à κ< 1, et amodel couvre une plage comprise entre environ 0,85 et 1,1 dans la phase de mise à l’échelle, ce qui correspond à la plage empirique vue en (a). (Version en ligne en couleur.)

Notez que le profil de la figure 3b n’est en fait pas bien équipé d’une loi de puissance; la raison de la paramétrisation est pour un argument purement théorique qui deviendra clair ci-dessous. Nous excluons les mots suivis de moins de deux mots différents dans tout le texte, c’est-à-dire que nous supprimons toutes les lignes i de M pour lesquelles |Ωi|<2. L’imbrication stricte ne doit pas être confondue avec une nidification forte ou faible. Ces derniers sont des propriétés du profil de l’espace échantillon.

Pour les tests statistiques, nous construisons deux versions randomisées de M, et les désignons par Mrand et Mrow-perm, respectivement. Mrand est obtenu en permutant aléatoirement les lignes des lignes individuelles de la matrice M. Cela maintient le nombre d’entrées non nulles dans chaque ligne identique à celui de la matrice d’origine M, mais détruit son imbrication et l’information sur les mots qui se suivent. La deuxième version randomisée Mrow-perm est obtenue en permutant les lignes (entières) de la matrice M. Cela maintient l’imbrication de la matrice inchangée, mais détruit les informations sur les transitions de mots.

Étant donné M, nous construisons des phrases aléatoires de longueur L avec le modèle suivant:

— – Choisissez l’un des N mots au hasard. Écrivez i dans une liste de mots W, de sorte que W = {i}.

— Aller à la ligne i dans M et choisir au hasard un mot de l’ensemble Ωi. Dites que le mot choisi est k; mettez à jour la liste de mots W = {i, k}.

— – Passez à la ligne k et choisissez l’un des mots de Ωk; dites que vous obtenez j et mettez à jour W = {i, k, j}.

— – Répétez la procédure L fois. À ce stade, une phrase aléatoire est formée.

— Répétez le processus pour produire des phrases Nentes.

De cette façon, nous obtenons une liste de mots avec des entrées L × Nsent, qui est un livre aléatoire généré avec la matrice de transition de mots d’un livre réel. À partir de la liste de mots, nous obtenons la distribution de fréquence des mots fmodel. Le modèle actuel est similaire à celui de mais diffère en trois aspects: il permet une imbrication non parfaite n < 1, il n’a pas de composante de bruit explicite et il a une longueur de séquence (phrase) fixe.

Résultats

Nous analysons le modèle avec des simulations informatiques, en spécifiant L =10 et Nsent =100 000. Nous utilisons 10 livres choisis au hasard 2 du projet Gutenberg (www.gutenberg.org ). Pour chaque livre, nous déterminons son vocabulaire N, sa matrice M, son Ωi pour tous les mots, son imbrication n(M) et l’exposant de la distribution de fréquence des mots de rang α (le moindre carré correspond à f(r), plage d’ajustement entre 5 ≤ r ≤ 200). f(r) est représenté pour l’origine des espèces sur la figure 1 (bleu); l’exposant est α ∼ 0,90. Nous exécutons le modèle pour les paramètres de chaque livre individuel afin de générer un texte aléatoire. L’utilisation du Ωi empirique pour le modèle garantit que ce texte aléatoire a exactement le même profil d’espace d’échantillon et la même imbrication que le livre.

La distribution obtenue à partir du modèle fmodel est clairement capable de reproduire l’exposant approximatif de la loi de puissance pour l’origine des espèces, amodel ∼ 0,86 (même plage d’ajustement). De plus, il capture des détails de la distribution f. Pour les grandes valeurs de r dans fmodel(r), un plateau se forme avant que la coupure exponentielle de taille finie ne soit observée. Le plateau et la coupure peuvent être entièrement compris avec le modèle randomisé.

Dans la figure 4a, nous comparons les exposants α extraits des livres avec les résultats du modèle amodel. Le modèle explique évidemment les valeurs réelles dans une large mesure, en sous-estimant légèrement les exposants réels. Nous obtenons un coefficient de corrélation de ρ = 0,95 (p < 3,7 × 10-5). Sur la figure 4b, nous montrons que l’imbrication n(M) est liée aux exposants α de manière approximativement linéaire. Nous testons l’hypothèse qu’en détruisant l’imbrication, les exposants disparaîtront. En utilisant le Mrand randomisé, nous trouvons Formule en ligne (même plage d’ajustement), qui détruit efficacement la loi de puissance. En utilisant l’autre version randomisée qui maintient l’imbrication intacte, Mrow-perm, pour les mots de faible rang (jusqu’à environ rang env. 10), on trouve des distributions de fréquence de mots similaires à celles de M; cependant, comme prévu, la queue de la loi de puissance (rangs élevés) disparaît pour Mrow-perm en raison de la contribution du bruit de la randomisation (non représentée). Pour valider notre hypothèse selon laquelle l’ordre des mots est essentiel, nous avons calculé les distributions de rang du modèle en utilisant la matrice transposée MT, ce qui signifie que nous inversons le flux temporel dans le modèle. Nous trouvons deux résultats. Premièrement, la corrélation entre les exposants des livres α et le modèle Formule en ligne disparaît, reflétée par un coefficient de corrélation non significatif ρ = 0,47 (p = 0,17). Deuxièmement, les exposants (moyennés sur les 10 livres) sont significativement plus petits, Formule en ligne que pour le flux temporel correct, où nous obtenons Formule en ligne La valeur p correspondante d’un test t est de 0,039.

Enfin, nous essayons de comprendre l’importance du profil d’espace-échantillon sur les exposants de mise à l’échelle. Pour cela, nous générons une série de M matrices dont le profil est paramétré avec une puissance κ. Sur la figure 4c, les exposants du modèle amodèle de ces M générés artificiellement sont représentés en fonction de κ, pour différentes tailles de vocabulaire N. Pour κ < 1 (imbrication faible), nous trouvons des exposants amodèle ≈ 0, c’est-à-dire pas de loi d’échelle. Pour un grand N à κ = 1, une transition rapide vers un modèle ≈ 1 (Zipf) se produit. Pour N plus petit, nous trouvons un comportement plus compliqué de la transition, construisant un exposant maximum à κ <1. La gamme des exposants du livre α varie entre 0,85 et 1.1, qui est exactement la plage observée pour les tailles de vocabulaire réalistes N ∼ 1000-10 000. Nous avons vérifié que les variations de la longueur des phrases (à l’exception de L = 1) ne modifient pas les résultats rapportés. Pour les phrases d’un mot (L = 1), nous obtenons évidemment une distribution uniforme de la fréquence des mots et, par conséquent, une distribution de rang plat, car la plupart des mots ont presque le même rang. Nous avons varié le nombre de phrases de Nsent = 104 à 106, et n’avons trouvé pratiquement aucune influence sur les résultats rapportés.

Discussion

Dans cet article, nous nous concentrons sur la propriété fondamentale de l’imbrication dans tout code qui transmet des informations significatives, telles que le langage. Nous soutenons que si l’imbrication n’était pas présente, on se retrouverait facilement dans des situations confuses comme décrit dans La Biblioteca de Babel de J. L. Borges, où une bibliothèque hypothétique possède tous les livres composés de toutes les combinaisons possibles de caractères remplissant 410 pages. Nous définissons et quantifions un degré d’imbrication dans le code linguistique. Les faibles degrés d’imbrication impliquent généralement une hiérarchie moins stricte sur l’utilisation des mots ou une utilisation plus égalitaire du vocabulaire, que les textes à imbrication élevée. Comme prévu, les textes ont une structure bien définie, mais pas strictement imbriquée, qui pourrait découler d’un compromis de spécificité (pour transmettre des messages sans ambiguïté) et de flexibilité (pour permettre une utilisation créative du langage). Nous constatons que l’imbrication varie d’un texte à l’autre, ce qui suggère que différentes façons d’utiliser le vocabulaire et la grammaire sont à l’œuvre. Notre échantillon de textes comprenait trois pièces de Shakespeare, trois textes scientifiques et quatre romans. Nous constatons que les pièces de théâtre, peut-être les plus proches de la langue parlée, montrent une imbrication plus faible que les livres scientifiques. Les romans montrent les plus hauts niveaux d’imbrication. L’échantillon est trop petit pour tirer des conclusions sur la question de savoir si différents types de textes sont caractérisés par des valeurs typiques d’imbrication; cependant, il est remarquable que l’imbrication soit corrélée avec les variations des exposants d’échelle des fréquences de mots livre par livre.

La principale conclusion de cet article est qu’un modèle simple de réduction de l’espace d’échantillon peut montrer que l’imbrication explique en effet l’émergence de lois de mise à l’échelle dans les fréquences de mots, en particulier la loi de Zipf. Plus précisément, nous avons pu relier l’émergence de lois de mise à l’échelle à la structure topologique de la matrice de transition de mots, ou « espace de phase ». Le résultat est remarquable car la matrice ne code aucune information sur la fréquence à laquelle le mot j suit le mot i, elle indique simplement que j a suivi i au moins une fois dans tout le texte. Les permutations aléatoires de la matrice qui détruisent son imbrication ne peuvent plus expliquer la mise à l’échelle, tandis que les permutations qui maintiennent l’imbrication intacte indiquent l’existence des lois de puissance. Il est en outre remarquable qu’aucune hypothèse critique préférentielle, multiplicative ou auto-organisée (non locale) n’est nécessaire pour comprendre la mise à l’échelle observée, et qu’aucun paramètre n’est nécessaire au-delà des matrices de transition de mots.

Le fait que le modèle simple réussisse à reproduire la propriété de mise à l’échelle détaillée dans les statistiques de fréquence des mots pourrait indiquer un aspect important du langage qui n’a pas été noté jusqu’à présent; le fait que l’utilisation globale des mots est statistiquement fortement influencée par l’utilisation de structures hiérarchiques locales et de contraintes que nous utilisons pour générer des phrases. Nous pensons que la relation étroite entre l’imbrication et l’exposant de mise à l’échelle ouvre la porte à une interprétation des distributions de fréquence des mots en tant qu’observable statistique qui dépend fortement de l’utilisation du vocabulaire et de la grammaire dans une langue. En conséquence, nous conjecturons que la loi de Zipf pourrait ne pas être universelle, mais que les statistiques d’utilisation des mots dépendent de structures locales qui peuvent être différentes d’un texte à l’autre et même à l’intérieur des phrases. Des recherches supplémentaires sont nécessaires pour clarifier ce point.

Enfin, il convient de noter que la classe des processus de réduction de l’espace d’échantillonnage fournit une voie indépendante vers la mise à l’échelle qui pourrait avoir un large éventail d’applications pour les processus dépendants de l’histoire et du vieillissement. En physique statistique, on sait que les processus qui réduisent successivement leur espace de phasespace au fur et à mesure qu’ils se déroulent sont caractérisés par une loi de puissance ou des fonctions de distribution exponentielle étirées. Ces distributions apparaissent de manière générique comme une conséquence de l’effondrement de l’espace de phase.

Contributions des auteurs

S.T. conception de la recherche, analyse numérique et rédaction du manuscrit. R.H. et B.C.-M. ont effectué une analyse numérique et rédigé le manuscrit. B.L. a fait le prétraitement des livres et a effectué des analyses numériques.

Intérêts concurrents

Les auteurs ne déclarent aucun intérêt financier concurrent.

Financement

Ce travail a été soutenu par le Fonds scientifique autrichien FWF au titre du KPP23378FW.

Notes de bas de page

Notes de fin

1 Notez que l’indicateur d’imbrication dans l’équation (1.3) n’est raisonnable que dans le cas où la probabilité de deux mots i, j ayant le même espace d’échantillon est très faible, p(Ωi = Ωj) ≈ 0. C’est le cas pour les matrices de transition considérées.

2 En particulier, nous utilisons Une tragédie américaine, de Theodore Dreiser; L’origine des espèces, la Descente de l’homme et les différentes formes de plantes de Charles Darwin; Tale of two cities et David Copperfield de Charles Dickens; Roméo et Juliette, Henry V et Hamlet de William Shakespeare; et Ulysse de James Joyce. Le vocabulaire varie de N = 3102 (Roméo et Juliette) à 22 000 mots (Ulysse).

©2015 Le(s) Auteur(s) Publié(s) par la Royal Society. Tous droits réservés.
  • 1
    Zipf GK. 1949le comportement humain et le principe du moindre effort. Lecture, MAMAN: Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953une théorie informationnelle de la structure statistique du langage. Théorie de la communication (éd. &Jackson W). Londres, Royaume-Uni: Butterworths. Google Scholar
  • 3
    Harremoës P&Topsøe F. 2001 Principes fondamentaux de l’entropie maximale. Entropie 3, 191-226. (doi:10.3390/ e3030191). Je ne peux pas vous dire que vous avez un problème avec votre ordinateur, mais je ne peux pas le faire. 2003le dernier effort et les origines de la mise à l’échelle dans le langage humain. Proc. Natl Acad. Sci. États-Unis 100, 788-791. (doi: 10.1073/pnas.0335980100). Il s’agit d’un système de gestion de l’information, de la gestion des données, de la gestion des données, de la gestion des données, de la gestion des données, de la gestion des données, de la gestion des données, de la gestion des données, de la gestion des données et de la gestion des données. 2011l’émergence de la loi Zipf dans l’évolution de la communication. Phys. Rév. E 83, 036115. (doi: 10.1103/PhysRevE.83.036115). Crossref, ISI, Google Scholar
  • 6
    Simon HA. 1955sur une classe de fonctions de distribution de biais. Biometrika 42, 425-440. (doi: 10.1093/biomet/42.3-4.425). Crossref, ISI, Google Scholar
  • 7
    Zanette DH &Montemurro MA. 2005dynamique de la génération de texte avec une distribution réaliste de Zipf. J. Quant. Linguiste. 12, 29–40. (doi: 10.1080/ 09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992les textes aléatoires présentent une distribution de fréquence des mots semblable à la loi de Zipf. IEEE Trans. Informer. Théorie 38, 1842-1845. (doi: 10.1109 /18.165464). Crossref, ISI, Google Scholar
  • 9
    Miller GA. 1957certains effets du silence intermittent. Être. J. Psychol. 70, 311–314. (doi: 10.2307/1419346). Crossref, PubMed, ISI, Google Scholar
  • 10
    Miller GA &Chomsky N. 1963modèles finitaires des utilisateurs de langues. Manuel de psychologie mathématique, vol. 2 (eds, Luce RD, Bush R& Galanter E), pp. 419-491. Il n’y a pas de problème. Google Scholar
  • 11
    Kosmidis K, Kalampokis A&Argyrakis P. 2006approche mécanique statistique du langage humain. Phys. A 366, 495-502. (doi: 10.1016/ j. physa.2005.10.039). Crossref, ISI, Google Scholar
  • 12
    Wichmann S. 2005sur la distribution de la loi de puissance des tailles de familles de langues. J. Linguiste. 41, 117–131. (doi: 10.1017/S002222670400307X). Crossref, ISI, Google Scholar
  • 13
    Serrano MA, Flammini A &Menczer F. 2009 modéLisation des propriétés statistiques du texte écrit. PLoS ONE 4, e5372. (doi: 10.1371/ journal.pone.0005372). Crossref, PubMed, ISI, Google Scholar
  • 14
    Zanette DH &Montemurro MA. 2011entropie universelle de l’ordre des mots à travers les familles linguistiques. PLoS ONE 6, e19875. (doi: 10.1371/ journal.pone.0019875). Crossref, PubMed, ISI, Google Scholar
  • 15
    Font-Clos F, Boleda G &Corral A. 2013A loi d’échelle au-delà de la loi de Zipf et de sa relation avec la loi des tas. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, ISI, Google Scholar
  • 16
    Yan X-Y &Minnhagen P. 2014Comment sur « Une loi d’échelle au-delà de la loi de Zipf et sa relation avec la loi des tas ».’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K&Hatano N. 2002Universalité de la loi de Zipf. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143/JPSJ.71.1211). Il s’agit d’un système de gestion de l’information et de la gestion de l’information. 2001distribution ZIPF des tailles d’entreprises américaines. Science 293, 1818-1820. (doi: 10.1126/ science.1062081). Il s’agit d’un logiciel de gestion des données, qui permet de gérer les données de l’utilisateur et de gérer les données de l’utilisateur. 1995 Modèles de croissance urbaine. Nature 377, 608-612. (doi: 10.1038/377608a0). Crossref, ISI, Google Scholar
  • 20
    Krugman P. 1996confronter le mystère de la hiérarchie urbaine. J. Jpn Int. Econ. 10, 399–418. (doi: 10.1006/jjie.1996.0023). Crossref, ISI, Google Scholar
  • 21
    Blank A&Solomon S. 2000 Lois sur le pouvoir dans la population des villes, les marchés financiers et les sites Internet. Phys. A 287, 279-288. (doi: 10.1016/S0378-4371(00) 00464-7). Crossref, ISI, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J &Moses M-E. 2007les modèles globaux des distributions de la taille des villes et leurs facteurs fondamentaux. PLoS UN 2, 934. (doi: 10.1371/ journal.pone.0000934). Crossref, ISI, Google Scholar
  • 23
    Stanley HE, Buldyrev S, Goldberger A, Havlin S, Peng C &Simons M. 1999 Caractéristiques de mise à l’échelle de l’ADN non codant. Phys. A 273, 1-18. (doi: 10.1016/S0378-4371(99) 00407-0). Crossref, PubMed, ISI, Google Scholar
  • 24
    Zanette D-H &Manrubia S-C. 2001 Transmission verticale de la culture et distribution des noms de famille. Phys. A 295, 1-8. (doi: 10.1016/S0378-4371(01) 00046-2). Crossref, ISI, Google Scholar
  • 25
    Pareto V. 1896Cours d’Économie Politique. Genève, Suisse: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu M &Loi de Takayasu H. 1999Zipf sur la répartition des revenus des entreprises. Phys. A 269, 125-131. (doi: 10.1016/S0378-4371(99) 00086-2). Crossref, ISI, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V &Stanley H-E. 2003A theory of power-law distributions in financial market fluctuations. Nature 423, 267-270. (doi: 10.1038/nature01624). Crossref, PubMed, ISI, Google Scholar
  • 28
    Reed WJ &Hughes BD. 2002des familles et genres de gènes aux revenus et aux tailles de fichiers Internet: pourquoi les lois sur le pouvoir sont si courantes dans la nature. Phys. Rév. E 66, 067103. (doi: 10.1103/PhysRevE.66.067103). Crossref, ISI, Google Scholar
  • 29
    Thurner S, Szell M &Sinatra R. 2012Émergence des lois de bonne conduite, de mise à l’échelle et de Zipf dans les séquences comportementales humaines dans un monde en ligne. PLoS ONE 7, e29796. (doi: 10.1371/ journal.pone.0029796). Il s’agit d’un logiciel de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données, de gestion de données et de gestion de données. 2005 Lois de puissance, distributions de Pareto et loi de Zipf. Contemp. Phys. 46, 323–351. (doi: 10.1080/ 00107510500052444). Crossref, ISI, Google Scholar
  • 31
    Solomon S &Levy M. 1996émergence d’échelle spontanée dans les systèmes stochastiques génériques. Int. J. Mod. Phys. C 7, 745-751. (doi: 10.1142/S0129183196000624). Crossref, ISI, Google Scholar
  • 32
    Malcai O, Biham O &Solomon S. 1999 Distributions de la loi de puissance et fluctuations intermittentes stables de Lévy dans les systèmes stochastiques de nombreux éléments autocatalytiques. Phys. Rév. E 60, 1299-1303. (doi: 10.1103/PhysRevE.60.1299). Crossref, ISI, Google Scholar
  • 33
    Lu ET &Hamilton RJ. 1991Avalanches de la distribution des éruptions solaires. Astrophyses. J. 380, 89–92. (doi: 10.1086/186180). Crossref, ISI, Google Scholar
  • 34
    Barabási A-L &Albert R. 1999Émergence de la mise à l’échelle dans les réseaux aléatoires. Science 286, 509-512. (doi: 10.1126/ science.286.5439.509). Crossref, PubMed, ISI, Google Scholar
  • 35
    Bak P, Tang C &Wiesenfeld K. 1987 Criticité auto-organisée: une explication du bruit 1 / f. Phys. Rév. Lett. 59, 381–384. (doi: 10.1103/PhysRevLett.59.381). Crossref, PubMed, ISI, Google Scholar
  • 36
    Saichev A, Malevergne Y &Sornette D. 2008théorie de la loi de Zipf et des distributions générales de la loi du pouvoir avec la loi de croissance proportionnelle de Gibrat. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V &Vespignani A. 2001expliquer la distribution inégale des nombres dans la nature: les lois de Benford et Zipf. Phys. A 293, 297-304. (doi: 10.1016/S0378-4371(00) 00633-6). Crossref, ISI, Google Scholar
  • 38
    Thurner S &Tsallis C. 2005Nonextensive aspects of self-organized scale-free gas-like networks. Europhys. Lett. 72, 197–203. (doi: 10.1209/epl/i2005-10221-1). Il s’agit d’un système de gestion des données, qui permet de gérer les données et les données de la base de données. 2010Universalité de la loi de Zipf. Phys. Rév. E 82, 011102. (doi: 10.1103/PhysRevE.82.011102). Crossref, ISI, Google Scholar
  • 40
    Montroll E-W &Shlesinger M-F. 1982sur le bruit 1/ f et d’autres distributions avec de longues queues. Proc. Natl Acad. Sci. États-Unis 79, 3380-3383. (doi: 10.1073/pnas.79.10.3380). Crossref, PubMed, ISI, Google Scholar
  • 41
    Corominas-Murtra B, Hanel R &Thurner S. 2015comprendre la mise à l’échelle à travers des processus dépendants de l’historique avec un espace d’échantillonnage réduit. Proc. Natl Acad. Sci. États-Unis 112, 5348-5353. (doi: 10.1073/pnas.1420946112). Crossref, PubMed, ISI, Google Scholar
  • 42
    Kac M. 1989A séquence aléatoire dépendante de l’histoire définie par Ulam. Adv. Appl. Mathématique. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, ISI, Google Scholar
  • 45
    Hanel R &Thurner S. 2013généralisé (c, d) – entropie et marche aléatoire de vieillissement. Entropie 15, 5324-5337. (doi: 10.3390/e15125324). Crossref, ISI, Google Scholar
  • 46
    Partee BH. 1976Montague grammar. New York, NY : Presse académique. Google Scholar
  • 47
    Fortuny J &Corominas-Murtra B. 2013à l’origine de l’ambiguïté dans une communication efficace. J. Logic Lang. Informer. 22, 249–267. (doi:10.1007/s10849-013-9179-3 ). Crossref, ISI, Google Scholar

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *