Articles

Comprender la ley de frecuencias de palabras de Zipf a través del colapso del espacio de muestra en la formación de oraciones

Introducción

Los textos escritos muestran la característica notable de que la distribución ordenada por rangos de frecuencias de palabras sigue una ley de potencia aproximada

div>donde r es el rango que se asigna a cada palabra en el texto. Para la mayoría de los textos, sin importar el idioma, el momento de creación, el género de la literatura, su propósito, etc. uno encuentra que α 1 1, que se conoce como la ley de Zipf . En la figura 1, se muestra la palabra frecuencia para el texto de Darwin, El origen de las especies. La búsqueda de una comprensión del origen de esta regularidad estadística ha estado en marcha durante casi un siglo. El propio Zipf ofreció una explicación cualitativa basada en los esfuerzos invertidos en eventos de comunicación por un emisor y un receptor . Estas ideas se formalizaron más tarde dentro de un marco teórico de la información . El primer modelo cuantitativo basado en supuestos lingüísticos sobre la generación de texto ha sido propuesto por Simon . El modelo asume que a medida que el contexto emerge en la generación de un texto, las palabras que ya han aparecido en el texto se privilegian sobre otras. Por la simple suposición de que las palabras que han aparecido previamente se agregan al texto con una probabilidad proporcional a su apariencia anterior (apego preferencial), y suponiendo que las palabras que hasta ahora no han aparecido se agregan a una tasa constante, es posible derivar la ley de Zipf, dado que esta última tasa es baja. Este modelo de apego preferencial se ha perfeccionado mediante la implementación del hecho empírico de que la tasa de aparición de nuevas palabras disminuye a medida que aumenta la longitud de los textos . Se ha demostrado en obras clásicas que los modelos de escritura a máquina aleatorios pueden conducir a distribuciones de frecuencias de palabras similares a Zipf . Sin embargo, estas obras se basan en suposiciones poco realistas sobre distribuciones de longitud de palabra y conducen a textos no estructurados e interpretables. Sin embargo, como mostraremos, la estructura gramatical, junto con los mecanismos de generación del discurso, pueden jugar un papel esencial en el origen de la ley de Zipf en un contexto realista. Es importante destacar que el estudio estadístico detallado de las propiedades del lenguaje no termina aquí; se ha presentado un trabajo importante más allá de la ley de Zipf (por ejemplo ). Estudios recientes tratan de la dependencia detallada de los exponentes de escala en la longitud del cuerpo del texto en estudio .

Figura 1.

Figura 1. La distribución ordenada por rangos de las frecuencias de palabras para El origen de la especie (azul) muestra una ley de potencia aproximada con una pendiente de aproximadamente α 0 0.9. El resultado del modelo (línea roja) explica no solo el exponente de la ley de potencia, sino que también captura detalles de la distribución. El corte exponencial puede explicarse por la versión aleatoria del modelo.

La ley de Zipf no se limita a las frecuencias de palabras, sino que aparece en innumerables sistemas y procesos, aparentemente sin relación . Solo por mencionar algunos, se ha encontrado en las estadísticas de tamaños de empresas, tamaños de ciudades , genoma , apellidos , ingresos , mercados financieros , tamaños de archivos de Internet o comportamiento humano ; para más ejemplos, consulte . Ha habido enormes esfuerzos para comprender el origen de la ley de Zipf y, más en general, el origen de la escala en sistemas complejos. Hay tres rutas principales para escalar: procesos multiplicativos, procesos preferenciales y criticidad autoorganizada . Se han propuesto varios otros mecanismos que están más o menos relacionados con estas rutas básicas de escalado (por ejemplo ).

Recientemente, se ha introducido una cuarta ruta independiente para escalar sobre la base de procesos estocásticos que reducen sus resultados potenciales (espacio de muestra) a lo largo del tiempo . Estos son procesos aleatorios dependientes de la historia que han sido estudiados en diferentes contextos en la literatura matemática, y más recientemente en el contexto de las leyes de escala . Un ejemplo de procesos de reducción de espacio de muestra es el siguiente. Piense en un conjunto de dados N donde el dado número 1 tiene una cara, el dado número 2 tiene dos caras (moneda), el dado número 3 tiene tres caras, y así sucesivamente. El número de matriz N tiene N caras. Comience seleccionando uno de los N dados al azar, digamos dado yo. Lanzar y registro de los obtenidos de valor nominal, que se dicen k. A continuación, tomar morir número de k − 1 lanzar, recibir j, expediente j, tomar morir número j − 1, tirar, etc. Sigue lanzando dados de esta manera hasta que tires 1 por primera vez. Como no hay troquel con menos de 1 cara, el proceso termina aquí. La secuencia de valores faciales registrados en la prescripción anterior (i, k, j, … , 1) obviamente está estrictamente ordenada o anidada, i > k > j > di > 1. En, se demostró rigurosamente que si este proceso se repite muchas veces, la distribución de los resultados (valores faciales 1, 2, N , N) es una ley exacta de Zipf, es decir, la probabilidad de observar un valor facial m en el proceso anterior (secuencia de lanzamientos) es exactamente PN(m) = m−1, dado que comenzamos con N dados. Tenga en cuenta que es necesario mantener N fijo durante las repeticiones del proceso para obtener la ley Zipf exacta. Si N varía durante las repeticiones, claramente la escala de Zipf está presente de forma asintótica para rangos altos; sin embargo, debido a la mezcla de diferentes N, aparecerán desviaciones de la ley exacta de Zipf para rangos bajos.

Más formalmente, cada dado N tiene un espacio de muestra, denotado por ΩN = {1, 2,…, N}, que es el número de resultados potenciales, es decir, el número de caras de dados N. Lanzar estos dados de la manera anterior da lugar a una secuencia de espacios de muestra anidados

Fórmula de visualización

1.2

La anidación de espacios de muestra en una secuencia dependiente del historial está en el corazón del origen de las leyes de escala en este tipo de proceso. Para más detalles, vea donde también se muestra que si se agrega ruido a los procesos dependientes del historial, se obtiene la ley de escalado PN(m) m m-λ, donde 0 << 1 es el nivel de ruido.

En este artículo, presentamos una derivación de la ley de frecuencias de palabras de Zipf, basada en un modelo simple para la formación de oraciones/discursos. El modelo está motivado por la observación de que el proceso de formar una oración, o más generalmente un discurso, es un proceso de reducción del espacio de muestra dependiente de la historia. Las palabras no se extraen al azar del espacio de muestra de todas las palabras posibles, sino que se usan en relaciones estrictas entre sí. El uso de palabras específicas en una oración restringe en gran medida el uso de palabras consecutivas, lo que lleva a un proceso de anidamiento (o reducción del espacio de muestra), similar al descrito anteriormente. El colapso del espacio de muestra en los textos es necesario para transmitir información significativa. De lo contrario, cualquier interpretación, incluso en términos metafóricos o poéticos, se volvería imposible. Vamos a hacer el punto más concreto con un ejemplo para la formación de una oración, donde las restricciones gramaticales y contextuales (que reducen el espacio de muestra) están en el trabajo (figura 2). Formamos la frase: «El lobo aúlla en la noche». En principio, la primera palabra ‘El lobo’ (ignorando artículos y preposiciones por el momento) se puede extraer de todas las palabras posibles. Supongamos que existen N palabras posibles, y denotan el espacio de muestra respectivo por ΩN = {1, 2, N, N}, donde cada número representa ahora una palabra. Esto se ilustra esquemáticamente en la figura 2a. Dado que elegimos’ El lobo ‘ de ΩN = {1, 2, N , N}, figura 2b, la siguiente palabra ahora (generalmente) no se elegirá de ΩN = {1, 2,…, N}, sino de un subconjunto de ella (figura 2c). Imagine que el subconjunto contiene palabras L, tenemos ΩL Ω ΩN. Normalmente, esperamos que el subconjunto contenga palabras que estén asociadas a propiedades de caninos, funciones biológicas, otros animales, etc. pero ya no todas las palabras posibles. Una vez que especificamos la segunda palabra ‘aullidos’ ∈ ΩL, el contexto, la inteligibilidad y la estructura gramatical restringen aún más el espacio de muestra para la tercera palabra a ΩM Ω ΩL, de la que finalmente sacamos ‘noche’. Obviamente, la anidación en la formación de oraciones es similar al ejemplo de los dados anidados antes. El anidamiento se impone a través de restricciones gramaticales y/o contextuales y/o interpretativas.

Figura 2.

Figura 2. Vista esquemática de la anidación en la formación de oraciones. (a) Entre todas las N palabras potenciales que definen el espacio de muestra inicial, elegimos ‘lobo’ (b). Esta opción restringe el espacio de muestra para la siguiente palabra (círculo naranja) que tiene que ser gramaticalmente y semánticamente compatible con ‘lobo’. (c) De este conjunto, elegimos ‘aullidos’, que reduce de nuevo el espacio de muestra (círculo rojo) (d), ya que la siguiente palabra debe ser coherente tanto semántica como gramaticalmente con ‘aullidos de lobo’. La secuencia de palabras muestra una estructura anidada. El efecto del colapso del espacio de muestra también está presente en el contexto más amplio de la formación del discurso, ya que un tema y su desarrollo retórico imponen una restricción anidada sucesiva en el espacio de muestra. (Versión en línea en color.)

El papel de la gramática para el anidamiento es obvio. Típicamente en inglés, la primera palabra es un sustantivo con el papel gramatical del sujeto. El hecho de que la primera palabra sea un sustantivo restringe las posibilidades de la siguiente palabra al subconjunto de frases verbales. Dependiendo del verbo elegido en particular, las palabras que ahora pueden seguir suelen desempeñar el papel gramatical del objeto y, de nuevo, son más restringidas. Usamos los términos reducción de espacio de muestra y estructura jerárquica anidada en oraciones indistintamente. No es solo la estructura gramatical la que impone restricciones consecutivas al espacio muestral de palabras a medida que avanza la oración; la necesidad de inteligibilidad tiene el mismo efecto. Sin estructuras jerárquicas (al menos parciales) en la formación de oraciones, su interpretación sería muy difícil . Sin embargo, las estructuras anidadas en oraciones generalmente no se realizarán estrictamente. De lo contrario, el uso creativo y la flexibilidad del lenguaje se verían gravemente limitados. A veces, las palabras pueden actuar como una bisagra lingüística, lo que significa que permiten muchas más palabras consecutivas de las que estaban disponibles para su palabra anterior. Uno espera que la anidación se realice solo hasta cierto punto. El anidamiento imperfecto permite cierto grado de ambigüedad en el código lingüístico y es una de las fuentes de su asombrosa versatilidad .

En este artículo, cuantificamos el grado de anidación de un texto a partir de su matriz de transición de palabras M (red). Para caracterizar la estructura jerárquica de un texto con un solo número, definimos su anidamiento n como una propiedad de M por

Fórmula de visualización

1.3

donde el promedio se toma sobre todos los pares de palabras posibles (i, j). La anidación es un número entre 0 y 1, y especifica hasta qué punto la reducción de espacio de muestra está presente en promedio en el texto.1 Un sistema estrictamente anidado, como el que se muestra en la ecuación (1.2), tiene n(M) = 1. En términos lingüísticos, la anidación estricta es claramente poco realista.

Utilizamos matrices de transición de palabras de textos reales en inglés, que sirven como entrada a un modelo simple para la formación de oraciones. Luego estudiamos las distribuciones de frecuencia de palabras de estos textos producidos artificialmente y las comparamos con las distribuciones de los textos originales. Por primera vez, mostramos que es posible relacionar la característica topológica de la anidación (local) en la formación de oraciones con las características globales de las distribuciones de frecuencia de palabras de textos largos. En este sentido, proponemos una manera de entender las estadísticas de frecuencias de palabras—en particular, la ley de Zipf—por la característica estructural real del lenguaje, la anidación, sin necesidad de recurrir a intentos anteriores, incluidos procesos multiplicativos, apego preferencial o criticidad autoorganizada, que, en el contexto del lenguaje, a veces parecen basarse en suposiciones fuertes e inverosímiles.

Modelo

asumimos un vocabulario finito de N palabras. A partir de cualquier texto, obtenemos una matriz empírica de transición de palabras M. Las palabras se etiquetan con índices latinos. Mij = 1 significa que en el texto encontramos al menos una ocasión en la que la palabra j sigue directamente a i; si Mij = 0, la palabra j nunca sigue a i en todo el texto. La Figura 3a muestra la matriz de transición para el origen de las especies. Para cuantificar el espacio de muestra para palabras individuales, tenga en cuenta que una línea i en M contiene el conjunto de palabras, Ωi = {k|Mik = 1}, que siguen directamente a la palabra i. Por |Ωi|, denotamos el tamaño (número de elementos) de Ωi, que es el número de palabras diferentes que pueden seguir a i. Ωi es una aproximación para el volumen del espacio de muestra que es accesible después de que se haya producido la palabra i. Diferentes palabras tienen diferentes volúmenes de espacio de muestra (figura 3b), donde se muestra el perfil de espacio de muestra. Parametrizamos el perfil como yk = x, donde x corresponde al volumen del espacio de muestra | / Ωi/, e y al índice del espacio de muestra i. Llamamos a un sistema anidado linealmente si κ = 1 (como en la ecuación (1.2)), anidado débilmente para κ < 1 y anidado fuertemente si κ > 1 (como en la figura 3b). Se puede ver un ejemplo de un perfil débilmente anidado en una de las inserciones de la figura 4c. El parámetro κ tiene una interpretación intuitiva en términos de una medida de «estructuralidad» de las transiciones de palabras. En el caso de un perfil débilmente anidado (κ < 1), hay muchas palabras que pueden ser seguidas por muchas palabras diferentes, mientras que en un perfil fuertemente anidado (κ > 1), hay algunas palabras que son seguidas por muchas otras palabras, y muchas palabras que solo pueden ser seguidas por unas pocas. En este sentido, κ mide hasta qué punto las transiciones de palabras están efectivamente restringidas.

Figura 3.

Figura 3. Sección de la matriz de transición de palabras M para las 250 palabras que muestran el mayor volumen de espacio de muestra de palabras consecutivas (a). Una entrada negra (Mij = 1) significa que una palabra dada i (eje y) es seguida por la palabra j (eje x). El anidamiento no trivial se ve por la forma aproximada de embudo de la densidad de las palabras. El valor real del volumen del espacio de muestra para cada palabra i, |Ωi|, se muestra en (b), que se obtiene desplazando todas las entradas de las líneas i a las posiciones más a la izquierda. Llamamos (b) el perfil del espacio de muestra.

Figura 4.

Figura 4. exponentes α de distribuciones de frecuencia de palabras ordenadas por rango de 10 libros versus resultados de modelos para un modelo (a). Claramente, el modelo explica los valores reales en gran medida. (b) exponentes α versus anidamiento n (M) de los 10 libros. (c) exponentes de amodelo versus el parámetro de perfil de espacio muestral κ. Para vocabularios grandes N = 100 000, en κ 1 1, se produce una transición rápida del anidamiento débil al régimen de anidamiento fuerte, donde encontramos amodelo 0 0 y amodelo 1 1, respectivamente. Los perfiles de anidamiento débiles y fuertes se indican esquemáticamente. Para N más pequeño (realista), la transición aparece en κ < 1, y un modelo cubre un rango entre aproximadamente 0.85 y 1.1 en la fase de escalado, que se ajusta al rango empírico visto en (a). (Versión en línea en color.)

Tenga en cuenta que el perfil de la figura 3b en realidad no está bien equipado con una ley de potencia; la razón de la parametrización es un argumento puramente teórico que se aclarará a continuación. Excluimos las palabras que van seguidas de menos de dos palabras diferentes en todo el texto, es decir, eliminamos todas las líneas i de M para las que |Ωi / < 2. La anidación estricta no debe confundirse con la anidación fuerte o débil. Estas últimas son propiedades del perfil de espacio de muestra.

Para pruebas estadísticas, construimos dos versiones aleatorias de M, y las designamos por Mrand y Mrow-perm, respectivamente. La Mrand se obtiene permutando aleatoriamente las filas de las líneas individuales de la matriz M. Esto mantiene el número de entradas distintas de cero en cada línea igual que en la matriz original M, pero destruye su anidamiento y la información que las palabras se siguen entre sí. La segunda versión aleatoria Mrow-perm se obtiene permutando las filas (enteras) de la matriz M. Esto mantiene el nido de la matriz sin cambios, pero destruye la información sobre las transiciones de palabras.

Dado M, construimos oraciones aleatorias de longitud L con el siguiente modelo:

– Elige una de las N palabras al azar. Di que la palabra era i. Escribe i en una lista de palabras W, de modo que W = {i}.

– Salta a la línea i en M y elige aleatoriamente una palabra del conjunto Ωi. Diga que la palabra elegida es k; actualice la lista de palabras W = {i, k}.

– Salta a la línea k y elige una de las palabras de Ωk; digamos que obtienes j y actualizas W = {i, k, j}.

— Repita el procedimiento L veces. En esta etapa, se forma una oración aleatoria.

— Repita el proceso para producir Nsent frases.

De esta manera, obtenemos una lista de palabras con entradas L × Nsent, que es un libro aleatorio que se genera con la matriz de transición de palabras de un libro real. De la lista de palabras, obtenemos el modelo de distribución de frecuencia de palabras fm. El modelo actual es similar al de, pero difiere en tres aspectos: permite el anidamiento no perfecto n < 1, no tiene un componente de ruido explícito y tiene una longitud de secuencia (oración) fija.

Resultados

Analizamos el modelo con simulaciones por ordenador, especificando L = 10 y Nsent = 100 000. Utilizamos 10 libros elegidos aleatoriamente 2 del Proyecto Gutenberg (www.gutenberg.org). Para cada libro, determinamos su vocabulario N, su matriz M, su Ωi para todas las palabras, su anidamiento n (M) y el exponente de la distribución de frecuencia de palabras ordenada por rango α(ajustes mínimos cuadrados a f (r), rango de ajuste entre 5 ≤ r ≤ 200). f (r) se muestra para el origen de las especies en la figura 1 (azul); el exponente es α 0 0.90. Ejecutamos el modelo para los parámetros de cada libro individual para generar un texto aleatorio. El uso del Ωi empírico para el modelo asegura que este texto aleatorio tenga exactamente el mismo perfil de espacio de muestra y la anidación que el libro.

La distribución obtenida del modelo fmodel es claramente capaz de reproducir el exponente de la ley de potencia aproximada para El origen de la especie, amodel 0 0.86 (mismo rango de ajuste). Además, captura detalles de la distribución f. Para valores grandes de r en el modelo fm(r), se está formando una meseta antes de que se observe el corte de tamaño finito exponencial. Tanto la meseta como el punto de corte se pueden comprender completamente con el modelo aleatorizado.

En la figura 4a, comparamos los exponentes α extraídos de los libros con el modelo de resultados amodel. El modelo obviamente explica los valores reales en gran medida, subestimando ligeramente los exponentes reales. Obtenemos un coeficiente de correlación de ρ = 0.95 (p < 3.7 × 10-5). En la figura 4b, mostramos que el anidamiento n (M) está relacionado con los exponentes α de una manera aproximadamente lineal. Probamos la hipótesis de que al destruir el nido los exponentes desaparecerán. Usando la Mrand aleatoria, encontramos Fórmula en línea( mismo rango de ajuste), que destruye efectivamente la ley de potencia. Usando la otra versión aleatoria que mantiene el nido intacto, Mrow-perm, para palabras de bajo rango (hasta un rango aproximado de aprox. 10), encontramos distribuciones de frecuencia de palabras similares a las de M; sin embargo, como era de esperar, la cola de la ley de potencia (rangos altos) desaparece para Mrow-perm debido a la contribución de ruido de la aleatorización (no se muestra). Para validar nuestra suposición de que el orden de palabras es esencial, calculamos las distribuciones de rango del modelo utilizando la matriz transpuesta MT, lo que significa que invertimos el flujo de tiempo en el modelo. Encontramos dos resultados. En primer lugar, la correlación entre los exponentes de los libros α y el modelo Fórmula en línea desaparece, reflejada por un coeficiente de correlación insignificante ρ = 0.47 (p = 0.17). En segundo lugar, los exponentes (promediados en los 10 libros) son significativamente más pequeños, Fórmula en línea que para el flujo de tiempo correcto, donde obtenemos Fórmula en línea La p-el valor de una prueba t es 0,039.

Finalmente, tratamos de entender la importancia del perfil de espacio de muestra en los exponentes de escala. Para ello, generamos una serie de matrices M que tienen un perfil parametrizado con una potencia κ. En la figura 4c, los exponentes modelo amodel de estos M generados artificialmente se muestran en función de κ, para varios tamaños de vocabulario N. Para κ < 1 (anidamiento débil), encontramos exponentes amodel ≈ 0, es decir, sin ley de escalado. Para N grande en κ = 1, se produce una transición rápida a amodelo ≈ 1 (Zipf). Para N más pequeño, encontramos un comportamiento más complicado de la transición, construyendo un exponente máximo en κ < 1. El rango de exponentes de libro α oscila entre 0,85 y 1.1, que es exactamente el rango observado para tamaños de vocabulario realistas N 1 1000-10 000. Verificamos que las variaciones en la longitud de la oración (con la excepción de L = 1) no cambian los resultados reportados. Para oraciones de una sola palabra (L = 1), obviamente obtenemos una distribución de frecuencia de palabras uniforme y, como consecuencia, una distribución de rango plano, ya que la mayoría de las palabras tienen casi el mismo rango. Variamos el número de oraciones de Nsent = 104 a 106, y no encontramos prácticamente ninguna influencia en los resultados reportados.

Discusión

En este artículo, nos centramos en la propiedad fundamental de la anidación en cualquier código que transmita información significativa, como el lenguaje. Argumentamos que si el anidamiento no estuviera presente, uno terminaría fácilmente en situaciones confusas como se describe en La Biblioteca de Babel de J. L. Borges, donde una biblioteca hipotética posee todos los libros compuestos de todas las combinaciones posibles de caracteres que llenan 410 páginas. Definimos y cuantificamos un grado de anidamiento en el código lingüístico. Los bajos grados de anidación típicamente implican una jerarquía menos estricta en el uso de palabras o un uso más igualitario del vocabulario, que los textos con anidación alta. Como era de esperar, los textos tienen una estructura bien definida, pero no estrictamente anidada, que podría surgir de un compromiso de especificidad (para transmitir mensajes inequívocos) y flexibilidad (para permitir un uso creativo del lenguaje). Encontramos que la anidación varía entre los diferentes textos, lo que sugiere que funcionan diferentes formas de usar el vocabulario y la gramática. Nuestra muestra de textos incluía tres obras de Shakespeare, tres textos científicos y cuatro novelas. Encontramos que las obras de teatro, tal vez más cercanas al lenguaje hablado, muestran un nido más bajo que los libros de ciencia. Las novelas muestran los niveles más altos de anidación. La muestra es demasiado pequeña para sacar conclusiones sobre si los diferentes tipos de textos se caracterizan por valores típicos de anidación; sin embargo, es notable que la anidación esté correlacionada con las variaciones de los exponentes de escala de las frecuencias de palabras libro por libro.

El principal hallazgo de este artículo es que un modelo simple de reducción de espacio de muestra puede mostrar que la anidación explica la aparición de leyes de escala en frecuencias de palabras, en particular, la ley de Zipf. Más precisamente, pudimos relacionar la aparición de leyes de escalado con la estructura topológica de la matriz de transición de palabras, o ‘espacio de fases’. El resultado es notable, ya que la matriz no codifica ninguna información sobre la frecuencia con la que la palabra j sigue a la palabra i, solo dice que j siguió a i al menos una vez en todo el texto. Las permutaciones aleatorias de la matriz que destruyen su nido ya no pueden explicar la escala, mientras que las permutaciones que mantienen el nido intacto indican la existencia de las leyes de poder. Además, es notable que no se necesiten suposiciones críticas preferenciales, multiplicativas o autoorganizadas (no locales) para comprender la escala observada, y que no se necesiten parámetros más allá de las matrices de transición de palabras.

El hecho de que el modelo simple tenga tanto éxito en la reproducción de la propiedad de escala detallada en las estadísticas de frecuencia de palabras podría apuntar a un aspecto importante del lenguaje que no se ha observado hasta ahora; el hecho de que el uso general de palabras está fuertemente influenciado estadísticamente por el uso de estructuras jerárquicas locales y restricciones que usamos en la generación de oraciones. Creemos que la estrecha relación entre la anidación y el exponente de escala abre la puerta a una interpretación de las distribuciones de frecuencia de palabras como un observable estadístico que depende en gran medida del uso del vocabulario y la gramática dentro de un idioma. En consecuencia, conjeturamos que la ley de Zipf podría no ser universal, pero que las estadísticas de uso de palabras dependen de estructuras locales que pueden ser diferentes entre los textos e incluso dentro de las oraciones. Es necesario seguir investigando para aclarar este punto.

Finalmente, vale la pena señalar que la clase de procesos de reducción de espacio de muestra proporciona una ruta independiente a la escala que podría tener una amplia gama de aplicaciones para procesos dependientes de la historia y de envejecimiento . En física estadística, se sabe que los procesos que reducen sucesivamente su espacio de fases a medida que se desarrollan se caracterizan por la ley de potencia o funciones de distribución exponencial estiradas. Estas distribuciones genéricamente surgen como consecuencia del colapso del espacio de fases .

Contribuciones de los autores

S. T. diseñó la investigación, realizó análisis numéricos y escribió el manuscrito. R. H. y B. C.-M. realizaron análisis numéricos y escribieron el manuscrito. B. L. hizo el preprocesamiento de los libros y realizó análisis numéricos.

intereses contrapuestos

Los autores declaran no hay intereses financieros.

Financiación

Este trabajo contó con el apoyo del Fondo Científico Austríaco FWF en el marco de KPP23378FW.

Notas al pie de página

Notas al final

1 Tenga en cuenta que el indicador de anidación en la ecuación (1.3) es razonable solo para el caso en que la probabilidad de que dos palabras i, j tengan el mismo espacio de muestra es muy baja, p(Ωi = Ωj) ≈ 0. Este es el caso de las matrices de transición consideradas.

2 En particular, utilizamos Una tragedia americana, de Theodore Dreiser; El origen de las especies, el descenso del hombre y las diferentes formas de plantas, de Charles Darwin; Cuento de dos ciudades y David Copperfield, de Charles Dickens; Romeo y Julieta, Enrique V y Hamlet, de William Shakespeare; y Ulises, de James Joyce. El vocabulario varía de N = 3102 (Romeo y Julieta) a 22 000 (Ulises) palabras.

© 2015 El Autor(s), Publicado por la Royal Society. Todos los derechos reservados.
  • 1
    Zipf GK. 1949 Comportamiento humano y el principio del mínimo esfuerzo. Reading, MA: Addison-Wesley. Google Scholar
  • 2
    Mandelbrot B. 1953 Una teoría informacional de la estructura estadística del lenguaje. Teoría de la comunicación (ed. & Jackson W). Londres, Reino Unido: Butterworths. Google Scholar
  • 3
    Harremoës P& Topsøe F. 2001 Fundamentos máximos de entropía. Entropy 3, 191-226. (doi:10.3390 / e3030191). Crossref, Google Scholar
  • 4
    Ferrer i Cancho R& Solé RV. 2003el último esfuerzo y los orígenes de la escala en el lenguaje humano. Proc. Natl Acad. Sci. USA 100, 788-791. (doi:10.1073 / pnas.0335980100). Crossref, PubMed, Google, Google Scholar
  • 5
    Corominas-Murtra B, Fortuny J& Solé RV. 2011Mergencia de la ley de Zipf en la evolución de la comunicación. Phys. Apo. E 83, 036115. (doi: 10.1103 / PhysRevE.83.036115). Crossref, Google, Google Scholar
  • 6
    Simon HA. 1955En una clase de funciones de distribución sesgadas. Biometrika 42, 425-440. (doi:10.1093/biomet/42.3-4.425). Crossref, Google, Google Scholar
  • 7
    Zanette DH & Montemurro MA. 2005 Dinámica de generación de texto con distribución realista de Zipf. J. Quant. Lingüista. 12, 29–40. (doi:10.1080 / 09296170500055293). Crossref, Google Scholar
  • 8
    Li W. 1992 Los textos de Random exhiben una distribución de frecuencias de palabras similar a la ley de Zipf. IEEE Trans. Informar. Theory 38, 1842-1845. (doi:10.1109 / 18.165464). Crossref, Google, Google Scholar
  • 9
    Miller GA. 1957 Algunos efectos del silencio intermitente. Ser. J. Psychol. 70, 311–314. (doi:10.2307 / 1419346). Crossref, PubMed, Google, Google Scholar
  • 10
    Miller GA& Chomsky N. 1963 Modelos finitarios de usuarios de idiomas. Handbook of mathematical psychology, vol. 2 (eds , Luce RD, Bush R& Galanter E), págs. 419 a 491. Nueva York, NY: Wiley. Google Scholar
  • 11
    Kosmidis K, Kalampokis A& Argyrakis P. 2006 Enfoque estadístico mecánico del lenguaje humano. Phys. A 366, 495-502. (doi: 10.1016 / j. physa.2005.10.039). Crossref, Google, Google Scholar
  • 12
    Wichmann S. 2005 sobre la distribución de la ley de poder de los tamaños de las familias lingüísticas. J. Linguist. 41, 117–131. (doi:10.1017 / S002222670400307X). Crossref, Google, Google Scholar
  • 13
    Serrano MA, Flammini A& Menczer F. 2009 modeLización de propiedades estadísticas de texto escrito. PLoS ONE 4, e5372. (doi: 10.1371 / journal.ponga.0005372). Crossref, PubMed, Google, Google Scholar
  • 14
    Zanette DH & Montemurro MA. 2011 Entropía universal de ordenación de palabras a través de familias lingüísticas. PLoS ONE 6, e19875. (doi: 10.1371 / journal.ponga.0019875). Crossref, PubMed, Google, Google Scholar
  • 15
    Font-Clos F, Boleda G& Corral A. 2013A ley de escalado más allá de la ley de Zipf y su relación con la ley de Montones. N. J. Phys. 15, 093033. (doi:10.1088/1367-2630/15/9/093033). Crossref, Google, Google Scholar
  • 16
    Yan X-Y& Minnhagen P. 2014Comment sobre «Una ley de ampliación más allá de la ley de Zipf y su relación con la ley de montones».’. (http://arxiv.org/abs/1404.1461). Google Scholar
  • 17
    Kawamura K& Hatano N. 2002universalidad de la ley de Zipf. J. Phys. Soc. Jpn 71, 1211-1213. (doi: 10.1143 / JPSJ.71.1211). Crossref, Google Scholar
  • 18
    Axtell RL. 2001Zipf distribución de tamaños de empresas estadounidenses. Science 293, 1818-1820. (doi: 10.1126 / science.1062081). Crossref, PubMed, Google, Google Scholar
  • 19
    Makse H-A, Havlin S& Stanley HE. 1995Modelling urban growth patterns. Nature 377, 608-612. (doi:10.1038 / 377608a0). Crossref, Google, Google Scholar
  • 20
    Krugman P. 1996frontando el misterio de la jerarquía urbana. J. Jpn Int. Economía. 10, 399–418. (doi: 10.1006 / jjie.1996.0023). Crossref, Google, Google Scholar
  • 21
    En blanco A& Solomon S. 2000 Leyes de potencia en la población de las ciudades, los mercados financieros y los sitios de Internet. Phys. A 287, 279-288. (doi:10.1016 / S0378-4371 (00)00464-7). Crossref, Google, Google Scholar
  • 22
    Decker E-H, Kerkhoff A-J& Moses M-E. 2007 Patrones globales de distribuciones de tamaño de ciudad y sus impulsores fundamentales. PLoS UNO 2, 934. (doi: 10.1371 / journal.ponga.0000934). Crossref, Google, Google Scholar
  • 23
    Stanley HE, Buldyrev S, Goldberger A, Havlin S, Peng C& Simons M. 1999 Características de escala de ADN no codificante. Phys. A 273, 1-18. (doi:10.1016 / S0378-4371 (99)00407-0). Crossref, PubMed, Google, Google Scholar
  • 24
    Zanette D-H& Manrubia S-C. 2001 Transmisión vertical de cultura y distribución de apellidos. Phys. A 295, 1-8. (doi:10.1016 / S0378-4371 (01)00046-2). Crossref, Google, Google Scholar
  • 25
    Pareto V. 1896Cours d’Economie Politique. Ginebra, Suiza: Droz. Google Scholar
  • 26
    Okuyama K, Takayasu M& Takayasu H. 1999zipf’s law in income distribution of companies. Phys. A 269, 125-131. (doi:10.1016 / S0378-4371 (99)00086-2). Crossref, Google, Google Scholar
  • 27
    Gabaix X, Gopikrishnan P, Plerou V& Stanley H-E. 2003A theory of power-law distributions in financial market fluctuations. Nature 423, 267-270. (doi:10.1038 / nature01624). Crossref, PubMed,Google, Google Scholar
  • 28
    Reed WJ & Hughes BD. 2002From gene families and genera to incomes and internet file sizes: why power laws are so common in nature (en inglés). Phys. Apo. O 66, 067103. (doi: 10.1103 / PhysRevE.66.067103). Crossref, Google, Google Scholar
  • 29
    Thurner S, Szell M& Sinatra R. 2012Mergencia de las leyes de buena conducta, escalado y Zipf en secuencias de comportamiento humano en un mundo en línea. PLoS ONE 7, e29796. (doi: 10.1371 / journal.ponga.0029796). Crossref, PubMed, Google, Google Scholar
  • 30
    Newman MEJ. 2005 Leyes de potencia, distribuciones de Pareto y ley de Zipf. Contemp. Phys. 46, 323–351. (doi:10.1080 / 00107510500052444). Crossref, Google, Google Scholar
  • 31
    Solomon S& Levy M. 1996 Aparición de escamas espontáneas en sistemas estocásticos genéricos. Int. J. Mod. Phys. C 7, 745-751. (doi:10.1142 / S0129183196000624). Crossref, Google, Google Scholar
  • 32
    Malcai O, Biham O& Solomon S. 1999 Distribuciones de leyes de potencia y fluctuaciones intermitentes estables de Lévy en sistemas estocásticos de muchos elementos autocatalíticos. Phys. Apo. E 60, 1299-1303. (doi: 10.1103 / PhysRevE.60.1299). Crossref, Google, Google Scholar
  • 33
    Lu ET& Hamilton RJ. 1991aludes de la distribución de las llamaradas solares. Astrophys. J. 380, 89–92. (doi:10.1086 / 186180). Crossref, Google, Google Scholar
  • 34
    Barabási A-L& Albert R. 1999Mergencia del escalado en redes aleatorias. Science 286, 509-512. (doi: 10.1126 / science.286.5439.509). Crossref, PubMed, Google, Google Scholar
  • 35
    Bak P, Tang C& Wiesenfeld K. 1987 Criticidad autoorganizada: una explicación del ruido 1 / f. Phys. Reverendo Lett. 59, 381–384. (doi: 10.1103 / PhysRevLett.59.381). Crossref, PubMed, Google, Google Scholar
  • 36
    Saichev A, Malevergne Y& Sornette D. 2008Theory of Zipf’s law and of general power law distributions with Gibrat’s law of proportional growth. (http://arxiv.org/abs/0808.1828). Google Scholar
  • 37
    Pietronero L, Tosatti E, Tosatti V& Vespignani A. 2001Explicando la distribución desigual de los números en la naturaleza: las leyes de Benford y Zipf. Phys. A 293, 297-304. (doi:10.1016 / S0378-4371 (00)00633-6). Crossref, Google, Google Scholar
  • 38
    Thurner S& Tsallis C. 2005 Aspectos no extensivos de redes de gas sin escala autoorganizadas. Europhys. Lett. 72, 197–203. (doi:10.1209 / epl / i2005-10221-1). Crossref, Google Scholar
  • 39
    Corominas-Murtra B& Solé RV. 2010universidad de la ley de Zipf. Phys. Apo. E 82, 011102. (doi: 10.1103 / PhysRevE.82.011102). Crossref, Google, Google Scholar
  • 40
    Montroll E-W& Shlesinger M-F. 1982 Ruido en 1/f y otras distribuciones con colas largas. Proc. Natl Acad. Sci. USA 79, 3380-3383. (doi:10.1073 / pnas.79.10.3380). Crossref, PubMed, Google, Google Scholar
  • 41
    Corominas-Murtra B, Hanel R& Thurner S. 2015 Entendiendo el escalado a través de procesos dependientes del historial con un espacio de muestra colapsado. Proc. Natl Acad. Sci. USA 112, 5348-5353. (doi:10.1073 / pnas.1420946112). Crossref, PubMed, Google, Google Scholar
  • 42
    Kac M. 1989A secuencia aleatoria dependiente de la historia definida por Ulam. Adv. Appl. Matemáticas. 10, 270–277. (doi: 10.1016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
  • 43
    Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
  • 44
    Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref, PubMed, Google, Google Scholar
  • 45
    Hanel R& Thurner S. 2013Generalized (c, d) – entropía y caminatas aleatorias de envejecimiento. Entropy 15, 5324-5337. (doi:10.3390 / e15125324). Crossref, Google, Google Scholar
  • 46
    Partee BH. 1976Montague grammar. New York, NY: Academic Press. Google Scholar
  • 47
    Fortuny J& Corominas-Murtra B. 2013En el origen de la ambigüedad en la comunicación eficiente. J. Logic Lang. Informar. 22, 249–267. (doi:10.1007 / s10849-013-9179-3). Crossref, ISI, Google Scholar

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *