図2. 文形成における巣の模式図。 (a)最初の標本空間を定義するすべての潜在的なN語の中で、我々は’wolf’(b)を選択する。 この選択は、’wolf’と文法的および意味的に互換性がなければならない次の単語(オレンジ色の円)のサンプルスペースを制限します。 (c)このセットから、次の単語が意味的にも文法的にも’the wolf howls’と一貫していなければならないので、再びサンプル空間(赤い円)(d)を減らす’howls’を選択します。 単語のシーケンスは、ネストされた構造を示します。 サンプル空間崩壊の効果は、トピックとその修辞的発展がサンプル空間に連続したネストされた制約を課すので、談話形成のより広い文脈にも存在 (カラーでオンライン版。p>
ネストのための文法の役割は明らかです。 通常、英語では、最初の単語は主語の文法的役割を持つ名詞です。 最初の単語が名詞であるという事実は、次の単語の可能性を口頭フレーズのサブセットに制限します。 選択された特定の動詞に応じて、現在続くことができる単語は、通常、オブジェクトの文法的な役割を果たしており、再びより制限されています。 文の中でサンプル空間削減とネストされた階層構造という用語を交換可能に使用します。 文が進行するにつれて単語のサンプル空間に連続した制限を課すのは文法的構造だけでなく、明瞭度の必要性も同じ効果を有する。 文の形成に(少なくとも部分的に)階層構造がなければ、その解釈は非常に困難になるでしょう。 しかし、文の中の入れ子構造は、一般的に厳密には実現されません。 そうでなければ、言語の創造的な使用と柔軟性は真剣に制約されます。 時には単語は、それがその前の単語のために利用可能であったよりも、より多くの連続した単語を可能にすることを意味し、言語的ヒンジとして機 一つは、巣立ちがある程度だけ実現されることを期待しています。 不完全な入れ子は、言語コードのあいまいさの程度を可能にし、その驚くべき汎用性の源の一つです。
本稿では、その単語遷移行列M(ネットワーク)からテキストのネストの程度を定量化します。 単一の数字を持つテキストの階層構造を特徴付けるために、そのネストnをMのプロパティとして定義します。
1.3
ここで、平均はすべての可能な単語ペア(i,j)に引き継がれます。 Nestednessは0から1の間の数値であり、テキスト内に平均してサンプルスペースの削減がどの程度存在するかを指定します。1厳密にネストされたシステムは、式(1.2)に示されているように、n(M)=1を持ちます。 言語的には、厳密な巣立ちは明らかに非現実的です。
実際の英語テキストからの単語遷移行列を使用し、文形成のための簡単なモデルへの入力として機能します。 次に,これらの人工的に生成されたテキストの単語頻度分布を研究し,それらを元のテキストの分布と比較した。 初めて,文形成における(局所的)ネストの位相的特徴を長いテキストの単語頻度分布の大域的特徴に関連付けることができることを示した。 この点で,言語の文脈では強く信じられない仮定に頼ることがあるように見える乗法過程,優先的な愛着または自己組織化臨界を含む以前の試みに頼ることなく,言語の実際の構造的特徴,ネスト性によって,単語頻度の統計,特にZipfの法則を理解する方法を提案した。
モデル
我々は、n個の単語の有限の語彙を仮定します。 任意の与えられたテキストから,経験的単語遷移行列Mを得た。 Mij=1は、テキスト内で単語jがiに直接続く少なくとも一つの機会を見つけることを意味します。Mij=0の場合、単語jはテキスト全体でiに従うことはありません。 図3aは、種の起源の遷移行列を示しています。 個々の単語のサンプル空間を定量化するために、Mの行iには、単語iに直接続く単語の集合Ω I={k|Mik=1}が含まれていることに注意してください。|Ω I|によって、Ω Iの大きさ(要素数)を示し、これはiに続くことができる異なる単語の数である。Ω Iは、単語iが発生した後にアクセス可能なサンプル空間ボリュームの近似値である。 異なる単語には、異なるサンプル空間ボリュームがあります(図3b)。 ここで、xはサンプル空間ボリューム|Ω I|に対応し、yはサンプル空間インデックスiに対応します。λ=1の場合は線形ネストされたシステムを(式(1.2)のように)、λ<>1の場合は強くネストされたシステムを呼び出します(図3bのように)。 弱いネストされたプロファイルの例は、図4cのインセットのいずれかで見ることができます。 パラメータσは、単語遷移の”構造性”の尺度の観点から直感的な解釈を有する。 弱くネストされたプロファイル(.<
図3bのプロファイルは、実際にはべき乗則に適合していないことに注意してください。 すなわち、|Ω I|<2であるMからすべての行iを削除します。 厳密な巣立ちは、強いまたは弱い巣立ちと混同しないでください。 後者はサンプル空間プロファイルの特性である。統計的検定のために、Mの2つの無作為化バージョンを構築し、それらをそれぞれMrandとMrow-permで表します。 これは、すべての行のゼロ以外のエントリの数を元の行列Mと同じに保ちますが、そのネスト性と単語が互いに続く情報を破棄します。 第二のランダム化バージョンMrow-permは、行列Mの(全体の)行を置換することによって得られる。
Mが与えられたとき、次のモデルで長さLのランダムな文を構築します。
|
—n個の単語のうちの1つをランダムに選択します。
|
|
-n個の単語のうちの1つをランダムに選択します。 単語リストWにiを書き、W={i}となるようにします。
|
|
—Mの行iにジャンプし、セットΩ Iから単語をランダムに選択します。 単語リストW={i、k}を更新します。
|
|
—行kにジャンプし、Ω Kから単語のいずれかを選択します。jを取得し、w={i、k、j}を更新するとします。
|
|
—この手順をL回繰り返します。 この段階で、ランダムな文が形成されます。
|
|
—プロセスを繰り返してNsent文を生成します。このようにして、実際の本の単語遷移行列で生成されるランダムな本であるL×Nsentエントリを持つ単語リストを取得します。 単語リストから、単語頻度分布fmodelを取得します。 現在のモデルは、次のモデルと似ていますが、3つの側面が異なります。: これは、非完全なネストを可能にしますn<1、明示的なノイズ成分はなく、固定されたシーケンス(文)の長さを持ちます。
Results
コンピュータシミュレーションでモデルを解析し、L=10およびNsent=100 000を指定します。 プロジェクト-グーテンベルクからランダムに選ばれた10冊の本を使用しています(www.gutenberg.orgすべての本について、その語彙N、その行列M、すべての単語に対するΩ I、そのネスト性n(M)、およびランク順の単語頻度分布αの指数(最小二乗f(r)に適合し、5≤r≤200の範囲に適合する)を決定する。 f(r)は、図1(青)の種の起源について示されており、指数はα≤0.90です。 ランダムなテキストを生成するために、すべての個々の本のパラメータのモデルを実行します。 モデルに経験的Ω Iを使用すると、このランダムテキストが本とまったく同じサンプル空間プロファイルとネスト性を持つことが保証されます。
モデルfmodelから得られた分布は、種の起源、amodel≤0.86(同じフィット範囲)の近似べき乗則指数を明確に再現することができます。 さらに、分布fの詳細をキャプチャします。 Fmodel(r)内のrの大きな値に対して、指数有限サイズのカットオフが観測される前にプラトーが形成されます。 プラトーとカットオフの両方を無作為化モデルで完全に理解することができます。
図4aでは、書籍から抽出されたα指数をモデル結果amodelと比較します。 このモデルは明らかに実際の値を大きく説明し、実際の指数をわずかに過小評価しています。 相関係数はσ=0.95(p<3.7×10-5)です。 図4bでは、ネストするn(M)が指数αにほぼ線形に関連していることを示しています。 我々は、巣を破壊することによって指数が消えるという仮説を検定する。 ランダム化されたMrandを使用して、(同じフィット範囲)を見つけ、べき乗則を効果的に破壊します。 低ランクの単語(約ランク約まで)のために、ネストをそのまま保つ他のランダム化されたバージョン、Mrow-permを使用して。 10),我々は、Mと同様の単語頻度分布を見つけます; しかし、予想されるように、無作為化(図示せず)のノイズ寄与のために、Mrow-permのべき乗則テール(高ランク)は消失する。 単語の順序付けが不可欠であるという仮定を検証するために、転置行列MTを使用してモデルのランク分布を計算しました。 我々は二つの結果を見つけます。 まず、書籍αの指数とモデルの間の相関は、有意な相関係数σ=0.47(p=0.17)によって反映されて消えます。 第二に、指数(10冊の本で平均化)は有意に小さく、t検定の対応するp値は次のようになります。0.039
最後に、スケーリング指数上のサンプル空間プロファイルの重要性を理解しようとします。 このために,べき乗λでパラメータ化されたプロファイルを持つ一連のM行列を生成した。 図4cでは、これらの人工的に生成されたMからのモデル指数amodelは、様々なサイズの語彙Nについて、μの関数として示されています。μ<1(弱ネスティング)の場合、指数amodel≤0、すなわちスケーリング則がないことがわかります。 Λ=1の大きなNに対して、amodel λ1(Zipf)への高速遷移が発生します。 より小さいNの場合、遷移のより複雑な動作が見つかり、κ<1に最大指数が構築されます。 本の指数αの範囲は0.85から1の範囲です。1、これは正確に現実的な語彙サイズN≥1000-10 000のための観察された範囲です。 我々は、文の長さの変化(L=1を除く)が報告された結果を変化させないことを確認した。 1語の文(L=1)では、ほとんどの単語がほぼ同じランクを持つため、明らかに一様な単語頻度分布が得られ、結果として平坦なランク分布が得られます。 文の数をNsent=104から106に変更し、報告された結果に実質的に影響を与えませんでした。
Discussion
本稿では、言語などの意味のある情報を伝えるコードにおけるネストの基本的な性質に焦点を当てます。 ネストが存在しなければ、J.L.BorgesのLa Biblioteca de Babelに記載されているように、仮想的な図書館が410ページを埋めるすべての可能な文字の組み合わせで構成されるすべ 言語コードにおけるネストの程度を定義し、定量化する。 ネスト性の程度が低いと、通常、ネスト性の高いテキストよりも、単語の使用または語彙の平等主義的な使用に関する厳密な階層が低くなることを意 予想されるように、テキストは明確に定義されていますが、厳密にネストされた構造ではなく、特異性(明確なメッセージを伝えるため)と柔軟性(言語の創造的な使用を可能にするため)の妥協から生じる可能性があります。 私たちは、ネスト性が異なるテキスト間で変化することを見出し、語彙と文法を使用するさまざまな方法が働いていることを示唆しています。 テキストのサンプルには、シェイクスピアの三つの演劇、三つの科学的なテキスト、四つの小説が含まれていました。 私たちは、演劇は、おそらく話し言葉に最も近い、科学の本よりも低い巣を示していることがわかります。 小説は巣立ちの最高レベルを示しています。 サンプルは小さすぎて,異なるタイプのテキストがネストの典型的な値によって特徴づけられるかどうかについて結論を導くには不十分であるが,ネストが本ごとの単語頻度のスケーリング指数の変化と相関していることは注目に値する。
この論文の主な発見は、単純なサンプル空間削減モデルは、ネストが実際に単語の頻度、特にZipfの法則におけるスケーリング則の出現を説明するこ より正確には、スケーリング則の出現を単語遷移行列、すなわち”位相空間”の位相構造と関連付けることができた。 結果は、行列が単語jが単語iに続く頻度に関する情報をエンコードしないため、テキスト全体で少なくとも一度はjがiに続いていることを伝え 入れ子を破壊する行列のランダムな順列はスケーリングを説明することはできませんが、入れ子をそのまま維持する順列はべき則の存在を示します。 観測されたスケーリングを理解するために(非局所的な)優先的,乗法的または自己組織化された臨界仮定は必要なく,ワード遷移行列を超えてパラメータは必要ないことはさらに注目に値する。
単純なモデルが単語頻度統計における詳細なスケーリング特性を再現することに成功しているという事実は、これまでに注目されていない言 ネスト性とスケーリング指数との密接な関係は,言語内の語彙と文法の使用に強く依存する統計的観測可能な単語頻度分布の解釈のための扉を開くと信じている。 したがって,Zipfの法則は普遍的ではないかもしれないが,単語使用統計はテキスト間や文章内でさえ異なる可能性のある局所構造に依存すると推測した。 この点を明確にするためにはさらなる研究が必要である。
最後に、サンプル空間削減プロセスのクラスは、歴史に依存し、老化プロセスのためのアプリケーションの広い範囲を持っているかもしれないスケー 統計物理学では、展開するにつれて位相空間を連続的に減少させる過程は、べき乗則または伸張指数分布関数によって特徴付けられることが知られている。 これらの分布は、位相空間崩壊の結果として一般的に生じる。
著者の貢献
S.T. 研究を設計し、数値解析を行い、原稿を書いた。 R.H.とB.C.-M.は数値解析を行い、原稿を書いた。 B.L.は本の前処理を行い、数値解析を行った。
競合する利益
著者は競合する金銭的利益を宣言していません。
資金調達
この研究は、Kpp23378FWの下でオーストリアの科学基金FWFによって支援されました。
脚注
文末脚注
1式(1.3)は、同じサンプル空間を有する二つの単語i,jの確率が非常に低い場合、p(Ω I=Ω J)≤0の場合にのみ合理的である。 これは、考慮される遷移行列の場合です。
2特に、セオドア-ドライザーによるアメリカの悲劇、チャールズ-ダーウィンによる種の起源、人間の子孫、さまざまな形態の植物、チャールズ-ディケンズによる二つの都市とデビッド-コッパーフィールドの物語、ウィリアム-シェイクスピアによるロミオとジュリエット、ヘンリー Vとハムレット、ジェームズ-ジョイスによるユリシーズを使用している。 語彙は、N=3102(ロミオとジュリエット)から22 000(ユリシーズ)の単語まで変化します。
©2015The Author(s)Royal Societyによって出版されました。 すべての権利を保有します。
- 1
Zipf GK. 1949人間の行動と最小の努力の原則。 読み:アディソン=ウェスリー Google Scholar
- 2
Mandelbrot b.1953an言語の統計構造の情報理論。 コミュニケーション理論(ed. &ジャクソンW)。 イギリス、ロンドン:Butterworths。 Google Scholar
- 3
Harremoës P&Topsøe F.2001maximum entropy fundamentals. エントロピー3,191-226. (土井:10.3390/e3030191)。 Crossref,Google Scholar
- 4
Ferrer i Cancho R&ソレRV. 2003年、”人間の言語におけるスケーリングの起源”を発表。 プロク… ナトル-アカデミー所属。 サイ… 米国100、788-791。 (doi:10.1073/pnas。0335980100). Crossref,PubMed,ISI,Google Scholar
- 5
Corominas-Murtra B,Fortuny J&Solé RV. 2011年コミュニケーションの進化におけるZipfの法則の出現。 フィス 83-036115 (土井:10.1103/PhysRevE.83.036115). Crossref、ISI、Google Scholar
- 6
サイモン-ハ。 1955年、スキュー分布関数のクラスである。 バイオメトリカ42,425-440. (doi:10.1093/biomet/42.3-4.425)。 Crossref,ISI,Google Scholar
- 7
Zanette DH&Montemurro MA. 2005年、リアルなZipfの分布を持つテキスト生成のダイナミクス。 J.クァント 言語学者。 12, 29–40. (doi:10.1080/09296170500055293)。 Crossref,Google Scholar
- 8
Li W.1992ランダムテキストは、Zipfの法則のような単語頻度分布を示しています。 IEEE Trans. 情報提供 理論38、1842-1845。 (doi:10.1109/18.165464)。 Crossref、ISI、Google Scholar
- 9
ミラー GA。 1957年、”沈黙の間”でデビュー。 アム… J.Psychol. 70, 311–314. (doi:10.2307/1419346)。 Crossref,PubMed,ISI,Google Scholar
- 10
Miller GA&Chomsky N.1963言語ユーザーの完全なモデル。 数学心理学のハンドブック、vol. 2(eds,Luce RD,Bush R&Galanter E),pp.419-491. ニューヨーク、ニューヨーク:ワイリー。 Google Scholar
- 11
Kosmidis K,Kalampokis A&Argyrakis P. 2006年人間の言語への統計的な機械的アプローチ。 フィス 366,495-502 (土井:10.1016/j.physa.2005.10.039). Crossref,ISI,Google Scholar
- 12
Wichmann S.2005言語ファミリサイズのべき乗則分布について。 J.言語学者。 41, 117–131. (doi:10.1017/S002222670400307X)。 Crossref,ISI,Google Scholar
- 13
Serrano MA,Flammini A&Menczer F.2009書かれたテキストの統計的性質をモデル化します。 PLoS ONE4,e5372. (土井:10.1371/ジャーナル。ポネ0005372). 14
Zanette DH&Montemurro MA. 2011言語ファミリー全体の単語順序の普遍的なエントロピー。 PLoS ONE6,e19875. (土井:10.1371/ジャーナル。ポネ0019875). Crossref,PubMed,ISI,Google Scholar
- 15
Font-Clos F,Boleda G&コラールA.2013A Zipfの法則を超えたスケーリング法とヒープの法則との関係。 N.J.Phys. 15, 093033. (土井:10.1088/1367-2630/15/9/093033). Crossref、ISI、Googleの学者
- 16
ヤンX-Y&Minnhagen P. 2014年、”Zipfの法則を超えたスケーリング法とヒープとの関係”法に関するコメント。’. (http://arxiv.org/abs/1404.1461)。 Google Scholar
- 17
川村K&波多野N.2002Zipfの法則の普遍性。 J.Phys. Soc. Jpn71,1211-1213. (doi:10.1143/JPSJ.71.1211). Crossref,Google Scholar
- 18
Axtell RL. 2001年、米国の企業サイズの分布をzipf。 科学293、1818-1820。 (土井:10.1126/科学。1062081). Crossref,PubMed,ISI,Google Scholar
- 19
Makse H-A,Havlin S&スタンリー彼。 1995年都市の成長パターンをモデル化。 自然377、608-612。 (doi:10.1038/377608a0)。 Crossref,ISI,Google Scholar
- 20
Krugman P.1996都市階層の謎を解明する。 J.Jpn Int. エコン 10, 399–418. (土井:10.1006/jjie.1996.0023). Crossref、ISI、Google Scholar
- 21
空白A&ソロモンS.2000都市人口、金融市場、インターネットサイトにおける電力法。 フィス 287件中279-288件目 (doi:10.1016/S0378-4371(00)00464-7)。 Crossref,ISI,Google Scholar
- 22
Decker E-H,Kerkhoff A-J&Moses M-E.2007都市規模分布のグローバルパターンとその基本的なドライバー。 プロスワン2,934 (土井:10.1371/ジャーナル。ポネ0000934). Crossref,ISI,Google Scholar
- 23
Stanley HE,Buldyrev S,Goldberger A,Havlin S,Peng C&Simons M.1999NONCODING DNAのスケーリング機能。 フィス 273件中1-18件目 (doi:10.1016/S0378-4371(99)00407-0)。 Crossref,PubMed,ISI,Google Scholar
- 24
Zanette D-H&Manrubia S-C.2001文化のvertical伝達と家族の名前の分布。 フィス 295件中1-8件目 (doi:10.1016/S0378-4371(01)00046-2)。 Crossref,ISI,Google Scholar
- 25
Pareto V.1896cours d’Economie Politique. スイス-ジュネーヴ:ドロー。 Google Scholar
- 26
Okuyama K,Takayasu M&Takayasu H.1999zipfの企業の所得分布の法則。 フィス 269件中125-131件目 (doi:10.1016/S0378-4371(99)00086-2)。 Crossref,ISI,Google Scholar
- 27
Gabaix X,Gopikrishnan P,Plerou V&Stanley H-E.2003a金融市場の変動におけるべき乗則分布の理論。 自然423、267-270。 (doi:10.1038/nature01624)。 Crossref,PubMed,ISI,Google Scholar
- 28
リードWJ&ヒューズBD。 2002年遺伝子ファミリーと属から所得とインターネットファイルサイズへ:なぜ力の法則は自然の中でとても一般的です。 フィス 66-067103 (土井:10.1103/PhysRevE.66.067103). Crossref,ISI,Google Scholar
- 29
Thurner S,Szell M&Sinatra R.2012オンライン世界における人間の行動シーケンスにおける善行、スケーリング、Zipf法の出現。 PLoS ONE7,e29796. (土井:10.1371/ジャーナル。ポネ0029796). Crossref、PubMed、ISI、Google Scholar
- 30
Newman MEJ。 2005年、パレート分布とジップフの法則を発表した。 ——— フィス 46, 323–351. (doi:10.1080/00107510500052444)。 Crossref,ISI,Google Scholar
- 31
ソロモンS&レヴィM. 1996年、一般確率論的システムにおける非線型スケーリングの出現。 Int. J.Mod. フィス 745-751 (doi:10.1142/S0129183196000624)。 Crossref,ISI,Google Scholar
- 32
Malcai O,Biham O&Solomon S.1999多くの自己触媒要素の確率的システムにおける力則分布とレヴィ安定な断続的な変動。 フィス E60,1299-1303. (土井:10.1103/PhysRevE.60.1299). Crossref,ISI,Google Scholar
- 33
Lu ET&ハミルトンRJ. 1991年、太陽フレアの分布を調べた。 アストロフィーズ J. 380, 89–92. (doi:10.1086/186180)。 Crossref,ISI,Google Scholar
- 34
Barabási A-L&albert R.1999ランダムネットワークにおけるスケーリングの出現。 科学286,509-512. (土井:10.1126/科学。286.5439.509). Crossref,PubMed,ISI,Google Scholar
- 35
Bak P,Tang C&Wiesenfeld K.1987自己組織化された臨界:1/fノイズの説明。 フィス レット牧師 59, 381–384. (土井:10.1103/59.381). Crossref,PubMed,ISI,Google Scholar
- 36
Saichev A,Malevergne Y&Sornette D.2008zipfの法則とジブラートの比例成長の法則を持つ一般べき法則分布の理論。 (http://arxiv.org/abs/0808.1828)。 Google Scholar
- 37
Pietronero L,Tosatti E,Tosatti V&Vespignani A.2001自然界の数字の不均一な分布を説明する:ベンフォードとZipfの法則。 フィス 293件中297-304件を表示しています。 (doi:10.1016/S0378-4371(00)00633-6)。 Crossref,ISI,Google Scholar
- 38
Thurner S&Tsallis C.2005自己組織化されたスケールフリーのガスのようなネットワークの非拡張的側面。 ユーロフィーズ レット 72, 197–203. (doi:10.1209/epl/i2005-10221-1)。 Crossref,Google Scholar
- 39
Corominas-Murtra B&ソレRV. 2010年のZipfの法則の普遍性。 フィス 82-011102 (土井:10.1103/PhysRevE.82.011102). Crossref,ISI,Google Scholar
- 40
Montroll E-W&Shlesinger M-F. 1982on1/fノイズと長い尾を持つ他の分布。 プロク… ナトル-アカデミー所属。 サイ… 米国79、3380-3383。 (doi:10.1073/pnas。79.10.3380). Crossref,PubMed,ISI,Google Scholar
- 41
Corominas-Murtra B,Hanel R&Thurner S.2015サンプルスペースを折りたたむことで、履歴に依存するプロセスをスケーリングすることを理解しています。 プロク… ナトル-アカデミー所属。 サイ… 米国112、5348-5353。 (doi:10.1073/pnas。1420946112). Crossref,PubMed,ISI,Google Scholar
- 42
Kac M.1989A Ulamによって定義された履歴依存ランダムシーケンス。 Adv.Appl. 数学… 10, 270–277. (土井:101016/0196-8858(89)90014-6). Crossref, ISI, Google Scholar
- 43
Clifford P& Stirzaker D. 2008History-dependent random processes. Proc. R. Soc. A 464, 1105–1124. (doi:10.1098/rspa.2007.0291). Link, Google Scholar
- 44
Hanel R, Thurner S& Gell-Mann M. 2014How multiplicity of random processes determines entropy: derivation of the maximum entropy principle for complex systems. Proc. Natl Acad. Sci. USA 111, 6905–6910. (doi:10.1073/pnas.1406071111). Crossref,PubMed,ISI,Google Scholar
- 45
Hanel R&Thurner S.2013generalized(c,d)-エントロピーとエージングランダムウォーク。 エントロピー15,5324-5337. (doi:10.3390/e15125324)。 Crossref,ISI,Google Scholar
- 46
Partee BH. 1976年、東京藝術大学大学院美術研究科修士課程修了。 ニューヨーク、ニューヨーク:学術出版物。 Google Scholar
- 47
Fortuny J&Corominas-Murtra b.2013効率的なコミュニケーションにおけるあいまいさの起源について。 J.ロジックラング。 情報提供 22, 249–267. (土井:10.1007/s10849-013-9179-3)。 Crossref,ISI,Google Scholar
|