カナ入力汎用のテキストを作ろうとしている最中に思いついたこと

テキストの作り方を考えていて気がついたんですが、
文章のサンプルを、活用する部分と活用しない部分に分けると、連接頻度がまったく違うかも。


付属語は後者とみなす方向で計算することにします。

  • 自立語(語尾除く)
  • 語尾・付属語


というような感じで2群で分けてみました。
仮に前者を頭群、後者を尾群と呼びます。


以下予想。

  • 頭群は主に漢語の連接(「ょう」「ゅう」「かい」「かん」「てき」「こう」)に支配され、その他に「こと」「おも」「もの」「それ」「ひと」などが含まれる。
  • 尾群には、漢語に特徴的な連接があまり含まれず、「ょう」「する・して」「ない」「ある」「から」「る。」「ので」「って・った」「です」「れる」が多く含まれる。
  • 格助詞「の」「に」「が」「へ」は連接を持たずに孤立する。
  • 頭群の方が得られる連接組み合わせは多いが、分布がなだらか。
  • 反対に尾群は少数精鋭。