辞書の読み物性

提供:人工言語学Wiki

辞書の読み物性とは人工言語の辞書の読みごたえに関する指標の一つである。本来は "Fafs falira sashimi"氏が2014年に考案し、2015年7月に辞書の情報密度を表す数値として提案した。

手法

辞書の読み物性を測る手法としては、推敲や添削などで情報が整理(最適化)された辞書一単語の説明項目の文字数を測ることで測定が可能である。単位には cpw (Characters per Word) を使う。現時点では二通りの算出方法が提案されている。

PDIC 法

一般的な算出方法は、PDIC を使ったものである。

  1. 説明含めて最適化済みの人工言語の..dic ファイルを用意する。
  2. (ファイルサイズ÷単語数)を小数第三位切り捨てで計算する。

たとえば、リパライン語辞書 (2016/08/12日時点) は 203.58 cpw となっている。

おかゆメソッド

辞書から無作為に数百個或いは全部の単語をサンプリングし、それぞれの単語の項目の文字数の平均をとるという方法をおかゆ氏は提案している。

この方法を使うとPDIC形式だけに偏らず、またPDIC法の問題であった実際の文字数に関わりのない情報を遮断でき、標準偏差や記述の偏りをも見積もることができる。一方で、辞典形式を整えないためその形式による系統に誤差が出ることがある。

問題点・疑問点

  • どの程度の最適化が良いのかの基準が決まっていない。
  • 読みごたえに関する基準が決まっていない。