レーベンシュタイン距離

提供:人工言語学Wiki

レーベンシュタイン距離とは、単語の類似度を表す数値である。単語Aの文字列に何回文字を挿入・削除・変更することで単語Bの文字列になるかで2つの単語AとBの距離を表す。

詳細はWikipediaの同名の項目(レーベンシュタイン距離)を参照。

人工言語への応用

人工言語、特にアプリオリで単語を作成する言語においては、語形を自由に設定できるため、語形が類似の単語が多くなる傾向にある。すると音の聞き間違いや書き間違いによって、全く違う意味になる可能性が高くなる。(通常、自然言語では類似の単語が言い換えられるなどして淘汰されることがあるが、人工言語ではこのような仕組みは働きにくい。)

このようなリスクに対応するために、単語のレーベンシュタイン距離を計算し、類似の単語が多発しないようにするとよい。なお、このようなリスクは一部の人工言語作者から聞き間違いバッファと呼ばれている。