一行テキスト形式

提供:人工言語学Wiki

1行テキスト形式とは、PDICからのエクスポートやPDICへのインポートを目的とした辞書フォーマットの一つである。テキストファイルとなっているため、テキストエディタでも編集することができる。

アルカ幻日辞典俗アルカ辞典のデータとして、UTF-8(BOM無し) CRLF の1行テキスト形式が用いられている。

仕様

一つの単語について、見出し語、訳語、用例の3つの情報を並べて一行で表わす。見出し語と訳語の間は 「 /// 」(スラッシュ3つの前後に半角スペース) で、訳語と用例の間は 「 / 」(スラッシュの前後に半角スペース) で区切られる。また訳語や用例中の改行は 「 \ 」(バックスラッシュの前後に半角スペース) で表される。用例が存在しない場合は、「 / 」が省略される。

文字コード

PDIC for Win32で出力した1行テキスト形式のファイルは Shift_JIS CRLF、PDIC/Unicodeで出力した1行テキスト形式のファイルは UTF-16LE(BOM有り) CRLF となる。PDICにインポートする場合はこれら以外の文字コードもいくつか使用可能である。

問題点

  • 本文の中に " / " や " \ " という文字そのものを含むことができない
  • PDIC/Unicodeでインポートすると、全角句読点などが半角コンマに変わってしまう。
  • PDICは見出し語、訳語、用例以外にもさまざまな項目があるが、それらを表現することができない。

外部リンク