PDIC形式

PDIC 形式とは、PDIC において使われる辞書フォーマットである。

概要

この形式には大きく分けると以下の三つの形式で記すことができる。それぞれで保存方法が異なるので注意が必要である。

バイナリ形式
CSV 形式
一行テキスト形式

バイナリ形式版

バイナリ形式版では、複数のブロックで構成されたデータ部とブロックの順序・見出し語などを記録したインデックス部に分かれている。

使われている文字コードは Win32 版では Shift_JIS が、Unicode 版では BOCU-1 である。

見出し語を探る際にはまずインデックス部で検索し、そのあとに該当したデータ部を検索するため、少ないアクセス数で高速に検索することができ、単語を追加・削除・編集をする際にも、必要に応じてインデックス部やデータ部を書き換えるだけで済む。

画像や音声、文書データなどの埋め込みや暗号化・圧縮などにも対応している。

詳細な仕様は#外部リンクを参照。

CSV 形式版

CSV 形式版は、PDIC でのインポートやエクスポートを目的とした形式で、CSV (カンマ区切り)をベースとしているため表計算ソフトを使った編集が可能である。

PDIC からの出力時に使われている文字コードは Win32 版では Shift_JIS CRLF が、Unicode 版では BOM ありの UTF16-LE CRLF である。（入力時にはいくつかの文字コードに対応している）

一つの単語のレコードは一行で保管され、各項目間はカンマで区切っていく。ただし初めのレコードはヘッダーとして機能し、項目の順序を規定できる。デフォルトの項目の順序は以下のような並びである。

項目名	種類	内容	備考
word	文字列	見出し語
trans	文字列	訳語
exp	文字列	用例
level	数値	単語レベル	0 - 15
memory	数値	暗記マーク	0 : 暗記マーク無し 1 : 暗記マーク有り
modify	数値	修正マーク	0 : 修正マーク無し 1 : 修正マーク有り
pron	文字列	発音記号
filelink	文字列	ファイルリンク（OLEデータ）
keyword	文字列	検索キーワード

CSV の仕様上、項目内にカンマ(,)またはダブルクォーテーション(")を含む場合は、項目全体をダブルクォーテーション(")で囲まなくてはいけない（ダブルクォーテーションで囲まれている項目内部でダブルクォーテーションを使いたい場合は、それを二つ並べること("")で表現する）。この条件にあてはまらなければ、ダブルクォーテンションマークによる囲みは必須ではないが、PDICでの出力時には、数値以外の項目は全てダブルクォーテーションマークで囲まれている。

一行テキスト形式版

一行テキスト形式版は、CSV 形式と同じくインポートやエクスポートを目的とした形式で、一つの単語の情報が一行だけで表されている。

PDIC からの出力時に使われている文字コードは Win32 版では Shift_JIS CRLF が、Unicode 版では BOM ありの UTF16-LE CRLF である。（入力時にはいくつかの文字コードに対応している）

書式は以下の様になっている。

<見出し語> /// <訳語> / <用例>

用例がない場合は以下のように省略できる。

<見出し語> /// <訳語>

訳語、用例内で改行をする際は改行したい箇所に「スペース + バックスラッシュ + スペース」と置く。例えば「a(改行)b」であれば「a \ b」のように記述する。

ただしこの形式では、仕様上前後を空白に挟まれたスラッシュやバックスラッシュ、空白と行頭または行末に挟まれたスラッシュやバックスラッシュを含むことができない。また、「見出し語・訳語・用例」以外の項目を記述することができない。

PDICには、この形式を読み込む時、全角句読点などがすべて半角のカンマに書き換えられてしまうという不具合がある。

雑記

アルカの幻日辞典や俗アルカ辞典は、BOM 無しの UTF-8 CRLF の一行テキスト形式が用いられている。

外部リンク

概要

バイナリ形式版

CSV 形式版

一行テキスト形式版

雑記

関連記事

外部リンク