コンテンツにスキップ
サイドバーの切り替え
検索
アカウント作成
個人用ツール
アカウント作成
ログイン
案内
メインページ
最近の更新
おまかせ表示
MediaWikiについてのヘルプ
ツール
リンク元
関連ページの更新状況
特別ページ
ページ情報
PDIC形式のソースを表示
ページ
議論
日本語
閲覧
ソースを閲覧
履歴表示
その他
閲覧
ソースを閲覧
履歴表示
←
PDIC形式
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、以下のグループに属する利用者のみが実行できます:
登録利用者
。
ページの編集を始める前にメールアドレスの確認をする必要があります。
個人設定
でメールアドレスを設定し、確認を行ってください。
このページのソースの閲覧やコピーができます。
'''PDIC 形式'''とは、'''PDIC において使われる辞書フォーマット'''である。 == 概要 == この形式には大きく分けると以下の三つの形式で記すことができる。'''それぞれで保存方法が異なるので注意が必要である。''' * '''バイナリ形式''' * '''CSV 形式''' * '''一行テキスト形式''' === バイナリ形式版 === '''バイナリ形式版'''では、'''複数のブロックで構成されたデータ部とブロックの順序・見出し語などを記録したインデックス部'''に分かれている。 使われている文字コードは Win32 版では '''Shift_JIS''' が、Unicode 版では '''BOCU-1''' である。 '''見出し語を探る際にはまずインデックス部で検索し、そのあとに該当したデータ部を検索する'''ため、'''少ないアクセス数で高速に検索することができ、単語を追加・削除・編集をする際にも、必要に応じてインデックス部やデータ部を書き換えるだけ'''で済む。 画像や音声、文書データなどの埋め込みや暗号化・圧縮などにも対応している。 詳細な仕様は[[#外部リンク]]を参照。 === CSV 形式版 === '''CSV 形式版'''は、'''PDIC でのインポートやエクスポートを目的とした形式'''で、CSV (カンマ区切り)をベースとしているため'''表計算ソフトを使った編集が可能'''である。 PDIC からの出力時に使われている文字コードは Win32 版では '''Shift_JIS CRLF''' が、Unicode 版では '''BOM ありの UTF16-LE CRLF''' である。(入力時にはいくつかの文字コードに対応している) 一つの単語のレコードは一行で保管され、各項目間はカンマで区切っていく。ただし'''初めのレコードはヘッダーとして機能し、項目の順序を規定できる'''。デフォルトの項目の順序は以下のような並びである。 {| class="wikitable" !項目名!!種類!!内容!!備考 |- |word||文字列||見出し語|| |- |trans||文字列||訳語|| |- |exp||文字列||用例|| |- |level||数値||単語レベル||0 - 15 |- |memory||数値||暗記マーク||0 : 暗記マーク無し 1 : 暗記マーク有り |- |modify||数値||修正マーク||0 : 修正マーク無し 1 : 修正マーク有り |- |pron||文字列||発音記号|| |- |filelink||文字列||ファイルリンク(OLEデータ)|| |- |keyword||文字列||検索キーワード|| |} CSV の仕様上、'''項目内にカンマ(,)またはダブルクォーテーション(")を含む場合は、項目全体をダブルクォーテーション(")で囲まなくてはいけない'''('''ダブルクォーテーションで囲まれている項目内部でダブルクォーテーションを使いたい場合は、それを二つ並べること("")で表現する''')。この条件にあてはまらなければ、ダブルクォーテンションマークによる囲みは必須ではないが、PDICでの出力時には、数値以外の項目は全てダブルクォーテーションマークで囲まれている。 === 一行テキスト形式版 === '''一行テキスト形式版'''は、CSV 形式と同じく'''インポートやエクスポートを目的とした形式'''で、一つの単語の情報が一行だけで表されている。 PDIC からの出力時に使われている文字コードは Win32 版では '''Shift_JIS CRLF''' が、Unicode 版では '''BOM ありの UTF16-LE CRLF''' である。(入力時にはいくつかの文字コードに対応している) 書式は以下の様になっている。 <見出し語> /// <訳語> / <用例> 用例がない場合は以下のように省略できる。 <見出し語> /// <訳語> 訳語、用例内で改行をする際は'''改行したい箇所に 「スペース + バックスラッシュ + スペース」と置く'''。例えば「a(改行)b」であれば「<code>a \ b</code>」のように記述する。 ただしこの形式では、仕様上'''前後を空白に挟まれたスラッシュやバックスラッシュ、空白と行頭または行末に挟まれたスラッシュやバックスラッシュを含むことができない'''。また、'''「見出し語・訳語・用例」以外の項目を記述することができない。''' PDICには、この形式を読み込む時、全角句読点などがすべて半角のカンマに書き換えられてしまうという不具合がある。 == 雑記 == アルカの'''幻日辞典'''や'''俗アルカ辞典'''は、'''BOM 無しの UTF-8 CRLF''' の'''一行テキスト形式'''が用いられている。 == 関連記事 == * [[PDIC]] * [[ZpDIC]] == 外部リンク == * [http://pdic.la.coocan.jp/unicode/ PDIC / Unicode 紹介ページ] * [http://pdic.la.coocan.jp/unicode/help/ PDIC / Unicode 使い方ページ] * [http://pdic.la.coocan.jp/unicode/dic-spec.html 辞書の仕様 (バイナリ辞書について公式の解説)] * [https://gist.github.com/na2co3-ftw/407ede910f520c52ddcf0f4ece9e1210 PDIC/Unicodeの辞書型式 (バイナリ辞書について炭酸ソーダがまとめたもの)] * [http://conlinguistics.org/klel/ 幻日辞典] * [http://mindsc.ape.jp/klel/ 俗アルカ辞典] [[カテゴリ:辞書フォーマット]]
PDIC形式
に戻る。