2chでCSVからユーザー辞書を取り込めるツールを作る、
と言ったは良いけど、土日で形にできなかったので、
分かっている範囲でフォーマット情報を開示しておきます。
ツール作ろうって方は参考にしてください。
参考にした資料もありますが、あくまで個人で解析した結果で、
正しいものとは限りませんが…
バックアップされる4つのファイルのうち、
ユーザー辞書は拡張子がudcの2つ、頭がEの方は英語のもの
拡張子がldcのものは学習辞書
全体ではヘッダ、インデックス、単語ブロックの繰り返し、フッタの形になっています。
ヘッダ
00000000~00000004:[NJDC]識別子
0000000F~0000000F:ヘッダを覗いたファイルサイズ?(104508)
00000020~00000023:単語ブロックの開始位置(2076)
00000026~00000027:登録されている単語の数
00000028~00000029:単語ブロックの数(500)
00000034~00000035:登録されている単語の数(00000026~00000027と同じ)
00000036~00000037:最後に編集した単語ブロックの位置
0000003C~0000003F:インデックス1のアドレス(72)
00000040~00000043:インデックス2のアドレス(1074)
インデックス
インデックス1は読み、インデックス2は表記の昇順で、
単語ブロックの位置が2バイトずつ500個並んでいる
最後に2バイト00がついていて、それぞれ1002バイト
単語ブロック
1ブロック205バイト*500ブロック
00000000~00000002:01 63
00000003~00000003:読みのバイト数
00000004~00000004:32
00000005~00000005:表記のバイト数&0x80
00000006~ :読み、表記が詰めて設定されている
読み、表記はそれぞれ最大100バイト
文字コードはUNICODE
フッタ
[NJDC]識別子
・途中の単語を削除した場合、詰められずに空きができ、
次に登録されたものがそこに入るみたい。
・必要かどうかはわからないけど、絵文字も設定できる。
(標準の登録画面からはクリップボードから貼り付け無いと無理)
来週には形に出来ると良いね…
2010年7月12日月曜日
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿