|
From: Katsuhiko O. <kat...@gm...> - 2016-09-01 10:46:22
|
漢字データベース開発者のみなさま まずは、このようなデータを再利用可能な形で公開してくださいましたこと、 深くお礼申し上げます。大変な時間と手間を掛けられたこととお察しします。 私は、様々な言語の電子辞書やテキスト化などを趣味としております大久保と申します。 春に大槻文彦『言海』の全文テキスト化を始めました( http://genkai.osdn.jp/ )。 その過程で度々図書館に通って大漢和辞典を参照していたのですが、余りに面倒なので 漢字データベースにある情報、GlyphWikiにあるSVGデータ、花園フォントを利用させていただき、 「大漢和辞典 親字と熟語だけ」EPWINGを制作中です。 開発中の動作画面はこちら。総画数、大漢和番号、部首別、JIS第1・2漢字で検索、ジャンプできます。 http://projectzephyr.osdn.jp/img/daikanwa.html 敢えて外字は使わず、字形画像を大量に使用しています。 EPWINGは、90年代に流行し、今も細々と使われている電子辞書フォーマットです。 http://classicalepwing.osdn.jp/ http://aozorawing.osdn.jp/ http://projectzephyr.osdn.jp/ などは、私のEPWINGサイトです。 データを機械処理する過程で気がついた点があり、ご参考までにお知らせ致します。 なお、私は全くの素人ですので、何か意図してそのようになさっていたのでしたら無視してください。 ★dkw2ucs.txtについて(dkw2ucs.txt.patch.txt添付) dkw2ucs.txtの部首内画数(DSxx)は、(補巻を別として)常にゼロから単調増加のはずですが、 突如減っていることがあります。修訂第二版の索引を元に、修正してみました。 また、新たな部首番号(DRxx)が現れた時、部首内画数はゼロのはずですが、そうでない箇所が2つありました。 これは部首番号のミスタイプだろうと思います(修訂第二版でも確認しました)。 --- dkw2ucs.txt 27 Aug 2016 22:56:00 -0000 1.2 +++ dkw2ucs.txt 27 Aug 2016 22:58:25 -0000 1.3 @@ -22018,3 +22018,3 @@ D21826.0 DR102 DS05 DP08009 U+24C64 -D21827.0 DR106 DS05 DP08009 U+07560 +D21827.0 DR102 DS05 DP08009 U+07560 D21828.0 DR102 DS06 DP08009 U+07561 @@ -30614,3 +30614,3 @@ D30328.0 DR135 DS11 DP09826 U+269F1 -D30329.0 DR138 DS12 DP09826 U+269F4 +D30329.0 DR135 DS12 DP09826 U+269F4 D30330.0 DR135 DS12 DP09826 U+08219 なお、ページ番号についても単調増加であることをチェックしましたが、問題ありませんでした。 親字番号の重複もありませんでした。 ★dkw-word.txtについて DW00035.0.H001 DPH0012 ... DW01328.0.H001 DPH0072 ... この2行だけ、H001.0 のような最後の .0 がありませんでした。 ★ucs-strokes.txt (UCS画数データベース)について U+9FC3 8,9 となっております。 http://glyphwiki.org/wiki/u9fc3 https://codepoints.net/U+9FC3 を見る限り、画数が少なすぎると思います(12画でしょうか)。これは偶然気がついたものです。 ★添付のsoukaku.txt これは私が作成したデータです。 大漢和辞典の親字で、総画数が不確か・不明であるもの、つまり、 ・dkw2ucs.txtで、画数不明のUCS文字と関連づけられている ・dkw2ucs.txtで、UCS文字に関連づけられていない について、修訂第二版の冒頭索引を参考に、総画数を調べました。 ucs-strokes.txt のように、あり得る画数(複数の場合在り)ではなく、大漢和辞典の 総画数一つだけとしています。 dkw2ucs.txtの1カラム目の番号、総画数、#以降はコメントです。 Dxxxxx 番号は、部首番号、部首内画数順に並んでいるので、補巻のエントリが途中に 移動していることもあります。 GlyphWikiの字形画像について気になった点も、コメントに載せてあります。 実はこの作業過程で、dkw2ucs.txtの部首番号、部首内画数の異常に気がつきました。 何かのご参考になりましたらどうぞ。 #今、ヤフオクで落札した、大漢和辞典修訂版(第2版ではありません。かなり使い込まれていて 索引がぼろぼろのためか、4千円でした)の発送通知が来ました!楽しみです。 -- 大久保克彦 kat...@gm... |