English
krm_headword_chars

krm_headword_chars #

概要とファイル形式 #

名義抄の掲出字は、単字からなるものと、複字(多字)からなるものがある。 krm_headword_chars は、名義抄のすべての掲出字を、名義抄の項目順および各項目内の文字の出現順に一覧したデータである。

名義抄データベースの基本データとなる krm_main はもとより、 注釈データである krm_notes、さらに和訓データである krm_wakun は、 いずれも項目を単位としている。そのため、複数の文字で構成される掲出字の 2字目以降の文字はこれらのデータからは直接参照できない。

名義抄の掲出字を1字ごとに検索し、その原本画像を表示したり、各文字レベルでの分析を行ったりするには、2字目以降の文字を含めたすべての掲出字のリストが必要である。

このような目的のために作成したのが krm_headword_chars である。 このデータは、TSV 形式と JSON 形式で提供される。各行(またはエントリ)は掲出字1文字に対応し、その文字が属する名義抄の掲出字(見出し語全体)の出現順を示すID (hanzi_id)、その文字が属する名義抄の項目を示すID (entry_id)、項目内での文字の順序 (character_order)、文字そのもの (constituent_char)、1文字ごとに切り出された画像ファイルの名称 (img_file_name)、そして風間版および天理版それぞれにおけるその文字の所在情報(kazama_location_id, tenri_location_id)などを含んでいる。これにより、krm_main などの項目単位のデータと連携しつつ、個々の文字レベルでの情報アクセスが可能となる。

各カラムの説明 #

krm_headword_chars のカラム名とその説明は次のとおりである。

Column Name Japanese Explanation
hanzi_id 単字、複字を問わず、名義抄の出現順に与えられたSで始まる5桁の数値からなる掲出字の通しID。
entry_id この文字が属する掲出字(見出し語)の項目(krm_mainにおける項目)のID(Fで始まる5桁の数値)。一部、追加した掲出項目にはb番号を付す。
constituent_char 見出しを構成する文字そのもの。省略符号(ー)と踊り字(〻)は当該の文字に改める。校訂漢字は原則、康熙字典体。Unicodeの新字体(通用字体・俗字体)の扱いについては別途規定。詳細な校訂注記は krm_notes 参照。
character_order それが属する掲出字(見出し語)内で何字目に出現するかを数値で示す。
kazama_location_id K・巻数(2桁)・風間版頁数(3桁)・行数(1桁)、段数(1桁)、字順(1桁)で構成される、この文字の風間版における所在ID。字順付与ルール詳細は別途定める。
tenri_location_id T・巻数(a/b/c)・天理版頁数(3桁)・行数(1桁)・段数(1桁)、字順(1桁)で構成される、この文字の天理版における所在ID。字順付与ルール詳細は別途定める。
img_file_name 掲出字の画像ファイル名(拡張子.jpgを含む)。ファイル名の本体は、巻1から巻9の画像では7桁の数値、巻10の画像では8桁の数値となる。7桁の場合、最初の1桁が巻数を、8桁の場合、最初の2桁が巻10を示す。下6桁の数値は出現順に基づいているが、その割り当ては独自の規則による。20年以上前の作業のため、詳細な命名規則に関するドキュメントは現存しない。画像がない場合はnull。