掲出字・項目構造とID体系
このセクションでは、名義抄の項目の構造と、それを識別するためのID体系について説明する。
掲出字と掲出項目の定義
掲出字(Headword Character(s))とは、見出しの漢字そのものである。 掲出項目(Entry)とは、辞書の項目単位である。
名義抄において一つの掲出項目は、単字または複字(多字)からなる。
掲出項目の立て方には、 単字による単字形式と、複字による複字形式との二つがある。
複字形式には、熟語のものと異体字併記のものがある。
次に単字形式、複字形式の2種の例をいくつか示す。
例
- 単字形式:人、何
- 複字形式(熟語):一人、二人、何如、如何
- 複字形式(異体字併記):爲為、羱𦍘
複字形式の熟語と異体字併記との区別は、注文の記述によって決定される。 異体字併記の例に示した「爲為」は、その注文に「正今」とあり、「爲」が「正」、「為」が「今」の異体関係となることが分かる。 同様に「羱𦍘」も注文に「正俗」とあり、「羱」が「正」、「𦍘」が「俗」の異体関係となることが分かる。
掲出項目の配置の原則と例外
名義抄の1頁は、8行4段から構成される。 言い換えれば、1頁には縦8行、横4列、合計32個の記入欄が配置される。
1項目は、1個の記入欄に記述される1段1項目が圧倒的多数を占める。
説明が長文となる場合は、2個以上の記入欄を使用して記述され、 2段以上になったり、2行以上になったりすることとなる。 この多段1項目の例も頻繁に出現する。 説明が長文でも1頁を超えて記述されることはない。 つまり、1個の記入欄に記入される項目は1項目以下であるのが原則である。
例外として1段の中に2項目が記述されることがある。 この1段多項目は、全体からみたら、1%にもならない。
以上の原則と例外を踏まえて、名義抄のID体系を解説する。 名義抄のID体系の説明が複雑となるが、それは1段の中に2項目が記述されることに起因しているので、 このデータの利用者は、特にこの点に注意されたい。
名義抄のID体系
IDの種類
名義抄のデータでは、主に次のカラムにより項目や文字位置を管理する。
- 掲出項目ID (entry_id - 例: F00001) F形式
- 掲出字ID (hanzi_id - 例: S00001) S形式
- 風間版所在 (kazama_location - 例: K0100131) K形式
- 天理版所在 (tenri_location - 例: Ta023310) T形式
各カラムの関係性
掲出項目ID (entry_id) は、それを構成する一つ以上の掲出字ID (hanzi_id) を識別する。
掲出字ID (hanzi_id) は、データ上の各文字位置を一意に識別する主キーである。
各掲出字ID (hanzi_id) には、対応する所在ID(風間版、天理版)が紐づく。
この4種のIDの設定により、名義抄の掲出項目の多様性に対応した上で、 複数の影印本の利用が容易となる。そのため、 F形式、S形式、K形式、T形式の説明は重複を厭わず、その都度行っている。
主要IDの詳細形式
掲出項目ID (entry_id / F形式)
形式: 掲出項目ID(entry_id)はFで始まる5桁の数値。F00001からF32604までの連番である。 一部、追加した掲出項目にはb番号を付す。 なお、このb番号は、次の掲出字IDに付すことがあるが、それとは無関係に付されるものである。
目的: 名義抄の一項目を一意に識別する。
掲出字ID (hanzi_id / S形式)
形式: 掲出字ID(hanzi_id)はSに始まる5桁の数値。S00001からS42328までの連番。 S形式。 一部、追加した掲出字にはb番号を付す。 なお、このb番号は、前述の掲出項目IDに付すことがあるが、それとは無関係に付されるものである。
目的: データ上の各掲出字(文字位置)を一意に識別する主キーである。
補足 2字目以降の掲出字を含めたすべての掲出字IDを一覧したデータは別に用意する(krm_headword_chars.tsv、詳細は別に述べる)。
風間版所在 (kazama_location / K形式):
形式: K + 巻数(2桁) + 風間版頁数(3桁) + 行数(1桁) + 段数(1桁) + 字順 (1桁)。 K形式。
字順 (1桁): その段における、項目の種類と出現順序に基づいて付与される番号である。 字順は文字単位の基準であるが、項目の先頭文字の位置を用いて 掲出項目の所在地を示す。
字順が文字単位の基準を用いているのは、特に、 1段(1マスとも言える)の記入欄に2個以上の掲出項目が記述されるという、 掲出項目の配置の例外に対処するためである。
字順を文字単位の基準を代表として用いるために、次の 字順決定のルールを定める。
- ケース1: その段に項目が一つのみの場合
- その項目が単字項目であれば、字順は 0 。
- その項目が複字項目であれば、字順は 1 。
- ケース2: その段に項目が二つ以上ある場合
- その段の最初の項目であれば、字順は 1 。
- その段の2番目以降の項目であれば、字順は その項目の最初の文字が、段の先頭から数えて何番目に出現するか を示す(段の先頭を1字目として数えた通し番号)。
一つの段に「A」「BC」とあり、Aが段の1字目、Bが2字目、Cが3字目の場合とする。項目BCは2番目の項目、その最初の文字はB、そのBは段の2字目である。よってCDの字順は2となる。 また、一つの段に「AB」「CD」とあり、Aが段の1字目、Bが2字目、Cが3字目、Dが4字目の場合とする。項目CDは2番目の項目、その最初の文字はC、そのCは段の3字目である。よってCDの字順は3となる。
例
- K01001310: (単字項目、1段1項目) 巻1 頁1 行3 段1 字順0
- K08084411: (複字項目、1段1項目) 巻8 頁84 行4 段1 字順1
- K01004241: (段内に複数項目ある場合の最初の項目) 巻1 頁4 行2 段4 字順1
- K01004242: (段内に複数項目ある場合の段内の2字目から始まる項目) 巻1 頁4 行2 段4 字順2
- K01008341: (段内に複数項目ある場合の最初の項目) 巻1 頁8 行3 段4 字順1
- K01008343: (段内に複数項目ある場合の段内の3字目から始まる項目) 巻1 頁8 行3 段4 字順3
目的:風間版における掲出項目の所在地を示す。主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。
出典:正宗敦夫編『類聚名義抄 第一巻』(風間書房、1954年)に基づく。
天理版所在 (tenri_location / T形式)
天理版所在は、風間版所在のK形式の決定方法と同様の考えに従い、 形式、字順、目的を次のように定める。
形式:T + 巻数(a/b/c) + ページ数(3桁) + 行数(1桁) + 段数(1桁) + 字順 (1桁) 。 T形式。
字順 (1桁): その段における、項目の種類と出現順序に基づいて付与される番号である。 字順は文字単位の基準であるが、この文字単位の基準を代表として用いて 掲出項目の所在地を示す。
字順が文字単位の基準を用いているのは、特に、 1段(1マスとも言える)の記入欄に2個以上の掲出項目が記述されるという、 掲出項目の配置の例外に対処するためである。
字順を文字単位の基準を代表として用いるために、次の 字順決定のルールを定める。
- ケース1: その段に項目が一つのみの場合
- その項目が単字項目であれば、字順は 0 。
- その項目が複字項目であれば、字順は 1 。
- ケース2: その段に項目が二つ以上ある場合
- その段落の最初の項目であれば、字順は 1 。
- その段落の2番目以降の項目であれば、字順は その項目の最初の文字が、段落の先頭から数えて何番目に出現するか を示す(段の先頭を1字目として数えた通し番号)。
天理版所在の示し方は、風間版所在の示し方と同様の考え方に基づいている。風間版所在の説明に用いた例を 天理版所在として示すと次のようになる。
例
- Ta023310: (単字項目、1段1項目) 上巻 頁23 行3 段1 字順0
- Tc090411: (複字項目、1段1項目) 下巻 頁90 行4 段1 字順1
- Ta026241: (段内に複数項目ある場合の最初の項目) 上巻 頁26 行2 段4 字順1
- Ta026242: (段内に複数項目ある場合の段内の2字目から始まる項目) 上巻 頁26 行2 段4 字順2
- Ta030341: (段内に複数項目ある場合の最初の項目) 上巻 頁30 行3 段4 字順1
- Ta030343: (段内に複数項目ある場合の段内の3字目から始まる項目) 上巻 頁30 行3 段4 字順3
目的:天理版における掲出項目の所在地を示す。 主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。
出典:『類聚名義抄 仏・法・僧』(天理図書館善本叢書和書之部第32-34巻、天理大学出版部・八木書店発売)に基づく。
掲出字の入力方法
掲出字は、hanzi_entryカラムに入力する。
掲出項目は単字形式と複字形式があるが、単字形式は特に問題にならないので、 ここでは複字形式の場合の入力方法について説明する。
複字形式の掲出項目に見える異体字併記と熟語は、掲出字を「/」(全角スラッシュ, U+FF0F)で区切って入力する。
掲出項目が「/」を含めば、それは複字形式であることを示し、用いられる「/」の数は複字形式の掲出字数を示す。
例
- 異体字併記:翛/倐/倏/翛β
- 熟語:一/人
Unicodeを利用した文字の入力方法については、 文字の符号化と表現を参照されたい。
データ表現におけるIDの扱い
名義抄の主要な項目データ(例:krm_main.tsv)はTSV形式で公開される。 このセクションでは、各IDがTSVファイル上でどのように表現されるか、特に複字形式の場合の表現ルールについて説明する。 他のセクション(主要IDの詳細形式、掲出字の入力方法、掲出字の詳細情報(マッピングテーブル)へ移譲)と 説明が重複するところがあるが、TSV形式のデータ処理には重要な情報となるので、再度まとめる。
TSVカラムとIDの対応:
主要なTSVファイルには、次のカラムにそれぞれのIDが格納される。
- entry_id: 掲出項目ID (F形式)
- hanzi_id: 掲出字ID (S形式)
- kazama_location: 風間版所在 (K形式)
- tenri_location: 天理版所在 (T形式)
上記以外のID(例: 項目を構成する2番目以降の掲出字IDや所在ID)は、この主要ファイルには直接格納されず、 別のマッピングテーブル(krm_headword_chars.tsv)で参照できる。
複字形式の項目のデータ表現ルール
- 複字形式の掲出項目(異体字併記や熟語)は、hanzi_entry カラムに全角のスラッシュ('/')区切りで文字列として格納される。
- IDの表現に関しては、複字形式の掲出項目に対応するメインのTSV行には、その項目の先頭文字に関連するIDのみが表示される。
- 項目を構成する2番目以降の文字に関するID(S形式、K形式、T形式)は、このメインの行では省略される。
例
掲出項目「AB」(構成:A + B)があり、それぞれのIDが次の通りであるとする。
- 掲出項目ID: F25121
- Aの掲出字ID: S31590 (風間版所在: K08084411, 天理版所在: Tc090411)
- Bの掲出字ID: S31591 (風間版所在: K08084412, 天理版所在: Tc090412)
この項目がTSVファイルで表示される際は、メインの行は次のようになる。関連するカラムのみ示す。
entry_id | hanzi_id | hanzi_entry | kazama_location | tenri_location |
---|---|---|---|---|
F25121 | S31590 | AB | K08084411 | Tc090411 |
この行には、項目ID、先頭文字の掲出字ID、項目全体の文字列、そして先頭文字の所在IDのみが含まれていることが分かる。
掲出字の詳細情報(マッピングテーブル)へ移譲
掲出字に関する次の情報のすべてをマッピングテーブル(krm_headword_chars.tsv)へ移譲する。
- 各掲出字ID(S形式)に対応する、より詳細な位置情報(K形式、T形式)のリスト全体
- 個々の掲出字(S形式)に対応する、切り抜き画像ファイル名
- 個々の掲出字(S形式)に対応する、GlyphWikiのグリフ番号
これらの情報が必要な利用者は、krm_headword_chars.tsv を参照する必要がある。