English
掲出字・項目構造とID体系

掲出字・項目構造とID体系 #

このセクションでは、名義抄の項目の構造と、それを識別するためのID体系について説明する。

掲出字と掲出項目の定義 #

掲出字(Headword)とは、見出しの漢字そのものである。 掲出項目(Entry)とは、辞書の項目単位である。

名義抄において一つの掲出項目は、単字または複字(多字)からなる。

掲出項目の立て方には、 単字による単字形式と、複字による複字形式との二つがある。

複字形式には、熟語のものと異体字併記のものがある。

次に単字形式、複字形式の2種の例をいくつか示す。

  • 単字形式:人、何
  • 複字形式(熟語):一人、二人、何如、如何
  • 複字形式(異体字併記):爲為、羱𦍘

複字形式の熟語と異体字併記との区別は、注文の記述によって決定される。 異体字併記の例に示した「爲為」は、その注文に「正今」とあり、「爲」が「正」、「為」が「今」の異体関係となることが分かる。 同様に「羱𦍘」も注文に「正俗」とあり、「羱」が「正」、「𦍘」が「俗」の異体関係となることが分かる。

掲出項目の配置の原則と例外 #

名義抄の1頁は、8行4段から構成される。 言い換えれば、1頁には縦8行、横4列、合計32個の記入欄が配置される。

1項目は、1個の記入欄に記述される1段1項目が圧倒的多数を占める。

説明が長文となる場合は、2個以上の記入欄を使用して記述され、 2段以上になったり、2行以上になったりすることとなる。 この多段1項目の例も頻繁に出現する。 説明が長文でも1頁を超えて記述されることはない。 つまり、1個の記入欄に記入される項目は1項目以下であるのが原則である。

例外として1段の中に2項目が記述されることがある。 この1段多項目は、全体からみたら、1%にもならない。

以上の原則と例外を踏まえて、名義抄のID体系を解説する。 名義抄のID体系の説明が複雑となるが、それは1段の中に2項目が記述されることに起因しているので、 このデータの利用者は、特にこの点に注意されたい。

名義抄のID体系 #

IDの種類 #

名義抄のデータでは、主に次のカラムにより項目や文字位置を管理する。

  • 掲出項目ID (entry_id - 例: F00001) F形式
  • 掲出字ID (hanzi_id - 例: S00001) S形式
  • 風間版所在 (kazama_location - 例: K0100131) K形式
  • 天理版所在 (tenri_location - 例: Ta023310) T形式

各カラムの関係性 #

掲出項目ID (entry_id) は、それを構成する一つ以上の掲出字ID (hanzi_id) を識別する。

掲出字ID (hanzi_id) は、データ上の各文字位置を一意に識別する主キーである。

各掲出字ID (hanzi_id) には、対応する所在ID(風間版、天理版)が紐づく。

この4種のIDの設定により、名義抄の掲出項目の多様性に対応した上で、 複数の影印本の利用が容易となる。そのため、 F形式、S形式、K形式、T形式の説明は重複を厭わず、その都度行っている。

主要IDの詳細形式 #

掲出項目ID (entry_id / F形式) #

形式: 掲出項目ID(entry_id)はFで始まる5桁の数値。F00001からF32604までの連番である。 一部、追加した掲出項目にはb番号を付す。 なお、このb番号は、次の掲出字ID(hanzi_id)に付すことがあるが、それとは無関係に付されるものである。

目的: 名義抄の一項目を一意に識別する。

掲出字ID (hanzi_id / S形式) #

形式: 掲出字ID(hanzi_id)はSに始まる5桁の数値。S00001からS42328までの連番。 S形式。 一部、追加した掲出字にはb番号を付す。 なお、このb番号は、前述の掲出項目ID(entry_id)に付すことがあるが、それとは無関係に付されるものである。

目的: データ上の各掲出字(文字位置)を一意に識別する主キーである。

補足 2字目以降の掲出字を含めたすべての掲出字ID(hanzi_id)を 一覧したデータは別に用意する。そのデータは、 krm_headword_charsであり、詳細は別に述べた)。

風間版所在 (kazama_location / K形式): #

形式: K + 巻数(2桁) + 風間版頁数(3桁) + 行数(1桁) + 段数(1桁) + 字順 (1桁)。 K形式。

字順 (1桁): その段における、項目の種類と出現順序に基づいて付与される番号である。 字順は文字単位の基準であるが、項目の先頭文字の位置を用いて 掲出項目の所在地を示す。

字順が文字単位の基準を用いているのは、特に、 1段(1マスとも言える)の記入欄に2個以上の掲出項目が記述されるという、 掲出項目の配置の例外に対処するためである。

字順を文字単位の基準を代表として用いるために、次の 字順決定のルールを定める。

  • ケース1: その段に項目が一つのみの場合
    • その項目が単字項目であれば、字順は 0
    • その項目が複字項目であれば、字順は 1
  • ケース2: その段に項目が二つ以上ある場合
    • その段の最初の項目であれば、字順は 1
    • その段の2番目以降の項目であれば、字順は その項目の最初の文字が、段の先頭から数えて何番目に出現するか を示す(段の先頭を1字目として数えた通し番号)。

一つの段に「A」「BC」とあり、Aが段の1字目、Bが2字目、Cが3字目の場合とする。項目BCは2番目の項目、その最初の文字はB、そのBは段の2字目である。よってBCの字順は2となる。 また、一つの段に「AB」「CD」とあり、Aが段の1字目、Bが2字目、Cが3字目、Dが4字目の場合とする。項目CDは2番目の項目、その最初の文字はC、そのCは段の3字目である。よってCDの字順は3となる。

  • K01001310: (単字項目、1段1項目) 巻1 頁1 行3 段1 字順0
  • K08084411: (複字項目、1段1項目) 巻8 頁84 行4 段1 字順1
  • K01004241: (段内に複数項目ある場合の最初の項目) 巻1 頁4 行2 段4 字順1
  • K01004242: (段内に複数項目ある場合の段内の2字目から始まる項目) 巻1 頁4 行2 段4 字順2
  • K01008341: (段内に複数項目ある場合の最初の項目) 巻1 頁8 行3 段4 字順1
  • K01008343: (段内に複数項目ある場合の段内の3字目から始まる項目) 巻1 頁8 行3 段4 字順3

目的:風間版における掲出項目の所在地を示す。主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。

出典:正宗敦夫編『類聚名義抄 第一巻』(風間書房、1954年)に基づく。

天理版所在 (tenri_location / T形式) #

天理版所在は、風間版所在のK形式の決定方法と同様の考えに従い、 形式、字順、目的を次のように定める。

形式:T + 巻数(a/b/c) + ページ数(3桁) + 行数(1桁) + 段数(1桁) + 字順 (1桁) 。 T形式。

字順 (1桁): その段における、項目の種類と出現順序に基づいて付与される番号である。 字順は文字単位の基準であるが、この文字単位の基準を代表として用いて 掲出項目の所在地を示す。

字順が文字単位の基準を用いているのは、特に、 1段(1マスとも言える)の記入欄に2個以上の掲出項目が記述されるという、 掲出項目の配置の例外に対処するためである。

字順を文字単位の基準を代表として用いるために、次の 字順決定のルールを定める。

  • ケース1: その段に項目が一つのみの場合
    • その項目が単字項目であれば、字順は 0
    • その項目が複字項目であれば、字順は 1
  • ケース2: その段に項目が二つ以上ある場合
    • その段の最初の項目であれば、字順は 1
    • その段の2番目以降の項目であれば、字順は その項目の最初の文字が、段落の先頭から数えて何番目に出現するか を示す(段の先頭を1字目として数えた通し番号)。

天理版所在の示し方は、風間版所在の示し方と同様の考え方に基づいている。風間版所在の説明に用いた例を 天理版所在として示すと次のようになる。

  • Ta023310: (単字項目、1段1項目) 上巻 頁23 行3 段1 字順0
  • Tc090411: (複字項目、1段1項目) 下巻 頁90 行4 段1 字順1
  • Ta026241: (段内に複数項目ある場合の最初の項目) 上巻 頁26 行2 段4 字順1
  • Ta026242: (段内に複数項目ある場合の段内の2字目から始まる項目) 上巻 頁26 行2 段4 字順2
  • Ta030341: (段内に複数項目ある場合の最初の項目) 上巻 頁30 行3 段4 字順1
  • Ta030343: (段内に複数項目ある場合の段内の3字目から始まる項目) 上巻 頁30 行3 段4 字順3

目的:天理版における掲出項目の所在地を示す。 主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。

出典:『類聚名義抄 仏・法・僧』(天理図書館善本叢書和書之部第32-34巻、天理大学出版部・八木書店発売)に基づく。

掲出字の入力方法 #

掲出字は、hanzi_entryカラムに入力する。

掲出項目は単字形式と複字形式があるが、単字形式は特に問題にならないので、 ここでは複字形式の場合の入力方法について説明する。

複字形式の掲出項目に見える異体字併記と熟語は、掲出字を「/」(全角スラッシュ, U+FF0F)で区切って入力する。

掲出項目がスラッシュの「/」を含めば、それは複字形式であることを示し、 スラッシュで区切られた部分の数(=字数)」は複字形式の掲出字数を示す。

  • 異体字併記:翛/倐/倏/翛β
  • 熟語:一/人

Unicodeを利用した文字の入力方法については、 文字の符号化と表現を参照されたい。

データ表現におけるIDの扱い #

名義抄の主要な項目データ(例:krm_main.tsv)はTSV形式で公開される。 このセクションでは、各IDがTSVファイル上でどのように表現されるか、特に複字形式の場合の表現ルールについて説明する。 他のセクション(主要IDの詳細形式、掲出字の入力方法、掲出字の詳細情報(マッピングテーブル)へ移譲)と 説明が重複するところがあるが、TSV形式のデータ処理には重要な情報となるので、再度まとめる。

TSVカラムとIDの対応:

主要なTSVファイルには、次のカラムにそれぞれのIDが格納される。

  • entry_id: 掲出項目ID (F形式)
  • hanzi_id: 掲出字ID (S形式)
  • kazama_location: 風間版所在 (K形式)
  • tenri_location: 天理版所在 (T形式)

上記以外のID(例: 項目を構成する2番目以降の掲出字IDや所在ID)は、この主要ファイルには直接格納されず、 別のマッピングテーブル(krm_headword_chars.tsv)で参照できる。

複字形式の項目のデータ表現ルール

  • 複字形式の掲出項目(異体字併記や熟語)は、hanzi_entry カラムに全角のスラッシュ(’/’)区切りで文字列として格納される。
  • IDの表現に関しては、複字形式の掲出項目に対応するメインのTSV行には、その項目の先頭文字に関連するIDのみが表示される。
  • 項目を構成する2番目以降の文字に関するID(S形式、K形式、T形式)は、このメインの行では省略される。


掲出項目「AB」(構成:A + B)があり、それぞれのIDが次の通りであるとする。

  • 掲出項目ID: F25121
  • Aの掲出字ID: S31590 (風間版所在: K08084411, 天理版所在: Tc090411)
  • Bの掲出字ID: S31591 (風間版所在: K08084412, 天理版所在: Tc090412)

この項目がTSVファイルで表示される際は、メインの行は次のようになる。関連するカラムのみ示す。

entry_id hanzi_id hanzi_entry kazama_location tenri_location
F25121 S31590 AB K08084411 Tc090411

この行には、項目ID、先頭文字の掲出字ID、項目全体の文字列、そして先頭文字の所在IDのみが含まれていることが分かる。

掲出字の詳細情報(マッピングテーブル)へ移譲 #

掲出字に関する次の情報のすべてをマッピングテーブルkrm_headword_charsへ移譲する。

  • 各掲出字ID(S形式)に対応する、より詳細な位置情報(K形式、T形式)のリスト全体
  • 個々の掲出字(S形式)に対応する、切り抜き画像ファイル名

これらの情報が必要な利用者は、krm_headword_chars.tsv を参照する必要がある。