項目データ入力

項目データの入力

観智院本類聚名義抄(KRM)の項目データの入力方法を解説する。 以下、観智院本類聚名義抄を名義抄と呼ぶ。

項目は掲出字と注文とからなる。 ここでは掲出字の入力と注文の入力とに共通する事項を説明する。

掲出字・項目構造とID体系

このセクションでは、名義抄の項目の構造と、それを識別するためのID体系について説明する。

掲出字と掲出項目の定義

掲出字(Headword Character(s))とは、見出しの漢字そのものである。 掲出項目(Entry)とは、辞書の項目単位である。

名義抄において一つの掲出項目は、単字または複字(多字)からなる。

単字からなる掲出項目は、たとえば、「人」「何」のような例である。

複字からなる掲出項目は、たとえば「一人」「二人」や「何如」「如何」のような熟語のものと、 「爲為」「翛倐」のような、異体字併記のものがある。

掲出項目の配置の原則と例外

名義抄の1頁は、8行4段から構成される。 言い換えれば、1頁には縦8行、横4列、合計32個の記入欄が配置される。

1項目は、1個の記入欄に記述される1段1項目が圧倒的多数を占める。

説明が長文となる場合は、2個以上の記入欄を使用して記述され、 2段以上になったり、2行以上になったりすることとなる。 この多段1項目の例も頻繁に出現する。 説明が長文でも1頁を超えて記述されることはない。 つまり、1個の記入欄に記入される項目は1項目以下であるのが原則である。

例外として1段の中に2項目が記述されることがある。 この1段多項目は、全体からみたら、1%にもならない。

以上の原則と例外を踏まえて、名義抄のID体系を解説する。 名義抄のID体系の説明が複雑となるが、それは1段の中に2項目が記述されることに起因しているので、このデータの利用者は、特にこの点に注意されたい。

名義抄のID体系

IDの種類

名義抄のデータでは、主に次のカラムにより項目や文字位置を管理する。

  • 掲出項目ID (entry_id - 例: F00001) F形式
  • 掲出字ID (hanzi_id - 例: S00001) S形式
  • 風間版所在 (kazama_location - 例: K0100131) K形式
  • 天理版所在 (tenri_location - 例: Ta023310) T形式

*各カラムの関係性

掲出項目ID (entry_id) は、それを構成する一つ以上の掲出字ID (hanzi_id) を識別する。

掲出字ID (hanzi_id) は、データ上の各文字位置を一意に識別する主キーである。

各掲出字ID (hanzi_id) には、対応する所在ID(風間版、天理版)が紐づく。

主要IDの詳細形式

掲出項目ID (entry_id / F形式)

形式: 掲出項目ID(entry_id)はFで始まる5桁の数値。F00001からF32604までの連番である。 一部、追加した掲出項目にはb番号を付す。

目的: 名義抄の一項目を一意に識別する。

複字項目における付与ルール: 掲出項目は、単字項目か複字項目かの違いを無視して、出現順に連番を与える。

掲出字ID (hanzi_id / S形式)

形式: 掲出字ID(hanzi_id)はSに始まる5桁の数値。S00001からS42328までの連番。 S形式。 一部、追加した掲出字にはb番号を付す。

目的: データ上の各掲出字(文字位置)を一意に識別する主キーである。

補足 2字目以降の掲出字を含めたすべての掲出字IDを一覧したデータは別に用意する(krm_word_chars.tsv、詳細後述)。

風間版所在 (kazama_location / K形式):

形式: K + 巻数(2桁) + 風間版頁数(3桁) + 行数(1桁) + 段数(1桁) + 字順 (1桁)。 K形式。

字順 (1桁): その段における、項目の種類と出現順序に基づいて付与される番号である。 字順は文字単位の基準であるが、この文字単位の基準を代表として用いて 掲出項目の所在地を示す。

字順が文字単位の基準を用いているのは、特に、 1段(1マスとも言える)の記入欄に2個以上の掲出項目が記述されるという、 掲出項目の配置の例外に対処するためである。

字順を文字単位の基準を代表として用いるために、次の 字順決定のルールを定める。

  • ケース1: その段に項目が一つのみの場合
    • その項目が単字項目であれば、字順は 0
    • その項目が複字項目であれば、字順は 1
  • ケース2: その段に項目が二つ以上ある場合     - その段の最初の項目であれば、字順は 1 。     - その段の2番目以降の項目であれば、字順は その項目の最初の文字が、段の先頭から数えて何番目に出現するか を示す(段の先頭を1字目として数えた通し番号)。

一つの段に「AB」「CD」とあり、Aが段の1字目、Bが2字目、Cが3字目、Dが4字目の場合とする。項目CDは2番目の項目、その最初の文字はC、そのCは段の3字目である。よってCDの字順は3となる。

例:

  • K01001310: (単字項目、1段1項目) 巻1 頁1 行3 段1 字順0
  • K08084411: (複字項目、1段1項目) 巻8 頁84 行4 段1 字順1
  • K01004241: (段内に複数項目ある場合の最初の項目) 巻1 頁4 行2 段4 字順1
  • K01004242: (段内に複数項目ある場合の段内の2字目から始まる項目) 巻1 頁4 行2 段4 字順2

目的:風間版における掲出項目の所在地を示す。主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。

出典:正宗敦夫編『類聚名義抄 第一巻』(風間書房、1954年)に基づく。

天理版所在 (tenri_location / T形式)

天理版所在は、風間版所在のK形式の決定方法と同様の考えに従い、 形式、字順、目的を次のように定める。

形式:T + 巻数(a/b/c) + ページ数(3桁) + 行数(1桁) + 段数(1桁) + 字順 (1桁) 。 T形式。

字順 (1桁): その段における、項目の種類と出現順序に基づいて付与される番号である。 字順は文字単位の基準であるが、この文字単位の基準を代表として用いて 掲出項目の所在地を示す。

字順が文字単位の基準を用いているのは、特に、 1段(1マスとも言える)の記入欄に2個以上の掲出項目が記述されるという、 掲出項目の配置の例外に対処するためである。

字順を文字単位の基準を代表として用いるために、次の 字順決定のルールを定める。

  • ケース1: その段に項目が一つのみの場合
    • その項目が単字項目であれば、字順は 0
    • その項目が複字項目であれば、字順は 1
  • ケース2: その段に項目が二つ以上ある場合     - その段落の最初の項目であれば、字順は 1 。     - その段落の2番目以降の項目であれば、字順は その項目の最初の文字が、段落の先頭から数えて何番目に出現するか を示す(段の先頭を1字目として数えた通し番号)。

例:

  • Ta023310: (単字項目、1段1項目) 上巻 頁23 行3 段1 字順0
  • Tc090411: (複字項目、1段1項目) 下巻 頁90 行4 段1 字順1
  • Ta026241: (段内に複数項目ある場合の最初の項目) 上巻 頁26 行2 段4 字順1
  • Ta026242: (段内に複数項目ある場合の段内の2字目から始まる項目) 上巻 頁26 行2 段4 字順2

目的:天理版における掲出項目の所在地を示す。 主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。

出典:『類聚名義抄 仏・法・僧』(天理図書館善本叢書和書之部第32-34巻、天理大学出版部・八木書店発売)に基づく。

複字形式の掲出字の入力方法

複字形式の掲出項目に見える異体字併記と熟語は、掲出字を「/」(全角スラッシュ, U+FF0F)で区切って入力する。

掲出項目が「/」を含めば、それは複字形式であることを示し、用いられる「/」の数は複字形式の掲出字数を示す。

入力例
異体字併記:翛/倐/倏/翛β 熟語:一/人

データ表現におけるIDの扱い

公開するTSV形式のデータにおけるIDの表現ルール: 名義抄の掲出字に関する各種のIDを設定したので、次にそれらを 整理しておく。

  • 掲出項目ID (entry_id): F形式
  • 掲出字ID (hanzi_id): S形式
  • 風間版所在(kazama_location): K形式
  • 天理版所在 (tenri_location): T形式

複字形式の場合のIDのデータ表現

複字形式の掲出字IDは一番目の掲出字IDを代表として示し、 二番目以降の掲出字IDは公開するTSV形式のデータでは省略する。

IDの例は、S形式、F形式、K形式、T形式すべてを含めて示すと次のようになる。

  • 掲出項目「AB」 (項目ID: F25121)
    • 風間版所在: K0808441
    • 天理版所在: Tc090411
    • Aの掲出字ID: S31590
    • Bの掲出字ID: S31591
    • TSVでの表示:
      • entry_id カラム: F25121
      • hanzi_id カラム: S31590
      • kazama_location カラム: K0808441
      • tenri_location カラム: Tc090411

掲出字の詳細情報(マッピングテーブル)へ移譲

掲出字に関する次の情報のすべてをマッピングテーブル(krm_headword_chars.tsv)へ移譲する。

  • 各掲出字ID(S形式)に対応する、より詳細な位置情報(K形式、T形式)のリスト全体
  • 個々の掲出字(S形式)に対応する、切り抜き画像ファイル名
  • 個々の掲出字(S形式)に対応する、GlyphWikiのグリフ番号

これらの情報が必要な利用者は、krm_headword_chars.tsv を参照する必要がある。

文字の符号化と表現

Unicodeによる符号化

UnicodeのバージョンによりCJK統合漢字の数は異なる。 HDICプロジェクトとしては2014年にスタートしており、当初、基本に据えたのは2015年のUnicode 8.0.0であり、使用できる漢字の数は、 CJK統合漢字とCJK統合漢字拡張A-Eの80,358字である。 その後も拡張が続いており、90,000字を超えるところまで きている。ただ、Unicodeに収録されても、実際に画面に表示したり、 印刷したりして使えるようになるのは時間がかかるようである。JCK統合漢字 拡張Eまでを可能な限り利用し、拡張F以降は、備考欄などに注記するにとどめている。

Unicode外の文字・難字の表現

Unicodeに収録されていない漢字については、以下の方法で表現する。漢字の部品の組み合わせで表現可能な場合は、IDS(漢字構成記述文字列)で入力する。 特定の漢字やその部品で、IDSまたは標準Unicodeで表現が困難な場合は、CHISEおよびGlyphWikiの実体参照方式に基づいた簡略表記(例:CDP-8C55, koseki-00001)を用いるか、 近い字形とβ、γ等とを組み合せて記述する。

上記のいずれの方法でも表現できない文字や、原典で判読不能な文字(虫損等)は、「■」(黒い四角)で入力する。

入力例
IDS入力の例:⿰亻胃 βの例:正β(匸の中にヽが横に二つの字体)

GlyphWikiの利用

近似した明朝体の字形を表示するために GlyphWiki(上地宏一氏)を利用すれば、 近似した明朝体の字形を表示することができる。

GlyphWikiを利用した名義抄の掲出字の字形の作成は、作業中であり、 完成していないが、参考に記しておく。

GlyphWikiのグリフ番号を、上述した掲出字IDに対応させることで、 類聚名義抄の掲出字を明朝体字形で表現する。

GlyphWikiのグリフ番号は、このプロジェクトの略称であるHDICと 観智院本名義抄の略称(KRM)を組み合わせたプリフィックス hdic_hkrm-を冠し、掲出字IDの数値部分を組み合わせて 表現する。

たとえば、K01075140の掲出字IDのGlyphWikiのグリフ番号は hdic_hkrm-01075140となる。

次にはmarkdownの記法で示す。

入力例

![正β](https://glyphwiki.org/glyph/hdic_hkrm-01075140.png)

とすると、次のように表示される。

正β

これでは文字サイズが大きいので、小さいサイズを使う場合には

![正β](https://glyphwiki.org/glyph/hdic_hkrm-01075140.50px.png)

とすれば、次のように表示される。

正β

原典に見られる問題への対応

虫損・判読不能

説明
虫損(insect holes)で判読できない字や点画が複雑すぎてIDSの表現が困難な字を 「■」(黒い四角, U+25A0)として入力する。 虫損が一部で判読可能な字は「□(某)」のように示す。

入力例

脱字

説明
脱字(omitted character, 脫字)であることが明らかな掲出字は、 「[]」(全角の角括弧)に入れて示す。

入力例

将/[指]

誤字

説明 誤字(miswritten character, 誤字)であることが明らかな掲出字は、 校訂済みの字体をEntryに、原文の字体をEntry_originalに示し、備考欄に校訂の根拠を示す。

入力例

Entry   Entry_original  Remarks
向/後  〇/ー(彴)    掲出字は「向後」とすべきを誤る。岡田研究193-194頁に「ー」使用は高山寺本が適切との指摘あり。

原典に見られる特定の符号・注記

本文中の特殊な符号:

省略符号

説明
熟語の掲出字に見える省略符号(omission mark)「|」は、 被注字(annotated headword, 被釋字)或いは前掲する掲出字を代用する時に使用される符号で、 「ー」(長音符, U+30FC)を用いて入力し、その後の「()」(全角括弧)内に該当字を入力する。

入力例

五/ー(人)

踊り字

説明
複字形式の掲出字に使われる踊り字(repetition mark, 疊字符)は 「〻」(二の字点, U+303B)を用いることとし、「々」(同の字点, U+3005)を用いない。

入力例

曽/ー(祖)/〻(母)

本文訂正の符号

説明
転倒符(reverse mark, 顛倒符)を施して複字形式の掲出字の順序を正したり、見消符(deletion mark, 抹消符)を施して正しい掲出字を傍書(side note, 旁記)したり、補入符(interpolation mark, 補入符)を用いて掲出項目の順序を正したりすることがある。これらは正しい内容に修正して本文を入力する。

次の入力例では、注ごとに詳しい説明を施している。 項目データでは、どの箇所を訂正したのか、分かりにくいので、 注文の種類ごとに分割したデータとして、公開する予定である。

入力例

Entry   Def Remarks
儻/儻  コヒネカハクハ  西端誤写諸例54頁③文字のいれかわり818。高山寺本「コネヒカハクハ」の「ヒ」の右肩に転倒符あり、文字のいれかわりの誤りは解消済み(草川昇「類聚名義抄和訓小考」29頁)。

掲出字に施された声点等の注記

説明
掲出字に施された声点・仮名字音、傍訓、漢文注記、異本注記は、「掲出字補注」とし、それぞれ◎、⦿、◇、▲を付して示す。