項目データの入力

観智院本類聚名義抄(KRM)の項目データの入力方法を解説する。以下、観智院本類聚名義抄を名義抄と呼ぶ。

項目は掲出字と注文とからなる。ここでは掲出字の入力と注文の入力とに共通する事項を説明する。

掲出字・項目構造とID体系

このセクションでは、名義抄の項目の構造と、それを識別するためのID体系について説明する。

掲出字と掲出項目の定義

掲出字（Headword Character(s)）とは、見出しの漢字そのものである。掲出項目（Entry）とは、辞書の項目単位である。

名義抄において一つの掲出項目は、単字または複字（多字）からなる。

単字からなる掲出項目は、たとえば、「人」「何」のような例である。

複字からなる掲出項目は、たとえば「一人」「二人」や「何如」「如何」のような熟語のものと、「爲為」「翛倐」のような、異体字併記のものがある。

掲出項目の配置の原則と例外

名義抄の1頁は、8行4段から構成される。言い換えれば、1頁には縦8行、横4列、合計32個の記入欄が配置される。

1項目は、1個の記入欄に記述される1段1項目が圧倒的多数を占める。

説明が長文となる場合は、2個以上の記入欄を使用して記述され、 2段以上になったり、2行以上になったりすることとなる。この多段1項目の例も頻繁に出現する。説明が長文でも1頁を超えて記述されることはない。つまり、1個の記入欄に記入される項目は1項目以下であるのが原則である。

例外として1段の中に2項目が記述されることがある。この1段多項目は、全体からみたら、1％にもならない。

以上の原則と例外を踏まえて、名義抄のID体系を解説する。名義抄のID体系の説明が複雑となるが、それは1段の中に2項目が記述されることに起因しているので、このデータの利用者は、特にこの点に注意されたい。

名義抄のID体系

IDの種類

名義抄のデータでは、主に次のカラムにより項目や文字位置を管理する。

掲出項目ID (entry_id - 例: F00001) F形式
掲出字ID (hanzi_id - 例: S00001) S形式
風間版所在 (kazama_location - 例: K0100131) K形式
天理版所在 (tenri_location - 例: Ta023310) T形式

*各カラムの関係性

掲出項目ID (entry_id) は、それを構成する一つ以上の掲出字ID (hanzi_id) を識別する。

掲出字ID (hanzi_id) は、データ上の各文字位置を一意に識別する主キーである。

各掲出字ID (hanzi_id) には、対応する所在ID（風間版、天理版）が紐づく。

主要IDの詳細形式

掲出項目ID (entry_id / F形式)

形式：掲出項目ID（entry_id）はFで始まる5桁の数値。F00001からF32604までの連番である。一部、追加した掲出項目にはb番号を付す。

目的：名義抄の一項目を一意に識別する。

複字項目における付与ルール：掲出項目は、単字項目か複字項目かの違いを無視して、出現順に連番を与える。

掲出字ID (hanzi_id / S形式)

形式：掲出字ID（hanzi_id）はSに始まる5桁の数値。S00001からS42328までの連番。 S形式。一部、追加した掲出字にはb番号を付す。

目的：データ上の各掲出字（文字位置）を一意に識別する主キーである。

補足 2字目以降の掲出字を含めたすべての掲出字IDを一覧したデータは別に用意する（krm_word_chars.tsv、詳細後述）。

風間版所在 (kazama_location / K形式)：

形式： K + 巻数(2桁) + 風間版頁数(3桁) + 行数(1桁) + 段数(1桁) + 字順 (1桁)。 K形式。

字順 (1桁): その段における、項目の種類と出現順序に基づいて付与される番号である。字順は文字単位の基準であるが、この文字単位の基準を代表として用いて掲出項目の所在地を示す。

字順が文字単位の基準を用いているのは、特に、 1段（1マスとも言える）の記入欄に2個以上の掲出項目が記述されるという、掲出項目の配置の例外に対処するためである。

字順を文字単位の基準を代表として用いるために、次の字順決定のルールを定める。

ケース1: その段に項目が一つのみの場合
- その項目が単字項目であれば、字順は 0 。
- その項目が複字項目であれば、字順は 1 。
ケース2: その段に項目が二つ以上ある場合 - その段の最初の項目であれば、字順は 1 。 - その段の2番目以降の項目であれば、字順は その項目の最初の文字が、段の先頭から数えて何番目に出現するか を示す（段の先頭を1字目として数えた通し番号）。

一つの段に「AB」「CD」とあり、Aが段の1字目、Bが2字目、Cが3字目、Dが4字目の場合とする。項目CDは2番目の項目、その最初の文字はC、そのCは段の3字目である。よってCDの字順は3となる。

例:

K01001310: (単字項目、1段1項目) 巻1 頁1 行3 段1 字順0
K08084411: (複字項目、1段1項目) 巻8 頁84 行4 段1 字順1
K01004241: (段内に複数項目ある場合の最初の項目) 巻1 頁4 行2 段4 字順1
K01004242: (段内に複数項目ある場合の段内の2字目から始まる項目) 巻1 頁4 行2 段4 字順2

目的：風間版における掲出項目の所在地を示す。主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。

出典：正宗敦夫編『類聚名義抄　第一巻』（風間書房、1954年）に基づく。

天理版所在 (tenri_location / T形式)

天理版所在は、風間版所在のK形式の決定方法と同様の考えに従い、形式、字順、目的を次のように定める。

形式：T + 巻数（a/b/c） + ページ数（3桁） + 行数（1桁） + 段数(1桁) + 字順 (1桁) 。 T形式。

字順を文字単位の基準を代表として用いるために、次の字順決定のルールを定める。

ケース1: その段に項目が一つのみの場合
- その項目が単字項目であれば、字順は 0 。
- その項目が複字項目であれば、字順は 1 。
ケース2: その段に項目が二つ以上ある場合 - その段落の最初の項目であれば、字順は 1 。 - その段落の2番目以降の項目であれば、字順は その項目の最初の文字が、段落の先頭から数えて何番目に出現するか を示す（段の先頭を1字目として数えた通し番号）。

例:

Ta023310: (単字項目、1段1項目) 上巻頁23 行3 段1 字順0
Tc090411: (複字項目、1段1項目) 下巻頁90 行4 段1 字順1
Ta026241: (段内に複数項目ある場合の最初の項目) 上巻頁26 行2 段4 字順1
Ta026242: (段内に複数項目ある場合の段内の2字目から始まる項目) 上巻頁26 行2 段4 字順2

目的：天理版における掲出項目の所在地を示す。主に使用される1段1項目、頻繁に出現する多段1項目、そして稀な1段多項目といった、様々な掲出項目の配置パターンすべてに対応できるよう、文字位置の表示ルールに基づいて定められている。

出典：『類聚名義抄　仏・法・僧』（天理図書館善本叢書和書之部第32-34巻、天理大学出版部・八木書店発売）に基づく。

複字形式の掲出字の入力方法

複字形式の掲出項目に見える異体字併記と熟語は、掲出字を「／」（全角スラッシュ, U+FF0F）で区切って入力する。

掲出項目が「／」を含めば、それは複字形式であることを示し、用いられる「／」の数は複字形式の掲出字数を示す。

入力例
異体字併記：翛／倐／倏／翛β 熟語：一／人

データ表現におけるIDの扱い

公開するTSV形式のデータにおけるIDの表現ルール：名義抄の掲出字に関する各種のIDを設定したので、次にそれらを整理しておく。

掲出項目ID (entry_id): F形式
掲出字ID (hanzi_id): S形式
風間版所在（kazama_location）: K形式
天理版所在 (tenri_location): T形式

複字形式の場合のIDのデータ表現：

複字形式の掲出字IDは一番目の掲出字IDを代表として示し、二番目以降の掲出字IDは公開するTSV形式のデータでは省略する。

IDの例は、S形式、F形式、K形式、T形式すべてを含めて示すと次のようになる。

例：

掲出項目「AB」 (項目ID: F25121)
- 風間版所在: K0808441
- 天理版所在: Tc090411
- Aの掲出字ID: S31590
- Bの掲出字ID: S31591
- TSVでの表示:
  - entry_id カラム: F25121
  - hanzi_id カラム: S31590
  - kazama_location カラム: K0808441
  - tenri_location カラム: Tc090411

掲出字の詳細情報（マッピングテーブル）へ移譲

掲出字に関する次の情報のすべてをマッピングテーブル（krm_headword_chars.tsv）へ移譲する。

各掲出字ID（S形式）に対応する、より詳細な位置情報（K形式、T形式）のリスト全体
個々の掲出字（S形式）に対応する、切り抜き画像ファイル名
個々の掲出字（S形式）に対応する、GlyphWikiのグリフ番号

これらの情報が必要な利用者は、krm_headword_chars.tsv を参照する必要がある。

文字の符号化と表現

Unicodeによる符号化

UnicodeのバージョンによりCJK統合漢字の数は異なる。 HDICプロジェクトとしては2014年にスタートしており、当初、基本に据えたのは2015年のUnicode 8.0.0であり、使用できる漢字の数は、 CJK統合漢字とCJK統合漢字拡張A-Eの80,358字である。その後も拡張が続いており、90,000字を超えるところまできている。ただ、Unicodeに収録されても、実際に画面に表示したり、印刷したりして使えるようになるのは時間がかかるようである。JCK統合漢字拡張Eまでを可能な限り利用し、拡張F以降は、備考欄などに注記するにとどめている。

Unicode外の文字・難字の表現

Unicodeに収録されていない漢字については、以下の方法で表現する。漢字の部品の組み合わせで表現可能な場合は、IDS（漢字構成記述文字列）で入力する。特定の漢字やその部品で、IDSまたは標準Unicodeで表現が困難な場合は、CHISEおよびGlyphWikiの実体参照方式に基づいた簡略表記（例：CDP-8C55, koseki-00001）を用いるか、近い字形とβ、γ等とを組み合せて記述する。

上記のいずれの方法でも表現できない文字や、原典で判読不能な文字（虫損等）は、「■」（黒い四角）で入力する。

入力例
IDS入力の例：⿰亻胃 βの例：正β(匸の中にヽが横に二つの字体)

GlyphWikiの利用

近似した明朝体の字形を表示するために GlyphWiki（上地宏一氏）を利用すれば、近似した明朝体の字形を表示することができる。

GlyphWikiを利用した名義抄の掲出字の字形の作成は、作業中であり、完成していないが、参考に記しておく。

GlyphWikiのグリフ番号を、上述した掲出字IDに対応させることで、類聚名義抄の掲出字を明朝体字形で表現する。

GlyphWikiのグリフ番号は、このプロジェクトの略称であるHDICと観智院本名義抄の略称（KRM）を組み合わせたプリフィックス hdic_hkrm-を冠し、掲出字IDの数値部分を組み合わせて表現する。

たとえば、K01075140の掲出字IDのGlyphWikiのグリフ番号は hdic_hkrm-01075140となる。

次にはmarkdownの記法で示す。

入力例

![正β](https://glyphwiki.org/glyph/hdic_hkrm-01075140.png)

とすると、次のように表示される。

これでは文字サイズが大きいので、小さいサイズを使う場合には

![正β](https://glyphwiki.org/glyph/hdic_hkrm-01075140.50px.png)

とすれば、次のように表示される。

原典に見られる問題への対応

虫損・判読不能

説明
虫損（insect holes）で判読できない字や点画が複雑すぎてIDSの表現が困難な字を「■」（黒い四角, U+25A0）として入力する。虫損が一部で判読可能な字は「□(某)」のように示す。

入力例

脱字

説明
脱字（omitted character, 脫字）であることが明らかな掲出字は、「［］」（全角の角括弧）に入れて示す。

入力例

将／[指]

誤字

説明誤字（miswritten character, 誤字）であることが明らかな掲出字は、校訂済みの字体をEntryに、原文の字体をEntry_originalに示し、備考欄に校訂の根拠を示す。

入力例

Entry   Entry_original  Remarks
向／後  〇／ー（彴）    掲出字は「向後」とすべきを誤る。岡田研究193-194頁に「ー」使用は高山寺本が適切との指摘あり。

原典に見られる特定の符号・注記

本文中の特殊な符号:

省略符号

説明
熟語の掲出字に見える省略符号（omission mark）「｜」は、被注字（annotated headword, 被釋字）或いは前掲する掲出字を代用する時に使用される符号で、「ー」（長音符, U+30FC）を用いて入力し、その後の「（）」（全角括弧）内に該当字を入力する。

入力例

五／ー（人）

踊り字

説明
複字形式の掲出字に使われる踊り字（repetition mark, 疊字符）は「〻」（二の字点, U+303B）を用いることとし、「々」（同の字点, U+3005）を用いない。

入力例

曽／ー（祖）／〻（母）

本文訂正の符号

説明
転倒符（reverse mark, 顛倒符）を施して複字形式の掲出字の順序を正したり、見消符（deletion mark, 抹消符）を施して正しい掲出字を傍書（side note, 旁記）したり、補入符（interpolation mark, 補入符）を用いて掲出項目の順序を正したりすることがある。これらは正しい内容に修正して本文を入力する。

次の入力例では、注ごとに詳しい説明を施している。項目データでは、どの箇所を訂正したのか、分かりにくいので、注文の種類ごとに分割したデータとして、公開する予定である。

入力例

Entry   Def Remarks
儻／儻  コヒネカハクハ  西端誤写諸例54頁③文字のいれかわり818。高山寺本「コネヒカハクハ」の「ヒ」の右肩に転倒符あり、文字のいれかわりの誤りは解消済み（草川昇「類聚名義抄和訓小考」29頁）。

掲出字に施された声点等の注記

説明
掲出字に施された声点・仮名字音、傍訓、漢文注記、異本注記は、「掲出字補注」とし、それぞれ◎、⦿、◇、▲を付して示す。