項目データ構造

項目データ構造

観智院本類聚名義抄(KRM)の項目データの構造を解説する。

項目の構造

項目の構造(Item structure) を図示すれば次のようになる。左側の本文は 模写したものである。

item structure

貴重図書複製会(1937)による影印が国会図書館デジタルコレクションで公開されている。 [該当ページ](https://dl.ndl.go.jp/info:ndljp/pid/2586892/44)の左側に上記の原文が確認できる。

項目は掲出字(headword)と注文(definition, annotation)からなる。

注文は、音注(pronunciation)、漢文義注(Chinese meaning)、 和訓(Japanese reading)、 字体注(glyph annotation)からなる。漢文義注は、義注、漢文意味注ということもある。 誤解を生じない限り、単に義注とすることが多い。 和訓は和訓注ということもある。

図示した「覲」を例にして説明すると、次のようになる。

掲出字:覲
注文:音僅(R) ミル(LH) マミユ(HLH) 和後ン(_L)
    注文の要素
        音注:音僅(R)
        和訓:ミル(LH)
        和訓:マミユ(HLH)
        音注:和後ン(_L)

その他、掲出字の周囲に施された漢文義注、片仮名などがあり、これらを掲出字補注と呼ぶ。

掲出字の形式

掲出字は単字形式(single character form)と 複字形式(plural charactor form)とがある。 複字形式の掲出字は、熟語または異体字の併記である。

観智院本約32,600項目のうち、単字形式は約24,600項目であり、 複字形式は8,000項目である。

項目の種類

異体項目と熟語項目

異体項目(variant glyph item)とは、 掲出字を併記して異体字を示したり、注文の中で、 「正」「俗」等の字体注記を施したりする項目のことである。 掲出字が単字形式の場合は、注文中の字体注記により判断されるが、 前後の項目との関係で字体注記がなくても異体項目と判断することもできる。

熟語項目(idiom item)は、掲出字が複字形式で熟語であるものである。 注文中に熟語としての説明がある場合は熟語項目として問題ないが、 熟語としての説明がなく、掲出字のそれぞれに音注・義注を施す場合でも熟語項目とみなす。

観智院本約32,600項目のうち、異体項目は約14,000項目であり、 その異体項目のうち単字形式が約9,500項目、複字形式が4,5000項目である。

異体項目でない項目は約18,600項目である。そのうち単字形式が約15,000項目、 複字形式が3,500項目である。この複字形式が 熟語項目となる。

基本項目と拡張項目

掲出項目は、注文の形式から、 掲出字に対する「形」「音」「義」のすべてが記入されている基本項目(main item)と、 それ以外の拡張項目(extended item)とに分ける。

「形」は掲出字自身と字体注、「音」は音注、「義」は義注と和訓によって表される。

基本項目はその掲出字が単字形式であるか複字形式であるかを問わない。拡張項目は基本項目に連続するものとする。拡張項目は掲出字に対する「形」「音」「義」の一部が記入されるものとするが、注文がない項目や注文に「未詳」が記入された項目も拡張項目に含める。

観智院本には約32,600の項目があるが、そのうち基本項目は 約15,100、拡張項目は約17,00である。

独立項目と連続項目

掲出項目は、基本項目が拡張項目を持つかどうかによって、 拡張項目を持たない基本項目のみの独立項目(independent item)と、 基本項目と拡張項目の双方を持つ連続項目(serial item)とに分けられる。 連続項目の中の基本項目を親項目(chief item)、 拡張項目を子項目(sub item)と呼ぶことがある。

独立項目と連続項目の数はまだ算出できていない。

書体・字体・字形

「書体」「字体」「字形」の用語は 石塚晴通『図書寮本 日本書紀 研究篇』(汲古書院、1984)の定義に従う。

  • 書体 — 漢字の形に於て存在する社会共通の様式。多くは其の漢字資料の目的により決まる。楷書・草書等
  • 字体 — 書体内に於て存在する一々の漢字の社会共通の基準
  • 字形 — 字体内に於て認識する一々の漢字の書写された形そのもの

「書体」「字体」「字形」を階層的に捉える点がこの定義の特徴である。

異体字

異体字(variant glyph)は「字体」レベルにおいて、「正字」に対応する概念である。 石塚晴通「漢字字体の日本的標準」(『国語と国文学』76(5)、1999) などに示される漢字字体史研究のモデルでは、漢字字体の標準は 時代・地域により変遷するという考えをとっており、 **漢字字体規範データベース(HNG)**はそのモデルの実証を意図するものである。 HNGは漢字字体規範史データセットで利用できる。

異体字は「正字」でない字体を指すのが一般の理解であるが、石塚のモデルでは、時代・地域により、漢字字体の標準、すなわち「正字」が相違するのであるから、あらかじめ「正字」と「異体字」とを区別することができない。ここでは、異体字を漢字字体のバリエーションとして捉え、「正」「俗」「通」「或」等の字体注記(字級)が施されていれば異体字を示していると判断する。

「正」「俗」等の字体注記を字級(glyph class)と呼ぶのは、 李景遠『隋唐字様學研究』(國立臺灣師範大學國文研究所博士論文、1997)による。

形近字

形近字(similar glyph character)とは、字形が近似しているが別字であるものである。類形別字あるいは類形異字と呼ばれる。観智院本『類聚名義抄』の研究では、 酒井憲二「類聚名義抄の字順と部首排列」(『本邦辞書史論叢』三省堂、1967) が部首内の字順について「類似字形排列」を見出しているが、 これは、異体字および形近字が連続して掲出されると言い換えることができる。

項目の例

item structure

左から順に翻刻を示すと次のようになる。所在情報は簡略化して示す。

No	KR_ID	KR_vol_radical	KR_vol_name	KR_radical	Entry	Entry_original	KR_def
1	K08084810	v8#8	僧上	力	功	〇	音工(L-R)「コウ(_N)」「クウ(_N)」 續也 事也 成也 タシカニ(LHLH) 切歟
2	K08081810	v8#83	僧上	力	助	⿰目力	鉏據反 タスク(LL_) マサル(HH_) ハサム 和自ヨ(_L)
3	K08081821	v8#83	僧上	力	𦔳/助	■/〇	今正
4	K08084411	v8#83	僧上	力	加/復	〇/〇	シカノミナラス
5	K08084421	Tc090421	v8#83	僧上	力	ー(加)/之	〇/〇	同

1の「功」は単字形式の例である。 この例は、音注に複数の声点、仮名字音、鼻音記号が見えており、複雑な内容を持つ。 声点の圏点と星点の区別、声点と仮名字音の朱墨の別は省略する。 漢字意味注の「續也」は「績也」の誤写。 和訓「タシカニ」は「功」字の字義に対応せず不審。 この和訓のすぐあとに「切歟」とあり、 「切」字に「タシカニ」の和訓がある。 「功」には異体字「㓛」があり、これは「切」およびその異体字「⿰十刀」に近似した字形である。 「切」は掲出字「功」の形近字であり、その混同による和訓であっても注文内容を改変することなく「切歟」という注記を加えたものである。「切歟」は「案語」として扱う。

2の「助」は単字形式で音注と和訓を示し、 次の3の「𦔳/助」は複字形式であり、字体注によって異体字を示す。 「/」は複字形式を示す区切りの符号であり、その「/」の数から 、掲出字の字数を計算できる。

4の「加/復」は熟語の和訓を示しており、5の「ー(加)/之」は同訓であることを示す。「ー」は 前項の「加」を簡略に標示する符号である。

項目データファイルのヘッダ(カラム名)の記述内容

観智院本類聚名義抄(KRM)の項目は掲出字と注文とからなる。 KRM項目のデータはKRM.tsvに格納される。 ヘッダ(カラム名)の記述内容は次のとおりである。 新旧の名称を対照して示す。

No 新名称 旧名称 内容・書式
1 entry_id KRID_n 掲出項目の通し番号。Fに5桁の数字を付す。一部、追加項目にはb番号を追加する。
2 hanzi_id KRID_sn 掲出字の通し番号。Sに5桁の数字を付す。S00227、S09507、S10953は重複2回につきKRID_nにb番号を付す、S28358は重複3回につきKRID_nにbc番号を付す。
3 kazama_entry_location KR2ID 風間書房版の項目ID。K・巻数(2桁)・ページ数(3桁)・行数(1桁)・段数(1桁)を示す。一段に複数項目ある場合は字順(1桁)を項目IDとして追加する。
4 kazama_hanzi_location KRID 掲出字ID。K・巻数(2桁)・風間書房版ページ数(3桁)・行数(1桁)・段数(1桁)・字順(1桁)を示す。掲出字が単字形式のものは最後の字順を0とする。複字形式のものは1, 2 ,…nとする。一段に複数項目ある場合は単字形式でも1, 2 ,…nとする。
5 tenri_location KR_Tenri_p 八木書店版の掲出字ID。T・巻数(a/b/c)・ページ数(3桁数)・行数(1桁)・段数(1桁)・字順(1桁)を示す。最後の字順の示し方は掲出字IDの場合に同じとする。八木書店刊行の天理図書館善本叢書(新・旧)による。
6 volume_name KR_vol_name 巻。「仏上」「仏中」「仏下本」「仏下末」「法上」「法中」「法下」「僧上」「僧中」「僧下」の10 巻を示す
7 radical_name KR_radical 部首名。「人、彳、辵」から「風、酉、雑」までの120部を示す。
8 volume_radica_index KR_vol_radical 巻。v・巻数(1-10)#・部首番号(1-120)を示す。v1#1(第1帖第1)〜v10#120(第10帖第120)。第1帖(仏上)〜第10帖(僧下)。
9 hanzi_entry Entry 掲出字。「康煕字典体」(Kangxi Zidian glyph)に包摂(subsumption)するのを原則として入力した掲出字。複字形式の場合は/(全角スラッシュ)で区切り、省略符号「|」がある場合、ー(長音符)を用いて、その後の()(全角括弧)内に該当字を入力する。掲出字補注の内容は注文(KR_def)に入力する。
10 original_entry Entry_original 原字形に近い掲出字。「原字形に近い掲出字」(original character form, 原本字形相近字頭字形)を示す必要があると池田が判断したものを入力し、必要がない掲出字は「〇」で入力する。
11 definition Def 注文。 字体注、音注、義注、和訓など。スペースで区切る。注文の本文を入力する。原則として「康熙字典体」に包摂した字形を入力する。defはdefinitionの意。
12 remarks Remarks 備考。注文(Def)に入力できない情報を注記する。

TSVファイルの例

次はTSVファイルの例である。新旧のヘッダ(カラム名)をあわせて示す。

(新)entry_id	hanzi_id	kazama_entry_location	kazama_hanzi_location	tenri_location	volume_name	radical_name	volume_radical_index	hanzi_entry	original_entry	definition	remarks
(旧)KRID_n	KRID_sn	KR2ID	KRID	KR_Tenri_p	KR_vol_name	KR_radical	KR_vol_radical	Entry	Entry_original	Def	Remarks
F00001	S00001	K0100131	K01001310	Ta023310	仏上	人	v1#1	人	〇	音仁(LV)「ニン」 ヒト(HL) ワレ(LL) サネ マホル ユク    	
F00002	S00002	K0100133	K01001331	Ta023331	仏上	人	v1#1	一/人	〇/〇	ヒトリ(LH_)	
F00003	S00004	K0100134	K01001341	Ta023341	仏上	人	v1#1	二/人	〇/〇	フタリ(HHL)	高山寺本になし。岡田研究183頁。
F00004	S00006	K0100141	K01001411	Ta023411	仏上	人	v1#1	五/ー(人)	〇/〇	イトリ(LHL)	
F00005	S00008	K0100142	K01001421	Ta023421	仏上	人	v1#1	ー(人)/等	〇/〇	ヒトヽモ(HHHVH)	
F00006	S00010	K0100143	K01001431	Ta023431	仏上	人	v1#1	湯/ー(人)	〇/〇	ユヱ(L_)	
F00007	S00012	K0100144	K01001441	Ta023441	仏上	人	v1#1	真/人	〇/〇	マフト(HHL)	
F00008	S00014	K0100151	K01001511	Ta023511	仏上	人	v1#1	漁/ー(人)	〇/〇	アマ(LL)	
F00009	S00016	K0100152	K01001521	Ta023521	仏上	人	v1#1	海/ー(人)	〇/〇	同上	高山寺本は次項に「人魚 イヲノナ」あり。高山寺本が観智院本より以前である説の反例(岡田研究182頁)。池田按:蓮成院本は「分註式」で「人魚」あり。
F00010	S00018	K0100153	K01001531	Ta023531	仏上	人	v1#1	盗/ー(人)	〇/〇	ヌスヒト	
F00011	S00020	K0100154	K01001541	Ta023541	仏上	人	v1#1	不/良/人	〇/〇/〇	同上	
F00012	S00023	K0100161	K01001611	Ta023611	仏上	人	v1#1	毛/ー(人)	〇/〇	ヱヒス	
F00013	S00025	K0100162	K01001621	Ta023621	仏上	人	v1#1	白/ー(人)	〇/〇	シレモノ	
F00014	S00027	K0100163	K01001631	Ta023631	仏上	人	v1#1	桃/ー(人)	〇/〇	モヽノサニ(___LL)	
F00015	S00029	K0100164	K01001641	Ta023641	仏上	人	v1#1	ー(人)/參	〇/参	カノニケクサ(LLLLVHVL)	
F00016	S00031	K0100171	K01001710	Ta023710	仏上	人	v1#1	佛	〇	音費(R)「ヒ」 ホノカナリ 又符「フ」弗(S)「フツ」反 ホトケ ヲホキニス-ナリ(LLHLH-__) タチマチ 又音弼(S)「ヒチ」 タスク(LLH) 和音部ツ	高山寺本「佛」が本文冒頭にり、これを穏当で自然な順序としたのが観智院本と解釈。岡田研究187頁。
F00017	S00032	K0100174	K01001740	Ta023740	仏上	人	v1#1	仏	〇	俗佛字 又見別字	
F00018	S00033	K0100181	K01001811	Ta023811	仏上	人	v1#1	仿/佛	〇/〇	ホノカナリ 上芳往反 *ホノカナリ ヲホツカナシ ナラフ カタヒク イカル 下音費	高山寺本の記載法、「佛」の熟字訓の後に「仿ー」とあり「乱暴な遣り方」。岡田研究186頁。
F00019	S00035	K0100184	K01001840	Ta023840	仏上	人	v1#1	㑂	〇	或作髣正	
F00020	S00036	K0100211	K01002111	Ta024111	仏上	人	v1#1	仿/像	〇/〇	ホノカナリ 下在下	
F00021	S00038	K0100212	K01002120	Ta024120	仏上	人	v1#1	㐻	〇	内(R)「タイ」納二音	
F00022	S00039	K0100213	K01002130	Ta024130	仏上	人	v1#1	僧	〇	蘇曽(F)反 カハラク(HHHLV) ネムコロ サトル 和音ソウ(LL-N)	
F00023	S00040	K0100221	K01002210	Ta024210	仏上	人	v1#1	傮	〇	遭(L)「サウ」曹(L)「サウ」二音 終也	
F00024	S00041	K0100222	K01002220	Ta024220	仏上	人	v1#1	⿰亻胃	〇	音謂(R)「ヰ」 胃也 サソフ	

Excelファイルの例

次は上記のTSVファイルをExcelに読み込んだものである。(旧版の画像)

item structure