項目データ構造
観智院本類聚名義抄(KRM)の項目データの構造を解説する。
項目の構造
項目の構造(Item structure) を図示すれば次のようになる。左側の本文は 模写したものである。
貴重図書複製会(1937)による影印が国会図書館デジタルコレクションで公開されている。 [該当ページ](https://dl.ndl.go.jp/info:ndljp/pid/2586892/44)の左側に上記の原文が確認できる。
項目は掲出字(headword)と注文(definition, annotation)からなる。
注文は、音注(pronunciation)、漢文義注(Chinese meaning)、 和訓(Japanese reading)、 字体注(glyph annotation)からなる。漢文義注は、義注、漢文意味注ということもある。 誤解を生じない限り、単に義注とすることが多い。 和訓は和訓注ということもある。
図示した「覲」を例にして説明すると、次のようになる。
掲出字:覲
注文:音僅(R) ミル(LH) マミユ(HLH) 和後ン(_L)
注文の要素
音注:音僅(R)
和訓:ミル(LH)
和訓:マミユ(HLH)
音注:和後ン(_L)
その他、掲出字の周囲に施された漢文義注、片仮名などがあり、これらを掲出字補注と呼ぶ。
掲出字の形式
掲出字は単字形式(single character form)と 複字形式(plural charactor form)とがある。 複字形式の掲出字は、熟語または異体字の併記である。
観智院本約32,600項目のうち、単字形式は約24,600項目であり、 複字形式は8,000項目である。
項目の種類
異体項目と熟語項目
異体項目(variant glyph item)とは、 掲出字を併記して異体字を示したり、注文の中で、 「正」「俗」等の字体注記を施したりする項目のことである。 掲出字が単字形式の場合は、注文中の字体注記により判断されるが、 前後の項目との関係で字体注記がなくても異体項目と判断することもできる。
熟語項目(idiom item)は、掲出字が複字形式で熟語であるものである。 注文中に熟語としての説明がある場合は熟語項目として問題ないが、 熟語としての説明がなく、掲出字のそれぞれに音注・義注を施す場合でも熟語項目とみなす。
観智院本約32,600項目のうち、異体項目は約14,000項目であり、 その異体項目のうち単字形式が約9,500項目、複字形式が4,5000項目である。
異体項目でない項目は約18,600項目である。そのうち単字形式が約15,000項目、 複字形式が3,500項目である。この複字形式が 熟語項目となる。
基本項目と拡張項目
掲出項目は、注文の形式から、 掲出字に対する「形」「音」「義」のすべてが記入されている基本項目(main item)と、 それ以外の拡張項目(extended item)とに分ける。
「形」は掲出字自身と字体注、「音」は音注、「義」は義注と和訓によって表される。
基本項目はその掲出字が単字形式であるか複字形式であるかを問わない。拡張項目は基本項目に連続するものとする。拡張項目は掲出字に対する「形」「音」「義」の一部が記入されるものとするが、注文がない項目や注文に「未詳」が記入された項目も拡張項目に含める。
観智院本には約32,600の項目があるが、そのうち基本項目は 約15,100、拡張項目は約17,00である。
独立項目と連続項目
掲出項目は、基本項目が拡張項目を持つかどうかによって、 拡張項目を持たない基本項目のみの独立項目(independent item)と、 基本項目と拡張項目の双方を持つ連続項目(serial item)とに分けられる。 連続項目の中の基本項目を親項目(chief item)、 拡張項目を子項目(sub item)と呼ぶことがある。
独立項目と連続項目の数はまだ算出できていない。
書体・字体・字形
「書体」「字体」「字形」の用語は 石塚晴通『図書寮本 日本書紀 研究篇』(汲古書院、1984)の定義に従う。
- 書体 — 漢字の形に於て存在する社会共通の様式。多くは其の漢字資料の目的により決まる。楷書・草書等
- 字体 — 書体内に於て存在する一々の漢字の社会共通の基準
- 字形 — 字体内に於て認識する一々の漢字の書写された形そのもの
「書体」「字体」「字形」を階層的に捉える点がこの定義の特徴である。
異体字
異体字(variant glyph)は「字体」レベルにおいて、「正字」に対応する概念である。 石塚晴通「漢字字体の日本的標準」(『国語と国文学』76(5)、1999) などに示される漢字字体史研究のモデルでは、漢字字体の標準は 時代・地域により変遷するという考えをとっており、 **漢字字体規範データベース(HNG)**はそのモデルの実証を意図するものである。 HNGは漢字字体規範史データセットで利用できる。
異体字は「正字」でない字体を指すのが一般の理解であるが、石塚のモデルでは、時代・地域により、漢字字体の標準、すなわち「正字」が相違するのであるから、あらかじめ「正字」と「異体字」とを区別することができない。ここでは、異体字を漢字字体のバリエーションとして捉え、「正」「俗」「通」「或」等の字体注記(字級)が施されていれば異体字を示していると判断する。
「正」「俗」等の字体注記を字級(glyph class)と呼ぶのは、 李景遠『隋唐字様學研究』(國立臺灣師範大學國文研究所博士論文、1997)による。
形近字
形近字(similar glyph character)とは、字形が近似しているが別字であるものである。類形別字あるいは類形異字と呼ばれる。観智院本『類聚名義抄』の研究では、 酒井憲二「類聚名義抄の字順と部首排列」(『本邦辞書史論叢』三省堂、1967) が部首内の字順について「類似字形排列」を見出しているが、 これは、異体字および形近字が連続して掲出されると言い換えることができる。
項目の例
左から順に翻刻を示すと次のようになる。所在情報は簡略化して示す。
No KR_ID KR_vol_radical KR_vol_name KR_radical Entry Entry_original KR_def
1 K08084810 v8#8 僧上 力 功 〇 音工(L-R)「コウ(_N)」「クウ(_N)」 續也 事也 成也 タシカニ(LHLH) 切歟
2 K08081810 v8#83 僧上 力 助 ⿰目力 鉏據反 タスク(LL_) マサル(HH_) ハサム 和自ヨ(_L)
3 K08081821 v8#83 僧上 力 𦔳/助 ■/〇 今正
4 K08084411 v8#83 僧上 力 加/復 〇/〇 シカノミナラス
5 K08084421 Tc090421 v8#83 僧上 力 ー(加)/之 〇/〇 同
1の「功」は単字形式の例である。 この例は、音注に複数の声点、仮名字音、鼻音記号が見えており、複雑な内容を持つ。 声点の圏点と星点の区別、声点と仮名字音の朱墨の別は省略する。 漢字意味注の「續也」は「績也」の誤写。 和訓「タシカニ」は「功」字の字義に対応せず不審。 この和訓のすぐあとに「切歟」とあり、 「切」字に「タシカニ」の和訓がある。 「功」には異体字「㓛」があり、これは「切」およびその異体字「⿰十刀」に近似した字形である。 「切」は掲出字「功」の形近字であり、その混同による和訓であっても注文内容を改変することなく「切歟」という注記を加えたものである。「切歟」は「案語」として扱う。
2の「助」は単字形式で音注と和訓を示し、 次の3の「𦔳/助」は複字形式であり、字体注によって異体字を示す。 「/」は複字形式を示す区切りの符号であり、その「/」の数から 、掲出字の字数を計算できる。
4の「加/復」は熟語の和訓を示しており、5の「ー(加)/之」は同訓であることを示す。「ー」は 前項の「加」を簡略に標示する符号である。
項目データファイルのヘッダ(カラム名)の記述内容
観智院本類聚名義抄(KRM)の項目は掲出字と注文とからなる。 KRM項目のデータはKRM.tsvに格納される。 ヘッダ(カラム名)の記述内容は次のとおりである。 新旧の名称を対照して示す。
No | 新名称 | 旧名称 | 内容・書式 |
---|---|---|---|
1 | entry_id | KRID_n | 掲出項目の通し番号。Fに5桁の数字を付す。一部、追加項目にはb番号を追加する。 |
2 | hanzi_id | KRID_sn | 掲出字の通し番号。Sに5桁の数字を付す。S00227、S09507、S10953は重複2回につきKRID_nにb番号を付す、S28358は重複3回につきKRID_nにbc番号を付す。 |
3 | kazama_entry_location | KR2ID | 風間書房版の項目ID。K・巻数(2桁)・ページ数(3桁)・行数(1桁)・段数(1桁)を示す。一段に複数項目ある場合は字順(1桁)を項目IDとして追加する。 |
4 | kazama_hanzi_location | KRID | 掲出字ID。K・巻数(2桁)・風間書房版ページ数(3桁)・行数(1桁)・段数(1桁)・字順(1桁)を示す。掲出字が単字形式のものは最後の字順を0とする。複字形式のものは1, 2 ,…nとする。一段に複数項目ある場合は単字形式でも1, 2 ,…nとする。 |
5 | tenri_location | KR_Tenri_p | 八木書店版の掲出字ID。T・巻数(a/b/c)・ページ数(3桁数)・行数(1桁)・段数(1桁)・字順(1桁)を示す。最後の字順の示し方は掲出字IDの場合に同じとする。八木書店刊行の天理図書館善本叢書(新・旧)による。 |
6 | volume_name | KR_vol_name | 巻。「仏上」「仏中」「仏下本」「仏下末」「法上」「法中」「法下」「僧上」「僧中」「僧下」の10 巻を示す |
7 | radical_name | KR_radical | 部首名。「人、彳、辵」から「風、酉、雑」までの120部を示す。 |
8 | volume_radica_index | KR_vol_radical | 巻。v・巻数(1-10)#・部首番号(1-120)を示す。v1#1(第1帖第1)〜v10#120(第10帖第120)。第1帖(仏上)〜第10帖(僧下)。 |
9 | hanzi_entry | Entry | 掲出字。「康煕字典体」(Kangxi Zidian glyph)に包摂(subsumption)するのを原則として入力した掲出字。複字形式の場合は/(全角スラッシュ)で区切り、省略符号「|」がある場合、ー(長音符)を用いて、その後の()(全角括弧)内に該当字を入力する。掲出字補注の内容は注文(KR_def)に入力する。 |
10 | original_entry | Entry_original | 原字形に近い掲出字。「原字形に近い掲出字」(original character form, 原本字形相近字頭字形)を示す必要があると池田が判断したものを入力し、必要がない掲出字は「〇」で入力する。 |
11 | definition | Def | 注文。 字体注、音注、義注、和訓など。スペースで区切る。注文の本文を入力する。原則として「康熙字典体」に包摂した字形を入力する。defはdefinitionの意。 |
12 | remarks | Remarks | 備考。注文(Def)に入力できない情報を注記する。 |
TSVファイルの例
次はTSVファイルの例である。新旧のヘッダ(カラム名)をあわせて示す。
(新)entry_id hanzi_id kazama_entry_location kazama_hanzi_location tenri_location volume_name radical_name volume_radical_index hanzi_entry original_entry definition remarks
(旧)KRID_n KRID_sn KR2ID KRID KR_Tenri_p KR_vol_name KR_radical KR_vol_radical Entry Entry_original Def Remarks
F00001 S00001 K0100131 K01001310 Ta023310 仏上 人 v1#1 人 〇 音仁(LV)「ニン」 ヒト(HL) ワレ(LL) サネ マホル ユク
F00002 S00002 K0100133 K01001331 Ta023331 仏上 人 v1#1 一/人 〇/〇 ヒトリ(LH_)
F00003 S00004 K0100134 K01001341 Ta023341 仏上 人 v1#1 二/人 〇/〇 フタリ(HHL) 高山寺本になし。岡田研究183頁。
F00004 S00006 K0100141 K01001411 Ta023411 仏上 人 v1#1 五/ー(人) 〇/〇 イトリ(LHL)
F00005 S00008 K0100142 K01001421 Ta023421 仏上 人 v1#1 ー(人)/等 〇/〇 ヒトヽモ(HHHVH)
F00006 S00010 K0100143 K01001431 Ta023431 仏上 人 v1#1 湯/ー(人) 〇/〇 ユヱ(L_)
F00007 S00012 K0100144 K01001441 Ta023441 仏上 人 v1#1 真/人 〇/〇 マフト(HHL)
F00008 S00014 K0100151 K01001511 Ta023511 仏上 人 v1#1 漁/ー(人) 〇/〇 アマ(LL)
F00009 S00016 K0100152 K01001521 Ta023521 仏上 人 v1#1 海/ー(人) 〇/〇 同上 高山寺本は次項に「人魚 イヲノナ」あり。高山寺本が観智院本より以前である説の反例(岡田研究182頁)。池田按:蓮成院本は「分註式」で「人魚」あり。
F00010 S00018 K0100153 K01001531 Ta023531 仏上 人 v1#1 盗/ー(人) 〇/〇 ヌスヒト
F00011 S00020 K0100154 K01001541 Ta023541 仏上 人 v1#1 不/良/人 〇/〇/〇 同上
F00012 S00023 K0100161 K01001611 Ta023611 仏上 人 v1#1 毛/ー(人) 〇/〇 ヱヒス
F00013 S00025 K0100162 K01001621 Ta023621 仏上 人 v1#1 白/ー(人) 〇/〇 シレモノ
F00014 S00027 K0100163 K01001631 Ta023631 仏上 人 v1#1 桃/ー(人) 〇/〇 モヽノサニ(___LL)
F00015 S00029 K0100164 K01001641 Ta023641 仏上 人 v1#1 ー(人)/參 〇/参 カノニケクサ(LLLLVHVL)
F00016 S00031 K0100171 K01001710 Ta023710 仏上 人 v1#1 佛 〇 音費(R)「ヒ」 ホノカナリ 又符「フ」弗(S)「フツ」反 ホトケ ヲホキニス-ナリ(LLHLH-__) タチマチ 又音弼(S)「ヒチ」 タスク(LLH) 和音部ツ 高山寺本「佛」が本文冒頭にり、これを穏当で自然な順序としたのが観智院本と解釈。岡田研究187頁。
F00017 S00032 K0100174 K01001740 Ta023740 仏上 人 v1#1 仏 〇 俗佛字 又見別字
F00018 S00033 K0100181 K01001811 Ta023811 仏上 人 v1#1 仿/佛 〇/〇 ホノカナリ 上芳往反 *ホノカナリ ヲホツカナシ ナラフ カタヒク イカル 下音費 高山寺本の記載法、「佛」の熟字訓の後に「仿ー」とあり「乱暴な遣り方」。岡田研究186頁。
F00019 S00035 K0100184 K01001840 Ta023840 仏上 人 v1#1 㑂 〇 或作髣正
F00020 S00036 K0100211 K01002111 Ta024111 仏上 人 v1#1 仿/像 〇/〇 ホノカナリ 下在下
F00021 S00038 K0100212 K01002120 Ta024120 仏上 人 v1#1 㐻 〇 内(R)「タイ」納二音
F00022 S00039 K0100213 K01002130 Ta024130 仏上 人 v1#1 僧 〇 蘇曽(F)反 カハラク(HHHLV) ネムコロ サトル 和音ソウ(LL-N)
F00023 S00040 K0100221 K01002210 Ta024210 仏上 人 v1#1 傮 〇 遭(L)「サウ」曹(L)「サウ」二音 終也
F00024 S00041 K0100222 K01002220 Ta024220 仏上 人 v1#1 ⿰亻胃 〇 音謂(R)「ヰ」 胃也 サソフ
Excelファイルの例
次は上記のTSVファイルをExcelに読み込んだものである。(旧版の画像)