DHSJRとの連携 (Collaboration with DHSJR)

DHSJRとは

DHSJRとは「資料横断的な漢字音・漢語音データベース」の英語名"Database of Historical Sino-Japanese Readings” に基づく略称である。DHSJRのプロジェクトは、早稲田大学の加藤大鶴氏がリーダーとなって推進しており、 https://dhsjr.w.waseda.jp/ で構築した全データが公開されている。

以下、DHSJRの用例は、2024年5月29日公開のバージョンによる。

このデータベースの目的は、次のように記されている。

本データベース（略称：DHSJR）は、平安・鎌倉期～現代までの文献資料に現われる漢字音・漢語音を、字音注記（仮名注、声点、反切、類音注、節博士等）に即して検索可能とするものです。

DHSJR構築の背景としては、これまで、個別具体的資料に基づく高度な漢字音史研究の成果があったが、多様な研究成果を横断的に見直して俯瞰的な視点から整理して新たな研究領域を見出そうとするプロジェクトである。

日本漢字音史の資料の多様性は、次の三点にあり、この観点を踏まえたDBの設計を行ったとされる。

漢文直読・訓読資料、和化漢文資料、和文資料など文献資料の位相差による漢字音・漢語音の位相的多様性

単漢字単位と漢字連接単位という異なる単位における字音の単位的多様性

中国語原音およびそれを受容した日本語社会における平安・鎌倉期から近世期〜現代までの字音・漢語音韻史の通史的多様性

2024年5月29日現在、56文献、約27万2千300字（延字数）を格納しているとのことである。

中国音韻史研究においては、切韻系韻書に基づく中国中古音の再構がなされており、論者により用語や再構の音価に相違があるとは言え、広韻と韻鏡という共通の基準があり、その枠組はほぼ確立していると言える。

鈴木慎吾氏の篇韻データベース

日本国内では、鈴木慎吾氏の篇韻データベース（PYDB）がよく知られているが、これには、上古音、切韻・廣韻・中古音、玉篇のデータベースが公開されている。切韻・廣韻・中古音には次の三つが収録されており、内容の正確性、検索閲覧の利便性に優れている。

これに対して日本漢字音史においては、研究者により整理方法がまちまちであり、なかなか手を付けるのが難しい分野である。こうした状況を打開するプロジェクトとしてDHSJRは画期的である。

湯沢質幸氏の大字音表

20年ほど前に湯沢質幸氏を代表者とする科学研究費基盤研究(B) 「日本漢字音データベース(大字音表)作成のための基礎的研究」があって、「日本漢字音研究者の研究上の便宜を図るためのソフトの開発」がなされたというが、現在、そのソフトを利用する情報は容易に見つからない。また、「将来における日本漢字音データベース(大字音表)の完成を目指して国内外の漢字音資料の調査を行い」と見えるので、日本漢字音データベース(大字音表)が構築されたことが分かる。しかし、現在、日本漢字音データベース(大字音表)のデータは、公開されていないようである。

湯沢質幸氏らによる大字音表のプロジェクトは、2001年度から2004年度まで行われているが、この時期のコンピュータの環境を振り返ってみると、UnicodeのCJK統合漢字がやっと使えるようになった時期である。技術的な制約のある時期のプロジェクトとして画期的であったが、現在のコンピュータの環境にあった漢字音のデータが求められる。

田島毓堂氏の類聚名義抄の注釈的研究

ところで、名義抄のデータベース化は、田島毓堂氏を代表とする科学研究費総合研究(A) 「類聚名義抄の注釈的研究ー電算機利用によるー」があった。研究期間は、1988年度から1989年度まである。このプロジェクトは、JIS漢字約6,000字しか利用できない環境でなされたものであり、極めて先駆的な研究であった。このデータベースは、蓮成院本類聚名義抄を底本として、データベース化と読解作業を行ったものであるが、構築したデータベースは公開されなかったようである。

DHSJR収録の辞書音義

DHSJRの文献資料一覧を見ると、2024年5月29日公開のバージョンには辞書音義としては、次の5点が収録されている。レコード件数も示す。

20-043-01「金光明最勝王経音義」大東急記念文庫蔵: 77件
20-044-01「法華経音」九条家蔵: 631件
30-017-01「色葉字類抄」前田育徳会尊経閣文庫蔵: 7,119件
40-045-01「法華経音訓」東洋文庫蔵、心空版: 2,033件
50-029-01「浄土三部経音義」龍谷大学図書館蔵: 16件

2025年3月25日の最新バージョンには書音義として次が追加・収録された。

20-045-01「保延本法華経単字」　1,220レコード

名義抄は未収録となっている。名義抄は日本漢字音史研究の重要資料であり、これを追加することが期待される。

名義抄の全文テキストデータは、KRM.tsvとして公開しており、注文に分解したデータもKRM_definitions.tsvとして公開している。 KRM_definitions.tsvから音注を抜き出して、DHSJRのフォーマットに揃える必要がある。

以下、KRM_definitions.tsvをKRMと表記して説明することがある。

DHSJRのデータ列の構成

データ列の構成は次のようになっており、 23の項目（列）を設定している。

KRMと対応をとることができそうな項目、問題なさそうな項目は太字としておく。

ID：単字ごとのユニークID（統合データのみ）
資料番号：資料ID
資料名
資料内漢字番号：漢字の資料内出現順の通し番号
資料内漢語番号：漢語の資料内出現順の通し番号
単字_見出し：音注が付された漢字の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。（「見出し」列の正規化に関する注意事項）
単字_出現形：音注が付された漢字。原則的に入力者の表記方針による。助詞、音合符などが表記される場合もある。
漢語_見出し：音注が付された漢字を含む漢語の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。（「見出し」列の正規化に関する注意事項）
漢語_出現形：音注が付された漢字を含む漢語。単字_出現形に同じ。
漢語_alphabet：欧文による漢語の表記がある場合に入力されている
語種：混種語がある場合に、語種を示す。ただし入力者によって対応はまちまちである。
漢語内位置：漢語内での単字の位置。例えば1文字目ならば”1”。
単字長：単字の拍数（この項目はほとんど入力できていない。今後の検討課題である）
声点：単字に対する四声（平上去入）、六声（平平軽上去入軽入）及び清濁
声点型：漢語に対する声点の組合せ。声点がない単字については＊で表す。
仮名注：仮名表記による字音注（仮名反切を含む）
仮名型：漢語に対する仮名注の組合せ。仮名注がない単字については＊で表す。
反切：単字に対する反切注
類音：単字に対する類音注
節博士：声明等音楽資料に付される博士譜など
その他：その他の音注
出現位置：資料内の単字・漢語の所在
備考：注記すべき事柄

次にDHSJR収録の色葉字類抄の例を示す。資料番号（30-017-01）と資料名（色葉字類抄_尊経閣文庫_三巻本）は字数が多く、表が見づらくなるので、省略する。

ID	資料内漢字番号	資料内漢語番号	単字_見出し	単字_出現形	漢語_見出し	漢語_出現形	漢語内位置	声点	声点型	仮名注	仮名型	その他	出現位置
30-017-01-000001	1	1	且	且	且千	且千	1			シヤ	シヤ＊		1/001b/3
30-017-01-000002	2	2	雷	雷	雷	雷	1	平	平	ライ	ライ	イカツチ又作\PMO{042518}	1/002a/3
30-017-01-000003	3	3	雷	雷	雷公	雷公	1	平	平平	ライ	ライコウ	同	1/002a/3

DHSJRとの対応策

DHSJRのデータ列の構成に示された23の項目の順に、 KRMのデータの対応方法、加工方法を検討する。

ID

IDは単字ごとのユニークID（統合データのみ）とされる。公開された統合データを見ると資料番号（資料ID）に資料内漢字番号を加えたものとなっている。

先に例示した色葉字類抄の例で言うと、 IDは30-017-01-000001であるが、30-017-01が資料番号（資料ID）、000001が資料内漢字番号に一致しており、両者をハイフン（-）で繋いでいる。

資料番号（資料ID）はDHSJR側が設定するものなので、HDICのKRMデータは資料内漢字番号を用意すればよい。

資料番号

資料ID

資料番号（資料ID）はDHSJR側が設定する。30-017-01のように三つの要素をハイフン（-）で繋いでいる。一定のルールがあるようだが、最初の30は年代・時代、次の017は資料、最後の01は写本・版本の種類を示すようである。

名義抄は、原撰本系に図書寮本があり、改編本系に観智院本、高山寺本、蓮成院本、西念寺本、宝菩提院本がある。

DHSJR代表者の加藤大鶴氏に問い合わせたところ、 048以降が空いているとのことなので、この番号を予約させていただいた。また、原撰本系と改編本系のように諸本を分類して番号を与えることはしていないとのことである。

資料名

DHSJRの色葉字類抄は「色葉字類抄_尊経閣文庫_三巻本」となっており、これにならえば、「類聚名義抄_天理図書館_観智院本」となる。

名義抄の諸本の資料IDと資料名は次のように整理される。

図書寮本 30-048-01 類聚名義抄_宮内庁書陵部_図書寮本
観智院本 30-048-02 類聚名義抄_天理図書館_観智院本
高山寺本 30-048-03 三宝類字集_天理図書館_高山寺本
蓮成院本 30-048-04 三宝類聚名義抄_鎮国守国神社_蓮成院本
西念寺本 30-048-05 類聚名義抄_天理図書館_西念寺本
宝菩提院本 30-048-06 類聚名義抄_東寺宝菩提院_宝菩提院本

図書寮本の全文テキストデータの入力も終わっており、公開の可能性があるので、図書寮本の資料IDを 30-048-01とし、観智院本を30-048-02としておく。

DHSJRの意向は未確認であるが、必要あれば修正したい。

資料内漢字番号

漢字の資料内出現順の通し番号

KRMでは機械的に処理することが可能である。

資料内漢語番号

漢語の資料内出現順の通し番号

KRMでは機械的に処理することが可能である。

単字_見出し

音注が付された漢字の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。（「見出し」列の正規化に関する注意事項）

名義抄が単字の見出しの場合、約24,000の音注付き見出しのうち、約18,000はそのまま転記すればよい。残る約6,000字は、異体字か、熟語であり、個別の対応が必要となる。

異体字が併記されるのは約3,700である。たとえば、「靜／静」、「卝／丱」のような場合は、康熙字典体があればそれを採用すればよい。

「靜／静」は「靜」を採用する。

「卝／丱」は注に「今正」とあるので、「正」に対応する「丱」を採用すればよさそうであるが、「卝」は広韻「呼䁝切」（上声梗韻）、「丱」は「古患切」（去声諫韻）と別字である。名義抄の音注は「古患」「音慣(R)」とあって「丱」に対応する。名義抄は「卝／丱」の次の項目「卝」に「礦字」とあり、「呼䁝切」（上声梗韻）に対応している。「卝」は「丱」に通用して用いられることがあるので、「今正」のような字体注が施されたと考えられる。

異体字併記の約3,700は個別に判断して行くことが必要になるが、ある程度は機械的な処理ができそうである。

「⿰黄王／黈」のように、IDSで表現した漢字と、Unicodeで符号位置が割り当てられている場合は、 Unicodeの漢字を採用すればよい。

「⿺更与／⿺更與」のように、IDSで表現した漢字だけの場合は、どちらかを採用することになる。この手のものは、諸字書に見えない僻字であり、龍龕手鏡のような字書との比較には役立つが、日本漢字音史研究にはほとんど役に立たない。どちらをとっても大過ないものと考えられる。

現在のDHSJRには、異なり字数6,487字、延べ字数164,913字が収録されている。

単字_出現形

音注が付された漢字。原則的に入力者の表記方針による。助詞、音合符などが表記される場合もある。

これはほとんどの場合、「単字_見出し」をそのまま転記するのでよいと思われる。

しかし、異体字の扱いが問題となる場合がある。

これは、名義抄で異体字を併記する項目（異体字項目）の場合と二字以上の漢語からなる項目（熟語項目）に異体字が用いられる場合が問題となる。

たとえば、「磺／礦」に反切「古猛反」と仮名注「和火ウ」が見える。「磺」と「礦」とは異体字の関係であるが、名義抄に字体注記はなく、いずれが「正」であるか判断できない。広韻を見ると「礦」を収録しているが、「磺」を収録していない。そこで「単字_見出し」を「礦」とすることができる。 DHSJRは漢字音研究のためのデータなので、広韻にあれば、その見出しを採用するのが適切である。

そこまではよいが、「単字_出現形」はどうするか。

これは、「単字_見出し」と同じ内容を記載するやり方と、異体字併記の内容をそのまま記載するやり方とが考えられる。

「単字_見出し」が決定しているのであれば、単字_出現形をこれと同じ内容にするのは簡単である。

「出現形」の部分に拘るなら、異体字併記としておくのがよいが、そうすると次の「漢語_見出し」の扱いが面倒になる。形式から異体字併記なのか、熟語なのか、両者の区別がつかない。 DHSJRは漢語の研究に資することを必要なので、異体字に関する情報は割愛して、異体字併記の項目は、代表とする字のみを記載するのがよさそうである。異体字に関する情報は、必要に応じて「備考」に記載することにする。

さらに、「単字_出現形」に誤写あるいは異体字の通用が疑われる場合がある。これは元の字形を「単字_出現形」に、校訂した字形を「単字_見出し」とすることで対応する。たとえば、「⿰火句」は音注「許于反」とあるが、広韻にない。これは龍龕手鏡(巻2火部平声)に「㶷：俗許于反」とあることから、名義抄の「⿰火句」は「㶷」の同字または誤写が疑われるものである。

異体字が別項目に記載され、「正」の字形には音注がないが、「正」のない字形に音注が加えられる場合がある。たとえば「⿱⿰号乕土」に「音浩」とあるが、次の項目「㙱」に「正」の注記がある場合である。これは「単字_見出し」を「㙱」、「単字_出現形」を「⿱⿰号乕土」とする。

次は熟語項目の場合である。

たとえば、「侏／𪝥」の見出しの「𪝥」は康熙字典体「儒」であるので、「単字_見出し」を「儒」、単字_出現形を「𪝥」としてもよい。後述の「漢語_見出し」は「侏儒」、漢語_出現形は「侏𪝥」となる。

日本漢字音史研究の資料としては、恐らくどちらでもよいであろうが、入力方針としては、「単字_見出し」は康熙字典体かそれに近いもの、単字_出現形は原文の字形がUnicodeにあればそれを採用することとし、 Unicodeにないものは、IDSにより表現することにしよう。

漢語_見出し

音注が付された漢字を含む漢語の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。（「見出し」列の正規化に関する注意事項）

「単字_見出し」と同じ入力方針とする。

漢語_出現形

音注が付された漢字を含む漢語。単字_出現形に同じ。

「単字_出現形」と同じ入力方針とする。

漢語_alphabet

欧文による漢語の表記がある場合に入力されている

DHSJRでは、和英語林集成第三版のローマ字が入力されている。

語種

混種語がある場合に、語種を示す。ただし入力者によって対応はまちまちである。

DHSJRでは西方指南抄_専修寺が3例、和英語林集成第三版が255例見えた。説明のとおり、すべて混種語である。

漢語内位置

漢語内での単字の位置。例えば1文字目ならば”1”。

「単字_出現形」で例に挙げた「侏／𪝥」の音注の情報は、KRMで次のように記述されている。

KRID_no	KR2ID	Entry	Def	Def_code	Def_name	Word_form	JK_URL	Remarks
F00661_01	K0102842	侏／𪝥	音朱(L)𣽈	215	音注声点有_類音注等

Defの欄に記載した音注には「音朱(L)𣽈」とあり、これは「侏」の類音注が「朱」、「𪝥」の類音注が「𣽈」であって、「朱」には平声(L)の声点が加えられている。これをDHSJRの形式で書き換えてみると次のようになる。「単字_見出し」から「類音」までの範囲で示す。「漢語_alphabet」は略す。

単字_見出し	単字_出現形	漢語_見出し	漢語_出現形	語種	漢語内位置	単字長	声点	声点型	仮名注	仮名型	反切	類音
侏	侏	侏儒	侏𪝥		1		平	平＊				音朱(L)𣽈
儒	𪝥	侏儒	侏𪝥		2			平＊				音朱(L)𣽈

KRM_definitions.tsvは1行であるが、二字漢語（熟語）の上字と下字に音注が施されている場合、 DHSJR形式では2行とする必要がある。

さらに、「漢語内位置」について、「侏」は1、「儒」は2をそれぞれ新たに追記する必要がある。

「声点」と「声点型」は原文「音朱(L)𣽈」の内容から、上記のようになると思われる。声点が施されていない場合、全角の＊を用いるようなので、それに合わせてみた。

「類音」について、原文「音朱(L)𣽈」とあるものを「音朱(L)」と「𣽈」とに分けて記載する方式と、「音朱(L)𣽈」を漢語に対する音注と見てそのまま記載する方式がある。 DHSJRに収録の色葉字類抄で類似の例を探してみると次のようになっている。「漢語_alphabet」は略す。

単字_見出し	単字_出現形	漢語_見出し	漢語_出現形	語種	漢語内位置	単字長	声点	声点型	仮名注	仮名型	反切	類音	節博士	その他
黏	黏	黏臍	黏臍		1		平濁	平濁去	テム	テムセイ		添齊二音		添齊二音
臍	臍	黏臍	黏臍		2		去	平濁去	セイ	テムセイ		添齊二音		添齊二音

これは二字漢語「黏臍」の例であるが、「類音」の欄は「添齊二音」を記載している。同じ内容を「その他」の欄にも記載しているのは、類音注の形式が通常と異なると判断したためであろうか。

単字長

単字の拍数（この項目はほとんど入力できていない。今後の検討課題である）

「ほとんど入力できていない」とのことであるが、DHSJR収録の18文献に記載が認められる。

資料番号	資料名	例数
20-001-01	大般若波羅蜜多経_根津美術館	13899
30-010-01	阿弥陀経_西本願寺	2906
30-012-01	群書治要_金沢文庫_経部	3802
30-015-01	浄土三経往生文類_西本願寺	535
30-019-01	一念多念文意_東本願寺	1764
30-020-01	尊号眞像銘文_法雲寺_略本	2471
30-020-02	尊号眞像銘文_専修寺_広本	4644
30-021-01	西方指南抄_専修寺	20090
30-022-01	唯信鈔文意_専修寺_正月十一日本	1836
30-022-02	唯信鈔文意_専修寺_正月二十七日本	1963
30-023-01	唯信鈔_専修寺_平仮名本	46
30-023-02	唯信抄_西本願寺	1571
30-023-03	唯信鈔_專修寺	1881
30-039-03	魚山六巻帖九方便	359
30-040-01	専修大学図書館本和漢朗詠集	4089
30-040-02	岩瀬文庫蔵延慶二年識語本和漢朗詠集	738
40-045-01	東洋文庫本法華経音訓	2206
70-042-01	和英語林集成第三版	26669

KRMに「単字長」に関する情報はないので、当面、空欄としておく。

声点

単字に対する四声（平上去入）、六声（平平軽上去入軽入）及び清濁

KRMでは、ローマ字により次のように示している。2025年3月に仕様変更したものを示す。

内容	記号
平	L
平軽	F
上	H
去	R
入	T
入軽	S
濁	V
声点無(＊)	_
鼻音符号(✓)	N

これをDHSJRの形式に変換する必要がある。「平」から「濁」までは上の表に記載した「内容」に一括変換する。

声点がないことを示す半角アンダーバー（_）は、＊に置き換える。

鼻音符号の✓は、当面Nのままとする。

声点には朱墨の区別があるが、これらを区別して記載しない。

DHSJRでは、用例を見ると、？を用いている箇所があるが、これは声点の位置の判断が難しいことを示したものと考えられる。これは、HDIRのKRMでも同様である。

声点型

漢語に対する声点の組合せ。声点がない単字については＊で表す。

KRMでは声点がない単字はを@で示しているので、これを＊に変換する。（アットマーク“@”は、2025年3月に仕様変更してアンダーバー“_”を用いることした。）

仮名注

仮名表記による字音注（仮名反切を含む）

これは、KRMでいうところの仮名注に該当する。漢字を用いて拗音を示す「正　和者ウ」「曠　和火ウ」、濁音を示す「堂　俗云堕ウ」のような例も仮名注とする。

DHSJRにいう「仮名反切」がどのようなものが該当するか、例を探せなかったが、KRMの処理で問題になることはなさそうである。

仮名型

漢語に対する仮名注の組合せ。仮名注がない単字については＊で表す。

＊を用いて仮名注がないことを示す点は、変換が必要である。

反切

単字に対する反切注

「◯◯反」「◯◯△△二反」のような反切形式は問題がない。反切上字や反切下字に仮名注が見えることがある。たとえば「併」に「蒲鼎(H)「テイ」反」と記載されている。この「テイ」は反切下字「鼎」に対する音注である。「鼎」には平声の声点も施されている。「鼎」に平声点があり、仮名注「テイ」があることを別の項目とする必要がある。

しかしこれは別の作業となるので、反切字に対する音注を整理することは後回しとしたい。

「蒲鼎(H)「テイ」反」の例で言えば、DHSJRの「反切」欄に「蒲鼎反」を記載するのは問題ない。では、「声点」はどうすればよいか。「＊上」としておくのがよいであろうか。DHSJRの方針を確認したいところである。

類音

単字に対する類音注

「音◯」「◯音」の形式が大半である、問題は少ない。

二字漢語（熟語）に「二音」をつけて「◯△二音」「二音〇△」の形式となることがある。たとえば、「鷦鷯」に「焦(L)「セウ」遼(L)「レウ」二音」とあって、「鷦」の類音注「焦」と「鷯」の類音注「遼」を同時に示している。こうした例の場合、「漢語_見出し」と「漢語_出現形」は「鷦鷯」となるので、類音注は焦遼二音」とするのがよいであろう。ただし、仮名注と声点を省くのはひと手間かかるので、当面は「焦(L)「セウ」遼(L)「レウ」二音」のままに記載しておく。

「音鴛之上声」「魂之去声」のように声調も示すものは、「その他」としておく。

節博士

声明等音楽資料に付される博士譜など

これは該当する例がない。

その他

その他の音注

声調を記す用語「又平」「去声」などが該当する。

「音鴛之上声」「魂之去声」のように声調も示すものも「その他」とする。

出現位置

資料内の単字・漢語の所在

KRMでは、風間書房版により帖数、頁数、行数、段数、字数を示している。たとえば、K0804311は風間書房版影印本の僧上（8）、43頁、1行、1字目を示す。

帖数は仏上を01、仏中を02、仏下本を03、仏下末を04 法上を05、法中を06、法下を07、僧上を08、僧中を09、僧下を10とする。

頁数は3桁で示し、1頁なら001、55頁なら、120頁なら120とする。

行数は8行まで、段数は4段までである。字数も10字を超えることはない。それぞれ1桁を割り当てる。

備考

注記すべき事柄

音注の出典考証は、広韻等を参照して進捗している。どの程度まで記載するかは検討の余地がある。

観智院本名義抄の音注の種類

音を示す漢字

名義抄では、掲出字の音を示すのに反切、類音注、仮名注、声点が用いられる。音を示すのは、掲出字にとどまらず、注文の中に出現する漢字に対して音を示すこともある。より具体的にいえば、掲出字の音を示す反切や類音注に用いられている漢字に声点や仮名注を施すものである。

たとえば、掲出字「留」に対して「音流」という類音注があり、「流」には平声と去声の声点と、仮名注「リウ」が施されている。

「留」は音注が与えられている漢字、「留」は音注に用いられる漢字であるが、同時に「留」は音注が与えられている漢字ともなっている。

音注が与えられている漢字を指すには被注字という用語を用いることができる。 被注字は、音注にとどまらず、義注や和訓など何等かの 注釈の対象となる文字を指す。

音注が反切の形式であれば、音注に用いられる漢字を指す用語として 反切上字、反切下字を用いることができる。反切下字を指す叶字という用語もある。

音注が類音注の形式の場合、音注に用いられる漢字を指すには「音注に用いられた字」あるいは「音を示す字」と呼ぶことになる。 音を示す字は長い呼称なので、以下の記述では、これを音注字と呼ぶことにする。

掲出字、被注字、音注字の三者の関係は次のように整理される。用語の英訳をあわせて示す。

辞書エントリー全体の見出し語（掲出字）: Headword (これは Target Character の一種でもある)
ある注釈が対象としている文字（被注字全般）: Target Character (または Annotated Character)
音注の中で音を示すために使われている文字（音注字）: Phonetic Gloss Character / Phonetic Indicator

反切の場合は、反切上字、反切下字という用語があるので、これをそのまま用いる。

音注字の問題

「音注字」の問題をさらに深堀りしてみる

音注の中で音を示すために使われている文字: 音注字 / Phonetic Gloss Character (or Indicator)
義注の中で音を示すために使われている文字: 義注中の文字（声点付き） / character in Semantic Gloss (with tone mark)
字体注の中で音を示すために使われている文字: 字体注中の文字（声点付き） / character in Note on Character Form (with tone mark)

1は「留　音流」の場合。説明は省略。

2は、掲出字「万」に注文「智出万（入濁）人」が見える。この場合は掲出字と義注に用いられる文字がどちらも「万」で同じ。例は僅少。この例は、「智、万人に出づ」と読めますので、反切とするのは難しい「万」は広韻に去声願韻の「無販切」と入声徳韻の「莫北切」があり、名義抄撰者は入声徳韻で読むことを示したか、「万」を漢音「バン」で読むことを示した去声濁点を誤ったと考えらる。この場合は、説明的に、**義注中の文字（声点付き）**とする。

3は、掲出字「擴」に注文「或彉（平）字」とあるような場合。「或彉」は字体注であり、「擴」が「或」体であり、正体は「彉」であることを示すと考える「彉」に平声の声点が施される。この場合も、説明的に、**字体注中の文字（声点付き）**とする。

音注の種類の詳細

名義抄には約24,000の音注がある。これには、反切、類音注、仮名注の3種が主なものであるが、これらに声点が施される。

反切と類音注は漢字により表記され、仮名注は片仮名により表記される。

DHSJRとの連携のための作業上のメモ

以下に記す内容は、DHSJRとの連携を図るために行った、作業上のメモである。

DHSJRとの連携がとれれば、もっと簡潔にまとめることができるはずである。試行錯誤をそのまま書いているので、非常に読みにくい。その点はご容赦願いたい。メモなので不要となった部分はまとめて削除することがある。

音注の形式は複合的であり、反切、類音注、仮名注の3種の組み合わせは次のようになる。

反切
反切 + 仮名注
類音注
類音注 + 仮名注

さらに声点が施されることがあるから、上の4種は次のように細分される。

反切
反切 + 声点
反切 + 仮名注
反切 + 声点 + 仮名注
類音注
類音注 + 声点
類音注 + 仮名注
類音注 + 声点 + 仮名注

反切は、反切上字と反切下字に声点を施すものがある。

反切上字に声点・仮名注があるかどうかのパターンは次の4種類である。

反切上字
反切上字 + 声点
反切上字 + 仮名注
反切上字 + 声点 + 仮名注

反切下字に声点・仮名注があるかどうかのパターンも同様に次の4種類である。

反切下字
反切下字 + 声点
反切下字 + 仮名注
反切下字 + 声点 + 仮名注

反切上字の4種類と反切4種類を組み合わせたパターンは16種類となる。

反切上字 + 反切下字
反切上字 + 反切下字 + 声点
反切上字 + 反切下字 + 仮名注
反切上字 + 反切下字 + 声点 + 仮名注
反切上字 + 声点 + 反切下字
反切上字 + 声点 + 反切下字 + 声点
反切上字 + 声点 + 反切下字 + 仮名注
反切上字 + 声点 + 反切下字 + 声点 + 仮名注
反切上字 + 仮名注 + 反切下字
反切上字 + 仮名注 + 反切下字 + 声点
反切上字 + 仮名注 + 反切下字 + 仮名注
反切上字 + 仮名注 + 反切下字 + 声点 + 仮名注
反切上字 + 声点 + 仮名注 + 反切下字
反切上字 + 声点 + 仮名注 + 反切下字 + 声点
反切上字 + 声点 + 仮名注 + 反切下字 + 仮名注
反切上字 + 声点 + 仮名注 + 反切下字 + 声点
反切上字 + 声点 + 仮名注 + 反切下字 + 声点 + 仮名注

この他に字体注や義注の漢字に声点を付した例がある。字体注に声点を付したのは20例、義注に声点を付したのは5例、義注の漢字に音注を付したのが10例である。

DHSJRの音注の種類は、次の五つ。

仮名注
反切
類音
節博士
その他

名義抄に節博士はないので、これは無視できる。

「平」「又去」のような声調の注記は、DHSJRでは「その他」に記載しているので、それに従う。

また、「和同」「音同上」「呉同」などは、前出の音注に同じことを示す注記であるが、これらは「その他」に記載することとする。

仮名注、音注、類音、その他の四つについて、エクセルのフィルター機能を使いながら、目視で整理した結果は次のとおりである。分類は不十分であり、正確な数値ではないが、大まかな傾向をみるために示してみる。

音注種類	例数
仮名注	2,299
反切	10,016
類音	12,398
その他	483
合計	25,159

反切や類音注に仮名が施されることがあり、これを仮名注として重複して数えているので、音注約24,000よりも多くなっている。

類音注の整理

類音注の種類はおよそ次の4種である。

類音注
類音注 + 声点
類音注 + 仮名注
類音注 + 声点 + 仮名注

音注の種類の認定に問題あるものを残すが、現時点での分類により数値を出してみると次のようになる。

類音注の種類	例数	百分率
1. 類音注	9,537	76.9%
2. 類音注 + 声点	2,212	17.8%
3. 類音注 + 仮名注	150	1.2%
4. 類音注 + 声点 + 仮名注	499	4.0%
合計	12,398	100%

DHSJRのデータ構造では、声点、声点型、仮名注、仮名型、反切、類音を設定している。

このデータ構造に記入する際にどのようなことが問題になるを検討してみよう。

類音注のみ

1の類音注は類音注のみであるので、ほとんど問題が生じない。

補足

「音注声点無_類音注等」のカテゴリーで、「戈」に「音過之平声」とあるような音注声調を注記する例、「音同」として記載を省略する例もあり、これらを除くと 1の類音注は約9,400になる。

単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
僑						喬音
伽						音迦

熟語の場合は次のようになる。

単字_見出し	漢語_見出し	漢語内位置	類音
佛	仿佛	2	音費
栴	栴檀	1	仙壇二音
檀	栴檀	2	仙壇二音

「漢語_見出し」と「漢語内位置」への記入が必要である。

類音注と声点

2の類音注＋声点も問題が少ない。

「仔」「偶」という名義抄の掲出字（見出し）に、それぞれ「音子（上）」「音藕（上濁）」という声点付きの類音注を施す例で検討してみよう。

次のようにすると、「子」に上声の声点、「藕」に上声濁の声点を施したことを明示できる。

単字_見出し	声点	声点型	類音	備考
仔	上	上	音子（上）
偶	上濁	上濁	音藕（上濁）
子	上	上	音子（上）	音注字
藕	上濁	上濁	音藕（上濁）	音注字

前半の「仔」と「偶」の二つは、この形式で必要な情報が提示できている。後半の「子」と「藕」の二つは、類音注に用いられる文字に施された声点の情報を提示している。

「単字_見出し」の欄の漢字が「類音」の欄の音注字である場合は、「備考」欄に「音注字」を記入する。

掲出字声点と掲出字仮名注

例は少ないが掲出字に声点を施し、仮名注を傍書されることがある。この場合は備考欄に「掲出字声点」「掲出字仮名注」と明記する。

熟語の場合は次のようになる。

単字_見出し	漢語_見出し	漢語内位置	声点	声点型	類音	備考
柑	柑子	1	平	平＊	音甘（平）
枇	枇杷	1	平	平平	琵（平）琶（平）二音
杷	枇杷	2	平	平平	琵（平）琶（平）二音
甘	甘		平	平	音甘（平）	音注字声点
琵	琵		平	平	琵（平）琶（平）二音	音注字声点
琶	琶		平	平	琵（平）琶（平）二音	音注字声点

類音注と仮名注

3の類音注＋仮名注の場合もそれほど難しくない。

単字の場合と熟語の場合をあわせて検討しよう。

「億」に「音憶「ヨク」」、「傀儡」に「賄礧「ライ」二音」とある例を DHSJRのフォーマットにあわせると次のようになる。

単字_見出し	漢語_見出し	漢語内位置	仮名注	仮名型	類音	備考
億			ヨク	ヨク	音憶「ヨク」
憶			ヨク	ヨク	音憶「ヨク」	音注字
傀	傀儡	1	＊	＊ライ	賄礧「ライ」二音
儡	傀儡	2	ライ	＊ライ	賄礧「ライ」二音
礧	礧		ライ	ライ	賄礧「ライ」二音	音注字

「類音」欄に声点と仮名注を含めた類音注を記載し、「備考」欄に「音注字」を記入して掲出字か音注字かの区別がつくようにしている。

類音注・仮名注・声点

最後は、4の類音注 + 声点 + 仮名注の場合である。

手始めに単字の場合を検討してみよう。

まず、掲出字が単字の例から検討する。

単字_見出し	声点	声点型	仮名注	仮名型	類音	備考
狡	上	上	カウ	カウ	音絞（上）「カウ」
絞	上	上	カウ	カウ	音絞（上）「カウ」	音注字
留	平／去	平／去	リウ	リウ	音流（平-去）「リウ」
流	平／去	平／去	リウ	リウ	音流（平-去）「リウ」	音注字

掲出字の「狡」と「留」、音注字の「留」と「流」のそれぞれの「類音」欄に同内容の音注を記載する形式である。「備考」欄に「音注字」を記入して掲出字か音注字かの区別がつくようにしている。

次に熟語の例を検討しよう。

単字_見出し	漢語_見出し	漢語内位置	声点	声点型	仮名注	仮名型	類音	備考
琅	琅玕	1	平	平平		＊カン	良（平）干（平）「カン」二音
玕	琅玕	2	平	平平	カン	＊カン	良（平）干（平）「カン」二音
良	良		平	平平			良（平）干（平）「カン」二音	音注字
干	干		平	平			良（平）干（平）「カン」二音	音注字
蜥	蜥蜴	1	入	入	セキ	セキエキ	析（入）「セキ」易（入）「エキ」二音
蜴	蜥蜴	2	入	入	エキ	セキエキ	析（入）「セキ」易（入）「エキ」二音
析	析		入	入	エキ	セキ	析（入）「セキ」易（入）「エキ」二音	音注字
易	易		入	入	エキ	エキ	析（入）「セキ」易（入）「エキ」二音	音注字

前半の四つが「琅玕」に関する音注、後半の四つが「蜥蜴」に関する音注である。「類音」欄に同内容を記載することとなるので、「良干音二音」「析易二音」と必要部分のみ記載してもよいであろう。ただ、一つのレコードだけ取り出して利用することも想定されるので、元の表記を残すこととした。「類音」欄の声点と仮名注を一括して削除するのはそれほど難しくない。

具体例の検討

以下は以前の説明である。試行錯誤しており、分かりにくい。ひとまず残しておく。

しかし、4の類音注 + 声点 + 仮名注ではいささか具合が悪くなる。ほとんどの場合、声点は類音注に対してのものであるが、稀に仮名注に対しても声点が施されることがある。

また、声点の欄と類音の欄が離れており、途中に仮名注、反切があり、声点の欄の内容が類音に対するものとは理解しにくい。

具体例を見てみよう。たとえば、F00762_01のIDを与えた「優」には「音憂（L）「イウ」」と見える。これを DHSJRのフォーマットで入力しようとするとどうなるか。次に、HDSJRの関連部分を取り出して示す。

単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
優	平	平	イウ			音憂

声点は類音の「憂」に施されているが、この形式だと、仮名注「イウ」に施されているようにも見える。「イウ」は2文字なので、「平＊」か「＊平」になるはずだから、仮名注でなく類音に対する声点であるというように理解するのは、少しむずかしいように思う。

二つのレコードを用意して明示的に対応するのが分かりやすい。

単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
優	平	平				音憂
優			イウ

しかし、この形式だと、声点は「優」に施されているのか、「憂」に施されているのか、はっきりしない。

単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
優						音憂
憂	平	平	イウ

このようにしても仮名注「イウ」に声点が施されているようにとれるので、声点の対象となる文字がなにかはっきりしない。

とすれば、次のようになる。

単字_見出し	声点	声点型	仮名注	類音
優				音憂
憂	平	平
憂			イウ

しかし、これだと「優」が平声であるという情報が抜け落ちてしまう。

単字_見出し	声点	声点型	仮名注	類音
優	平	平		音憂
憂	平	平
憂			イウ

「憂」の平声点は、「憂」が平声であることを示すと同時に「優」が平声であることを示している。声点の機能をそのように理解しておくのがよいであろう。

次にkrm_main.jsonとkrm_notes.jsonとの連携をとるにはどうすればよいか。「優」にはF00762_01のIDを与えており、krm_main.jsonとkrm_notes.jsonで名義抄の注文に対するIDに加えて、音注（仮名注、反切、類音）に対するIDを用意する必要がある。

注文ID	音注ID	単字_見出し	声点	声点型	仮名注	類音
F00762_01	F00762_01	優	平	平		音憂
F00762_01	F00762_01b	憂	平	平
F00762_01	F00762_01c	憂			イウ

この例では、三つに区分し、注文IDと同じIDを音注IDとするとともに、同じIDの末尾にbとcを追加して新たな音注IDを用意した。

音武（L-HV）「フ」「ム（H）」の場合は次のようになる。ここでは末尾にbとcを追加している。

注文ID	音注ID	単字_見出し	声点	声点型	仮名注	類音
F00841_01	F00841_01	侮	平／上濁	平／上濁		音武
F00841_01	F00841_01b	武	平／上濁	平／上濁	ム／フ
F00841_01	F00841_01c	武	上	上	ム

音注は三つの要素に区分される。

二つ以上の音注IDが必要になった場合は、順にb、c、d、…nを順に付すこととする。

以上の例は、4の類音注 + 声点 + 仮名注の例であるが、全体では499例を数える。約500例について音注IDを区分することとなる。

反切の整理

反切は、反切上字と反切下字とからなるので、類音注の場合よりも複雑になる。

まず、反切の出現パターンを概観してみよう。

反切
反切 + 声点
反切 + 仮名注
反切 + 声点 + 仮名注

反切を反切上字と反切下字の場合分けると更に種類が多くなり、 16種類となるが、煩瑣なので省略する。

大まかな傾向を見るために、先に示した4種のパターンを調査してみた。約1000例の反切の出現パターンはおよそ次のようになった。

反切: 9,027例
反切 + 声点: 923例
反切 + 仮名注: 39例
反切 + 声点 + 仮名注: 26例

例数は暫定的なものであるが、およその傾向はつかめるであろう。

1が大半の例であり、これらのデータ処理は容易である。 2、3、4は、少し複雑になる。

いくつかの例を検討してみよう。

辵　丑略反
邏　盧賀（去）反
避　裨豉「シ」反
佛　符「フ」弗（入）「フツ」反

説明の都合上、最初に上記の番号 (no)を示す。

no	単字_見出し	声点	声点型	仮名注	仮名型	反切	備考
1	辵					丑略反
2a	邏					盧賀（去）反
2b	賀	去	去			盧賀（去）反	反切下字
3a	避					裨豉「シ」反
3b	豉			シ	シ	裨豉「シ」反	反切下字
4a	佛					符「フ」弗（入）「フツ」反
4b	符			フ	フツ	符「フ」弗（入）「フツ」反	反切上字
4c	弗	入	入	フツ	フツ	符「フ」弗（入）「フツ」反	反切下字

特に問題となるのは、2aの「邏」と4aの「佛」の声点と声点型である。1から順に見てゆこう。

1の「辵」は反切「丑略反」だけなので問題ない。

2の「邏」は反切「盧賀反」に加えて反切下字が「去」の声点であることを示す必要がある。この原稿の執筆時点の最新版（2025年3月25日）に収録の保延本法華経単字を見ると、反切に施された声点は「反切」欄に記入するのみで、「声点」欄と「声点型」欄は未記入となっている。反切上字と反切下字に施された声点は別のレコードを作成して、「声点」欄と「声点型」欄に記入している。

2aとして「邏」が去声であることを「声点」と「声点型」を示し、 2bとして反切下字「賀」が「去」であることを「声点」と「声点型」を示した。

3a/bの「避」は反切「裨豉反」に加えて反切下字「豉」に仮名注「シ」があるものである。 3aは「単字_見出し」を「避」とし、3bは「単字_見出し」を「豉」とすることで対応させた。

4a/b/cの「佛」は反切、声点、仮名注が複合するものである。 2a/bの場合と同様に、「佛」の反切の声点は反切下字「弗」のみに記入した。

反切下字の声点から、「単字_見出し」の「声点」と「声点型」を記入することも可能である。これは検討の余地が多いので、保留として、「声点」と「声点型」の欄を空欄としておく。

「単字_見出し」が掲出字であり、それに声点が施されていれば問題なく「声点」と「声点型」の欄に記入できる。

DHSJRの保延本法華経単字

この原稿の執筆時点の最新版（2025年3月25日）には保延本法華経単字が収録されたが、それをみると、反切の声点は「反切」欄に記入するのみで、「声点」と「声点型」は空白となっている。たとえば次のとおり。

no	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音	備考
1	斗	去	去	ト	ト	多[去]於[去]・都[平]○
2	秤					之[去]陵[去]・處[平]陵[去]

声点は半角の[]に記入している。全角の（）を半角[]に変換するのは容易なので、当面は現在のHDICの仕様に従い、全角（）のままにしておく。

仮名注の整理

仮名注は約2,300例である。

類音注に仮名注がある場合は「類音注と仮名注」以下で取り上げた。同様に、反切に仮名注がある場合は「反切の整理」で取り上げた。

仮名注で問題となるのは、次の4点である。

複数の仮名注
仮名注に施された声点
「和」「呉」などの音訓マーカー
拗音や濁音を表す漢字

まず1の複数の仮名注がある場合であるが、これは全角のスラッシュ（／）で区切って、併記する。たとえば「壬」に「シム／ニム」とする。

次に2の仮名注に施された声点である。たとえば「暑」に「和シヨ」とし、さらに「シヨ」の「ヨ」に平声の声点を施すものである。これは、「暑」に「和シヨ（＊平）」のように仮名注の欄で全角の丸括弧（）内に声点の情報を記入する。

「声点」欄に「＊平」あるいは「平」などと記入することも検討したが、「声点」欄は漢字に対する声点に限定して処理するのが一貫性を保てるであろう。

また、名義抄では声点に加えて鼻音を表す✓の符号が用いられることがある。これらは仮名注の欄で全角の丸括弧（）内に、声点を記載する。

たとえば「零」は「平／去」の声点があり、さらに仮名注「リヤウ」の「リ」に鼻音符号の✓が施される。これは仮名注欄に「リヤウ（N＊＊）」と記入する。「リ」に施された✓は、「ウ」にあるべきを誤ったと考えられるので、その旨を備考欄に記載しておく。

3の「和」「呉」などの音訓マーカーを施す例は多い。たとえば、「名」に「和ミヤウ（＊＊上-N）」とあるのは、最初に「和」を冠して、仮名注「ミヤウ」の「ウ」に上声の声点と鼻音符号の✓を施す例である。

4の拗音や濁音を表す漢字は、たとえば、「曠」に「和火ウ（＊平）」とし「火」によって合拗音「クヮ」を示すもの、「昇」に「和所ウ」とし「所」によって開拗音「ショ」を示すものなどがある。「曇」に「和土ム（＊上）」の「土」は濁音を示すものである。これらは仮名注にそのまま記入する。

仮名注の出現パターンの詳細

以下は以前の説明である。ひとまず残しておく。

no	仮名注	声点	反切	類音	その他	例数
1	✓	✓	✓	✓	✓	0
2	✓	✓	✓	✓		0
3	✓	✓	✓		✓	0
4	✓	✓	✓			27
5	✓	✓		✓	✓	0
6	✓	✓		✓		495
7	✓	✓				892
8	✓		✓	✓	✓	0
9	✓		✓	✓		0
10	✓		✓		✓	1
11	✓		✓			11
12	✓			✓	✓	1
13	✓			✓		143
14	✓					712
15	✓	✓			✓	14
16	✓				✓	2
合計						2,298

番号を太字とした4、6、11、12、13、15は仮名注と声点・反切・類音・その他の対応が1対多になるものである。およそ691例ある。すなわち、これらは注文IDと音注IDとの対応が1対多になるのである。

1対多となるレコードはあらかじめ準備しておくのがよい。

音注の整理

音注の種類は、声点、仮名注、反切、類音、その他である。

この5種類が1対多となるレコードは扱いが面倒である。これは、類音注、反切、仮名注を順に検討してきてはっきりした。

ただ、パターンが複雑になるので、1対多となるレコードがどれくらいになるか、予備的に調査しておく必要がある。仮名注はさきほどの検討から約690という数値を出した。

いま、作業用に使っているExcelのデータでは、該当例がないことを示すのに“#N/A”を入れているので、その有無をチェックすれば仮名注、反切、類音、その他があるかどうかを判定できる。

声点は必ず全角文字の“（”と“）”とで括っているので、“（”の有無をチェックすれば声点があるかどうかを判定できる。

そこで、次のような条件を立てた。

仮名注を含む音注に声点があれば、2を返し、なければ1を返す。仮名注がなければ0を返す。
反切を含む音注に声点があれば、20を返し、なければ10を返す。反切がなければ0を返す。
類音を含む音注に声点があれば、200を返し、なければ100を返す。類音がなければ0を返す。
その他を含む音注に声点があれば、400を返し、なければ0を返す。類音がなければ0を返す。
上記1から4までの戻り値を合計し、3桁の数値に揃えるため、100を加算。

この条件をEexcelの関数を使って記入すると次のようになる。

=IF(ISNA(R2), 0, IF(AND(NOT(ISNA(R2)), NOT(ISERROR(FIND("（",R2)))), 2, 1)) + IF(ISNA(T2), 0, IF(AND(NOT(ISNA(T2)), NOT(ISERROR(FIND("（",T2)))), 20, 10)) + IF(ISNA(U2), 0, IF(AND(NOT(ISNA(U2)), NOT(ISERROR(FIND("（",U2)))), 200, 100)) + IF(ISNA(Z2), 0, IF(AND(NOT(ISNA(Z2)), NOT(ISERROR(FIND("（",Z2)))), 400, 0)) + 100

ちなみに、自分で考えるのは面倒なので、生成AI（今回はGemini 2.0）に頼みました。

もっとスマートな方法があるだろうが、ここで時間をとってもしかたないので、これで切り抜ける。

結果を整理すると、およそ次の表になった。

分類	例数	声点	仮名注	反切	類音	その他	レコード追加
200	9542				✓
110	9044			✓
300	2216	✓			✓
120	931	✓		✓
102	904	✓	✓
101	715		✓
302	495	✓	✓		✓		495
100	451					✓
201	144		✓		✓		144
122	27	✓	✓	✓			27
111	12		✓	✓			12
500	7	✓				✓	7
210	2			✓	✓		2
502	2	✓	✓			✓	2
合計	24,492	4,580	2,297	10,016	12,399	458	689

仮名注で約690という数値を出していたが、追加が必要なレコードはそれとほぼ同数となった。

これは、反切と類音注を併記する例は、二つに分離していたので、異なる音注を併記するのは、仮名注と反切、仮名注と類音、仮名注とその他となるためである。

反切と類音を併記するのは、2例であったが、これはDHSJRのフォーマットでは一つのレコードに記入できるが、念のため二つのレコードを用意することとする。

単字_見出しの扱い

異体字併記の場合

異体字を併記する項目は、採用法方法として次の二つが考えられる。

すべてを「単字_見出し」として採用する
代表の見出しをひとつだけ採用する

1は煩瑣なので、2の方針を採用する。

検討の詳細

たとえば「萍／蓱」は「上通下正　音屏(L)　ウキクサ(HH__) 」とあるが、「萍」と「蓱」とを「単字_見出し」とする1の方法である。これだとレコード数が膨大になり、漢字音史研究の資料とする目的からすると、他の日本漢字音資料に例のない漢字ばかりとなり、有用でない情報を大量に取り込むこととなる。

2は代表の見出しだけをとるもので、たとえば「萍／蓱」の字体注「上通下正」により「正」とされる「蓱」を「単字_見出し」として採用する方法である。これに、字体注がない場合は、広韻にある見出しを優先するという方法を追加する。つまり、次の二つの条件を勘案して、ひとつだけ採用することとする。

KRMで「正」注記の対象となる見出し
広韻にある見出し

以上はUnicodeに見出しの漢字がある場合のことであるが、それがない場合は、適宜、判断してIDS形式のままに記載しておく。

たとえば、「𠾧／嘼／⿳凹⿱甲一口」は注に「或今正」とあるが、「正」の字体はIDSでしか表現できないので、「今」の字体である「𠾧」か「嘼」が採用の候補である。「𠾧」は広韻になく、「嘼」は広韻にあるので、後者「嘼」を採用する。

熟語（二字以上の漢語）の場合

単字と同様に簡略な方法で対応する。

「その他」の扱い

名義抄の見出しに声点だけがあるものは、「その他」とする。 KRMでは「◎節(S)」のように記載し、「節」に入声の声点が施されていることを示す。

音注データ処理

ここでは音注のデータ処理に関する細かな問題を扱う。

音注の加工

音注の種類は、仮名注、反切、類音、その他の4種である。これに声点を加えると5種になる。

DHSJRの形式に整えるためには、HDICのデータを加工する必要がある。その詳細は省略する。

音注の加工の詳細

ここは私の覚えで残しました。ほとんど見る必要ありません。

大雑把な音注の分類

名義抄の音注は、大まかに仮名注、反切、類音、その他の4種に分類済みである。先に類音注、反切、仮名注の順に整理の方法を検討してきたが、これは大雑把に分類したデータに基づく。

名義抄の冒頭「人」には「音仁（LV）「ニン」」の音注が施されている。大雑把な分類では、仮名注と類音注に同じ内容を転記しただけである。

よって、仮名注に「ニン」、類音注に「音仁」、声点に「LV」を転記する必要がある。

DHSJRの仕様に合わせると、声点は、「LV」を変換して「平濁」としなければならない。

注文IDと音注ID

これまでは、注文IDと音注IDという用語で説明してきた。 HDICで作成しようとしているJSON形式のファイルkrm_pronunciations.jsonでは、音注IDをpronunciation_idとし、注文IDをdefinition_seq_idとしている。

JSON形式のファイルkrm_pronunciations.jsonと同内容を krm_pronunciations.tsvのファイル名でも作成する。

krm_pronunciations.jsonを生成する前の段階では、作業用のExcelファイルによって行っている。内部用であるが、ファイル名はKRM_pron20250404.xlsxのようにしている。ファイル名の前半KRM_pronは、音注に関するファイルであることを示す。ファイル名の後半20250404は、年月日であり、バージョン管理のために示す。

このKRM_pron20250404.xlsxでは、カラム名が仕様変更前の旧形式である。

音注ID（pronunciation_id）は、KRID_pron_noであり、注文ID（definition_seq_id）は、KRID_noである。

ややこしいことこの上ないが、もっぱら自分の覚えのために書いているので、ご容赦願いたい。

「人」に「音仁（LV）「ニン」」とある例でいうと、仮名注の欄と類音の欄に現状では「音仁（LV）「ニン」」と入力されている。これを仮名注の欄に「ニン」、類音の欄に「音仁」、声点の欄に「平濁」を入力したい。

一つ一つ判断しながら行うことは、大変なので、プログラムを作って、前処理して、それを確認・修正するという手順を踏むことにする。

仮名注の処理

まず仮名注を処理しよう。カラム名仮名注から、仮名の音注のみを取り出して、カラム名仮名表記に書き出す、ということを考えた。

これは生成AIを用いてPythonのコードを作成してもらった。使用する生成AIはGemini 2.0である。プロンプト（prompt、指示文、質問文）は次のとおりとした。

エクセルのファイルから、以下の操作をしたいのですが、pythonプログラムを書いていただくことはできますか。
1. excelのファイル名はKRM_pron20250404.xlsx、対象となるシート名はKRM_DHSJR_formatです。
2. KRM_DHSJR_formatのシートのカラム名“KRID_pron_no”は“F00001_01”のような内容です。
3. KRM_DHSJR_formatのシートのカラム名“仮名注”は“音仁（LV）「ニン」”のような内容です。
4. カラム名“仮名注”の内容ら全角文字の“「“と”」”の間にある片仮名の文字を取り出して、カラム名"仮名表記"に書き出す。
5. 具体例でいえば、（処理前）のデータを（処理後）のデータに書き出してほしい。半角空白で区切っています。
（処理前）（必要部分のみ）
KRID_pron_no 仮名注
F00001_01 音仁（LV）「ニン」
（処理後）
KRID_pron_no 仮名注 仮名表記
F00001_01 音仁（LV）「ニン」 ニン
6. 書き出すexcelのファイル名はkana_output.xlsx、シート名は“kana”とします。

この条件で大丈夫でしょうか。よろしくお願いします。

Geminiは「はい、ご提示いただいた条件でPythonプログラムを作成できます。以下にプログラムを示します」と言って、次のPythonのコードを書いてくれた。

import pandas as pd
import re

# 1. ファイルとシート名の指定
input_file = 'KRM_pron20250404.xlsx'
input_sheet = 'KRM_DHSJR_format'
output_file = 'kana_output.xlsx'
output_sheet = 'kana'

try:
    # 2. Excelファイルの読み込み
    df = pd.read_excel(input_file, sheet_name=input_sheet)

    # 4. 新しいカラム "仮名表記" を追加 (初期値は空文字列)
    df['仮名表記'] = ''

    # 5. "仮名注" カラムの内容から片仮名を取り出して "仮名表記" に書き出す
    def extract_kana(kana_note):
        if isinstance(kana_note, str):
            match = re.search(r'「([ァ-ンー]+)」', kana_note)
            if match:
                return match.group(1)
        return ''

    df['仮名表記'] = df['仮名注'].apply(extract_kana)

    # 6. 書き出すExcelファイルの作成と保存
    with pd.ExcelWriter(output_file) as writer:
        df.to_excel(writer, sheet_name=output_sheet, index=False)

    print(f"処理完了: {output_file} のシート '{output_sheet}' に結果を書き出しました。")

except FileNotFoundError:
    print(f"エラー: ファイル '{input_file}' が見つかりません。")
except KeyError as e:
    print(f"エラー: シート名 '{input_sheet}' またはカラム名 '{e}' がファイルに存在しません。")
except Exception as e:
    print(f"予期せぬエラーが発生しました: {e}")

ExcelデータをいったんTSVファイルかCSVファイルにして、 awkやperlでコードを書いてもらってもいいが、 PythonはExcelのファイルを直接扱えるので便利である。 pandasというライブラリを最初に読み込むことが必要ですが、かなり楽です。

ただ、実際のデータを見てみると、「和音部ツ」のような「」のない仮名注は対象外となるので、消えてしまった。

これは数が多くないので、Excelのソートなどを使い、手作業で一括追加した。

音注に冠される「和音」「俗」のような用語をどのように残すかは別途検討する。

音注ID（pronunciation_id）の追加規則

音注が一つだけしか出現しない注文では、注文IDと音注IDとは1対1で対応するので、同じもので問題ない。

注文IDと音注IDとが1対多となる場合はどうするか。

これは音注IDにb、c、dなどを追加する方式だ対応する。

音注ID（pronunciation_id）の追加規則の検討

「人」に「音仁（LV）「ニン」」とある例でいうと、これは、注文ID（definition_seq_id、旧KRID_no）が F00001_01であるが、音注ID（pronunciation_id、旧KRID_pron_no）は「音仁（LV）」に対してのものと「ニン」に対してのものの二つを用意する必要がある。

仮名注「ニン」は、直接的には「仁」に対する音注であるが、同時に「人」に対する音注でもある。

次のように、1行にまとめてしまうと、声点が「人」に施されているのか、「仁」に施されているのか、不明瞭である。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
1	F00001_01	F00001_01	人	平濁	平濁	ニン	ニン		音仁

次のように2行に分けることもできる。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
1	F00001_01	F00001_01	人	平濁	平濁				音仁
2	F00001_01	F00001_01b	仁	平濁	平濁	ニン	ニン

これは、「仁」の声点が「平濁」であり、同じ行に「ニン」を配置するのは清濁に関わる整合性がとれないことになる。

そこで3行に分ければ、掲出字（被注字、annotated headword or character）と、音注（仮名注、声点、類音）との対応は明確になる。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	類音
1	F00001_01	F00001_01	人					音仁
2	F00001_01	F00001_01b	仁	平濁	平濁
3	F00001_01	F00001_01c	仁			ニン	ニン

3行に分けるのは、かなりデータ作成者の解釈を入れるものとなっている。誰でもがそのような作業を行えるわけではない。

そうすると、専門家が見ると矛盾することになるが、次のように2行にしておくのがよいかもしれない。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
1	F00001_01	F00001_01	人	平濁	平濁				音仁
2	F00001_01	F00001_01b	仁	平濁	平濁	ニン	ニン

異形がある場合は／で区切って示すこととなっており、原文の表記を単純に転記できるのがよいかもしれない。

どちらがよいか判断が難しいので、なるべくデータ作成者の解釈を加えない方式を採用し、ある程度作業を進めたところで見直し、必要なら方針を変更することにする。

さて、音注IDが複数必要な場合、注文IDにb, c, …, nを追加することで行う。

音注を記載する順位は次のとおりである。

掲出字（被注字）に対する仮名注と声点があればこれらを優先し、同一行に記載。
注文として施される音注（仮名注、類音、反切、その他）を掲出字（被注字）に対する音注として別行に記載。
類音、反切、その他に用いる漢字に施される仮名または声点は、注記対象字を変更して、別行に記載。

1の掲出字（被注字）に対して直接仮名注と声点がある例はそれほど多くない。たとえば、「蹟」に「◎蹟（S）「セキ」」とある例が該当する。HDIC収録の KRMデータベースでは掲出字そのものに施される音注（声点、仮名注）であることを示すのに二重丸“◎”を用いて示している。

「蹟」に「◎蹟（S）「セキ」」とある例は次のように記載される。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
1	F13740_01	F13740_01	蹟	入	入	セキ	セキ

次に2と3の場合を見てみよう。

「佛」に施される音注「又符「フ」弗（S）「フツ」反」は2と3に該当する例であり、これは次のように記載される。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切
1	F00016_03	F00016_03	佛					符弗反
2	F00016_03	F00016_03b	符	＊	＊	フ	フ
3	F00016_03	F00016_03c	弗	入	入	フツ	フツ

反切の声点の扱い

反切の声点が施されることは多い。反切下字に声点を施した例が大半であるが、稀に反切上字に施すこともある。

反切の例がある時に、「声点」はどのように記載すればよいか。

「僧」に「蘇曽（F）反」とある例で考えてみよう。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
1	F00022_01	F00022_01	僧	平軽	平軽			蘇曽反
2	F00022_01	F00022_01	僧	＊平軽	＊平軽			蘇曽反

上の1の記載法だと、「僧」に「平軽」の声点が施されていることを否定できない。

2の記載法は、二字漢語に対する声点のように誤解されるおそれがある。

掲出字「僧」に対する反切と、反切下字「曽」に対する声点とに分けるの他ないと考えられる。次のようになる。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
3	F00022_01	F00022_01	僧					蘇曽反
4	F00022_01b	F00022_01	曽	平軽	平軽

3と4の記載法であれば、記載形式を複雑にしないで済む。

被注字を示す「上」「下」の扱い

音注は掲出字を被注字とするが、二字の漢語を掲出字とする場合、被注字がどの字になるかを明示するために「上」と「下」が用いられる。稀に三字の漢語があり、「中」を用いることもある。

krm_pronuncitations.jsonでは、被注字は“character_headword”（DHSJRの「単字_見出し」）として明示するので、「上」「中」「下」の記載を省略できる。

「又」の扱い

二種類以上の音注を示す場合に、「又」が用いられることがある。これはそのまま残す方針とする。

「又」の扱いの検討の詳細

たとえば「蛇」に「音陁　又食車反　又羊支反」と三つの音注が施されている。「蛇」は広韻に「弋支切」（平声支韻、移）、「託何切」（平声歌韻、佗）、「食遮切」（平声麻韻）。の三音が記載されている。名義抄の音注と広韻の音注との対応は次のようである。

名義抄	広韻
音陁	託何切（平声歌韻、佗）
又食車反	食遮切（平声麻韻）
又羊支反	弋支切（平声支韻、移）

「上」「下」の場合は、入力データの構造により、被注字（単字_見出し）は明示的に示されているので、省略できた。

「又」は、その情報を入力するのに相応しいカラムがない。そこで、「又」はそのまま残して記載することとする。

「二音」の扱い

単字の音注

二つの類音注を同時に示す形式に「△▲二音」がある。

これを「△」と「▲」とに分けて二つのレコードに記載することが考えられる。しかし、その方式はとらず、「△▲二音」のまま残す方針とする。

単字に対する「△▲二音」の扱いの検討の詳細

「△▲二音」の形式をどのように分けるか、いくつかの案が考えられる。

「△」と「▲」
「△（音）」と「▲（音）」
「△（二音）」と「▲（二音）」
「△…二音」と「…▲二音」

1案が優れるが、類音注が一つの場合の「△音」との整合性に欠ける。
2案は「二音」であることを明示できない。
3案は、類音注が一つなのに「二音」を残す点が分かりにくい。
4案は、この中では比較的分かりやすい。

最終的には1案としたいが、現在のところでは、「△▲二音」のまま残し、他の形式との整合性などを勘案して、最終的な結論を出すこととする。

たとえば「歹」に「矜「キヨウ」屵（SV）「カチ」二音」とある例などは、かなり複雑な扱いになることが理解できよう。

二字漢語の音注

二字漢語の上字の音と下字の音を「二音」を付けて表示する例は多い。
たとえば、「珊瑚」に「刪胡二音」とある例である。

これも単字の音注「二音」がある場合と同様のことが問題となるが、現時点ではそのまま記載しておくこととする。

「二反」の扱い

単字の音注

二つの反切を同時に示す形式に「△△▲▲二反」がある。これを「△△」と「▲▲」とに分けて二つのレコードに記載することが考えられるが、その方式は採用せず、「△△▲▲二反」のまま残すこととする。

「△△▲▲二反」の形式の検討の詳細

「△△▲▲二反」の形式をどのように分けるか、いくつかの案が考えられる。

「△△」と「▲▲」
「△△（反）」と「▲▲（反）」
「△△（二反）」と「▲▲（二反）」
「△△……二反」と「…▲▲二反」

1案が優れるが、反切一つの場合の「△△反」との整合性に欠ける。
2案は「二反」であることを明示できない。
3案は、反切が一つなのに「二反」を残す点が分かりにくい。
4案は、この中では比較的分かりやすい。

最終的には1案としたいが、現在のところでは、「△△▲▲二反」のまま残し、他の形式との整合性などを勘案して、最終的な結論を出すこととする。

二字漢語の音注

例はほとんどないが、二字漢語の上字の音と下字の音を「二切」を付けて表示することがある。
「抖擻」に「多口思口二切」とある例がそれである。これは宋本玉篇に「上：多口切。下：思口切。抖擻起物也」とあるのに依拠したかと考えられる。

これもそのまま残す。必要であれば備考欄にその旨を記入する。

「和音」などの冠称の扱い

「冠称」というのはあまり一般的な用語ではない。

日本の古い文献では、漢字の音訓を示すときに「和音」「呉音」を冠したり、訓読みを示すときに「倭言」「訓」などを冠したりすることがある。たとえば、「佛」に「和音部ツ」、「此間」に「倭言擧去（ココ）」とするような例である。こうした「漢字の発音や読み方を示す際のマーカー」あるいは「漢字の読み方を特定するための、前付けのマーカー」を言い表す用語としては、「音訓マーカー」「音訓標識」「読法表示」などが考えられる。

音訓マーカーの詳細

「音訓マーカー」と「音訓標識」の二つは「音読み・訓読みの区別を明示するためのマーカー」という意味で用いることができる。

「音訓マーカー」と「音訓標識」とでは「音訓標識」が好みだが、語学研究では「マーカー」を使うことが多いので、妥協して「音訓マーカー」を使うことにする。英語の用語としては on/kun reading markersとする。

「読法表示」は「文字の読み方（読法）に関する注釈や説明」の意味で、自立語の音読み・訓読みだけでなく、助詞・助動詞なども含めた広い意味を持つ。英語の用語としては reading glossesとする。

次は英語（ChatGPTによる）の用語定義文である。

In this paper, the term on/kun reading markers refers to labels indicating whether a kanji reading is of the on (Sino-Japanese) or kun (native Japanese) type.
The term reading glosses refers to annotations or explanatory notes that indicate how a character or phrase should be read.

話が横道にそれた。

たとえば「僧」に「和音ソウ（LL-N）」とある場合、この「和音」を残すかどうかという問題である。

これは音の種類を明示するマーカーであるから、記載するだけの意味はあるので、残すことにする。

残すのが適切と判断される音訓マーカーを記録しておこう。

典拠表示の書名・人名

音注の前に典拠となる書名や人名が記載されることがあり、《》を付して翻刻している。

仮名注: 該当例なし
反切: 《玉ー》《魴》《道宣》《大日經疏》
類音注: 《漢書》《尒疋》《字指》《説文》《玉ー》《説文》
その他: 《廣韻》

これらは参考のために残すこととする。

「イ」注記の扱い

名義抄では、当該字の右下あたりに「イ」を注記して異本（他本）との本文異同を記入することがある。

たとえば「䑦」の音注「音渫」の「渫」の右下に「溝イ」とするものである。「䑦」は広韻「古侯切」（平声侯韻）であるが、類音注の「渫」は広韻「士洽切」（入声洽韻）と「私列切」（入声薛韻）であわない。「溝」は「䑦」と同音であり、これなら音注として整合する。 HDICの名義抄の翻刻方針では、「音渫（渫-溝イ）」のようにすることとしているので、この内容をそのまま「類音」の欄に記入する。

その他、問題となる例の扱い

各種の形式の音注の併記

「和見又去コン」の場合

たとえば「健」に「渠建（R）反　…　和見又去コン」と見える。まず「渠建（R）反」と「和見又去コン」の二つの音注に分ける点は問題ない。

「和見又去コン」はいくつかの記載方法が考えられる。

「和見又去コン」の1種にまとめて記載
「和見又去」と「コン」の2種に分けて記載
「和見」と「又去コン」の2種に分けて記載
「和見」と「又去」と「コン」の3種に分けて記載

このうち、3は仮名注「コン」が「又去」だけに関係するようにとれるので、採用できない。とすれば、1、2、4のいずれかとなる。

ポイントとしては仮名注「コン」の注記対象が掲出字「健」であることを示す点である。2、4のようにしてしまうと、掲出字と音注との関連がたどりにくい。これは1のように1種にまとめるのがよいようである。

この例は高山寺本に「又音見コン」とあって本文異同のある箇所である。西念寺本は観智院本と同内容である。データベースへの記載方法としてはあまり問題にならないと判断される。

**「音測（S）「シキ（L_）」」の場合**

「測」に「音測（S）「シキ（L_）」」の音注が見える。仮名注「シキ」にさらに声点を施している。

精査していないが例はそれほど多くないと見られる。次のように記載することとした。

no	注文ID	音注ID	単字_見出し	声点	声点型	仮名注	仮名型	反切	類音
1	F17762_01	F17762_01	測	入	入				音測
2	F17762_01b	F17762_01	僧	入	入	シキ（平＊）