DHSJRとの連携

DHSJRとの連携 (Collaboration with DHSJR)

DHSJRとは

DHSJRとは「資料横断的な漢字音・漢語音データベース」の 英語名"Database of Historical Sino-Japanese Readings” に基づく略称である。DHSJRのプロジェクトは、 早稲田大学の加藤大鶴氏がリーダーとなって推進しており、 https://dhsjr.w.waseda.jp/ で構築した全データが公開されている。

以下、DHSJRの用例は、2024年5月29日公開のバージョンによる。

このデータベースの目的は、次のように記されている。

本データベース(略称:DHSJR)は、平安・鎌倉期~現代までの文献資料に現われる漢字音・漢語音を、字音注記(仮名注、声点、反切、類音注、節博士等)に即して検索可能とするものです。

DHSJR構築の背景としては、これまで、個別具体的資料に基づく高度な漢字音史研究の成果があったが、 多様な研究成果を横断的に見直して俯瞰的な視点から整理して新たな研究領域を見出そうとする プロジェクトである。

日本漢字音史の資料の多様性は、次の三点にあり、この観点を踏まえたDBの設計を行ったとされる。

  1. 漢文直読・訓読資料、和化漢文資料、和文資料など文献資料の位相差による漢字音・漢語音の位相的多様性
  2. 単漢字単位と漢字連接単位という異なる単位における字音の単位的多様性
  3. 中国語原音およびそれを受容した日本語社会における平安・鎌倉期から近世期〜現代までの字音・漢語音韻史の通史的多様性

2024年5月29日現在、56文献、約27万2千300字(延字数)を格納しているとのことである。

中国音韻史研究においては、切韻系韻書に基づく中国中古音の再構がなされており、 論者により用語や再構の音価に相違があるとは言え、広韻と韻鏡という共通の基準があり、 その枠組はほぼ確立していると言える。

日本国内では、鈴木慎吾氏の篇韻データベース(PYDB) がよく知られているが、これには、 上古音、切韻・廣韻・中古音、玉篇のデータベースが公開されている。切韻・廣韻・中古音には次の三つが収録されており、 内容の正確性、検索閲覧の利便性に優れている。

これに対して日本漢字音史においては、研究者により整理方法がまちまちであり、なかなか手を付けるのが 難しい分野である。 こうした状況を打開するプロジェクトとしてDHSJRは画期的である。

20年ほど前に湯沢質幸氏を代表者とする科学研究費基盤研究(B) 「日本漢字音データベース(大字音表)作成のための基礎的研究」が あって、「日本漢字音研究者の研究上の便宜を図るためのソフトの開発」がなされたというが、 現在、そのソフトを利用する情報は容易に見つからない。 また、「将来における日本漢字音データベース(大字音表)の完成を目指して国内外の漢字音資料の調査を行い」と 見えるので、日本漢字音データベース(大字音表)が構築されたことが分かる。 しかし、現在、日本漢字音データベース(大字音表)のデータは、公開されていないようである。

湯沢質幸氏らによる大字音表のプロジェクトは、2001年度から2004年度まで行われているが、 この時期のコンピュータの環境を振り返ってみると、UnicodeのCJK統合漢字がやっと 使えるようになった時期である。技術的な制約のある時期のプロジェクトとして画期的であったが、 現在のコンピュータの環境にあった漢字音のデータが求められる。

ところで、名義抄のデータベース化は、 田島毓堂氏を代表とする科学研究費総合研究(A) 「類聚名義抄の注釈的研究ー電算機利用によるー」 があった。研究期間は、1988年度から1989年度まである。 このプロジェクトは、JIS漢字約6,000字しか利用できない環境でなされたものであり、極めて先駆的な研究であった。 このデータベースは、蓮成院本類聚名義抄を底本として、データベース化と読解作業を行ったものであるが、 構築したデータベースは公開されなかったようである。

DHSJR収録の辞書音義

DHSJRの文献資料一覧を見ると、2024年5月29日公開のバージョンには 辞書音義としては、次の5点が収録されている。

  • 20-043-01「金光明最勝王経音義」大東急記念文庫蔵
  • 20-044-01「法華経音」九条家蔵
  • 30-017-01「色葉字類抄」前田育徳会尊経閣文庫蔵
  • 40-045-01「法華経音訓」東洋文庫蔵、心空版
  • 50-029-01「浄土三部経音義」龍谷大学図書館蔵

名義抄は未収録となっている。名義抄は日本漢字音史研究の重要資料であり、 これを追加することが期待される。

名義抄の全文テキストデータは、KRM.tsvとして公開しており、 注文に分解したデータもKRM_definitions.tsvとして公開している。 KRM_definitions.tsvから音注を抜き出して、DHSJRのフォーマットに揃える 必要がある。

以下、KRM_definitions.tsvをKRMと表記して説明することがある。

DHSJRのデータ列の構成

データ列の構成は次のようになっており、 23の項目(列)を設定している。

KRMと対応をとることができそうな項目、問題なさそうな項目は太字としておく。

  • ID:単字ごとのユニークID(統合データのみ)
  • 資料番号:資料ID
  • 資料名
  • 資料内漢字番号:漢字の資料内出現順の通し番号
  • 資料内漢語番号:漢語の資料内出現順の通し番号
  • 単字_見出し:音注が付された漢字の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。(「見出し」列の正規化に関する注意事項)
  • 単字_出現形:音注が付された漢字。原則的に入力者の表記方針による。助詞、音合符などが表記される場合もある。
  • 漢語_見出し:音注が付された漢字を含む漢語の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。 (「見出し」列の正規化に関する注意事項)
  • 漢語_出現形:音注が付された漢字を含む漢語。単字_出現形に同じ。
  • 漢語_alphabet:欧文による漢語の表記がある場合に入力されている
  • 語種:混種語がある場合に、語種を示す。ただし入力者によって対応はまちまちである。
  • 漢語内位置:漢語内での単字の位置。例えば1文字目ならば”1”。
  • 単字長:単字の拍数(この項目はほとんど入力できていない。今後の検討課題である)
  • 声点:単字に対する四声(平上去入)、六声(平平軽上去入軽入)及び清濁
  • 声点型:漢語に対する声点の組合せ。声点がない単字については*で表す。
  • 仮名注:仮名表記による字音注(仮名反切を含む)
  • 仮名型:漢語に対する仮名注の組合せ。仮名注がない単字については*で表す。
  • 反切:単字に対する反切注
  • 類音:単字に対する類音注
  • 節博士:声明等音楽資料に付される博士譜など
  • その他:その他の音注
  • 出現位置:資料内の単字・漢語の所在
  • 備考:注記すべき事柄

次にDHSJR収録の色葉字類抄の例を示す。 資料番号(30-017-01)と資料名(色葉字類抄_尊経閣文庫_三巻本)は字数が多く、表が見づらくなるので、省略する。

ID 資料内漢字番号 資料内漢語番号 単字_見出し 単字_出現形 漢語_見出し 漢語_出現形 漢語_alphabet 語種 漢語内位置 単字長 声点 声点型 仮名注 仮名型 反切 類音 節博士 その他 出現位置 備考
30-017-01-000001 1 1 且千 且千 1 シヤ シヤ* 1/001b/3
30-017-01-000002 2 2 1 ライ ライ イカツチ 又作\PMO{042518} 1/002a/3
30-017-01-000003 3 3 雷公 雷公 1 平平 ライ ライコウ 1/002a/3

DHSJRとの対応策

DHSJRのデータ列の構成に示された23の項目の順に、 KRMのデータの対応方法、加工方法を検討する。

ID

IDは単字ごとのユニークID(統合データのみ)とされる。 公開された統合データを見ると資料番号(資料ID)に資料内漢字番号を加えたものとなっている。

先に例示した色葉字類抄の例で言うと、 IDは30-017-01-000001であるが、30-017-01が資料番号(資料ID)、000001が資料内漢字番号に一致しており、 両者をハイフン(-)で繋いでいる。

資料番号(資料ID)はDHSJR側が設定するものなので、HDICのKRMデータは資料内漢字番号を用意すればよい。

資料番号

資料ID

資料番号(資料ID)はDHSJR側が設定する。30-017-01のように三つの要素をハイフン(-)で繋いでいる。 一定のルールがあるようだが、最初の30は年代・時代、次の017は資料、最後の01は写本・版本の種類を示すようである。

名義抄は、原撰本系に図書寮本があり、改編本系に観智院本、高山寺本、蓮成院本、西念寺本、宝菩提院本がある。

たとえば、次のようになるであろう。未定のものはxxxまたはxxxyとした。

  • 原撰本系

    • 図書寮本 30-xxx-01
  • 改編本系

    • 観智院本 30-xxy-01
    • 高山寺本 30-xxy-02
    • 蓮成院本 30-xxy-03
    • 西念寺本 30-xxy-04
    • 宝菩提院本 30-xxy-05

資料名

DHSJRの色葉字類抄は「色葉字類抄_尊経閣文庫_三巻本」となっており、 これにならえば、「類聚名義抄_天理図書館_観智院本」となる。

前述のIDに追記すれば次のようになる。

  • 原撰本系

    • 図書寮本 30-xxx-01 類聚名義抄_宮内庁書陵部_図書寮本
  • 改編本系

    • 観智院本 30-xxy-01 類聚名義抄_天理図書館_観智院本
    • 高山寺本 30-xxy-02 三宝類字集_天理図書館_高山寺本
    • 蓮成院本 30-xxy-03 三宝類聚名義抄_鎮国守国神社_蓮成院本
    • 西念寺本 30-xxy-04 類聚名義抄_天理図書館_西念寺本
    • 宝菩提院本 30-xxy-05 類聚名義抄_東寺宝菩提院_宝菩提院本

(追記2025/2/18) DHSJR代表者の加藤大鶴氏に問い合わせたところ、 048以降が空いているとのことなので、この番号を予約させていただいた。 また、原撰本系と改編本系のように諸本を分類して番号を与えることは していないとのことなので、以下の案を出しておく。

  • 図書寮本 30-048-01 類聚名義抄_宮内庁書陵部_図書寮本
  • 観智院本 30-048-02 類聚名義抄_天理図書館_観智院本
  • 高山寺本 30-048-03 三宝類字集_天理図書館_高山寺本
  • 蓮成院本 30-048-04 三宝類聚名義抄_鎮国守国神社_蓮成院本
  • 西念寺本 30-048-05 類聚名義抄_天理図書館_西念寺本
  • 宝菩提院本 30-048-06 類聚名義抄_東寺宝菩提院_宝菩提院本

(追記はここまで)

資料内漢字番号

漢字の資料内出現順の通し番号

KRMでは機械的に処理することが可能である。

資料内漢語番号

漢語の資料内出現順の通し番号

KRMでは機械的に処理することが可能である。

単字_見出し

音注が付された漢字の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。(「見出し」列の正規化に関する注意事項)

名義抄が単字の見出しの場合、約24,000の音注付き見出しのうち、約18,000はそのまま転記すればよい。 残る約6,000字は、異体字か、熟語であり、個別の対応が必要となる。

異体字が併記されるのは約3,700である。 たとえば、「靜/静」、「卝/丱」のような場合は、康熙字典体があればそれを採用すればよい。

「靜/静」は「靜」を採用する。

「卝/丱」は注に「今正」とあるので、「正」に対応する「丱」 を採用すればよさそうであるが、「卝」は広韻「呼䁝切」(上声梗韻)、 「丱」は「古患切」(去声諫韻)と別字である。名義抄の音注は「古患」「音慣(R)」とあって 「丱」に対応する。名義抄は「卝/丱」の次の項目「卝」に「礦字」とあり、 「呼䁝切」(上声梗韻)に対応している。 「卝」は「丱」に通用して用いられることがあるので、「今正」のような字体注が施されたと 考えられる。

異体字併記の約3,700は個別に判断して行くことが必要になるが、ある程度は機械的な処理ができそうである。

「⿰黄王/黈」のように、IDSで表現した漢字と、Unicodeで符号位置が割り当てられている場合は、 Unicodeの漢字を採用すればよい。

「⿺更与/⿺更與」のように、IDSで表現した漢字だけの場合は、どちらかを採用することになる。 この手のものは、諸字書に見えない僻字であり、龍龕手鏡のような字書との比較には 役立つが、日本漢字音史研究にはほとんど役に立たない。どちらをとっても大過ないものと考えられる。

現在のDHSJRには、異なり字数6,487字、延べ字数164,913字が収録されている。

単字_出現形

音注が付された漢字。原則的に入力者の表記方針による。助詞、音合符などが表記される場合もある。

これはほとんどの場合、「単字_見出し」をそのまま転記するのでよいと思われる。

しかし、異体字の扱いが問題となる場合がある。

これは、名義抄で異体字を併記する項目(異体字項目)の場合と二字以上の漢語からなる項目(熟語項目)に異体字が用いられる場合が問題となる。

たとえば、「磺/礦」に反切「古猛反」と仮名注「和火ウ」が見える。 「磺」と「礦」とは異体字の関係であるが、名義抄に字体注記はなく、いずれが「正」であるか 判断できない。広韻を見ると「礦」を収録しているが、「磺」を収録していない。そこで 「単字_見出し」を「礦」とすることができる。 DHSJRは漢字音研究のためのデータなので、広韻にあれば、その見出しを採用するのが適切である。

そこまではよいが、「単字_出現形」はどうするか。

これは、「単字_見出し」と同じ内容を記載するやり方と、異体字併記の内容をそのまま記載するやり方とが 考えられる。

「単字_見出し」が決定しているのであれば、単字_出現形をこれと同じ内容にするのは簡単である。

「出現形」の部分に拘るなら、異体字併記としておくのがよいが、そうすると次の「漢語_見出し」 の扱いが面倒になる。形式から異体字併記なのか、熟語なのか、両者の区別がつかない。 DHSJRは漢語の研究に資することを必要なので、異体字に関する情報は割愛して、 異体字併記の項目は、代表とする字のみを記載するのがよさそうである。 異体字に関する情報は、必要に応じて「備考」に記載することにする。

さらに、「単字_出現形」に誤写あるいは異体字の通用が疑われる場合がある。これは元の字形を「単字_出現形」に、 校訂した字形を「単字_見出し」とすることで対応する。 たとえば、「⿰火句」は音注「許于反」とあるが、広韻にない。 これは龍龕手鏡(巻2火部平声)に「㶷:俗許于反」とあることから、 名義抄の「⿰火句」は「㶷」の同字または誤写が疑われるものである。

異体字が別項目に記載され、「正」の字形には音注がないが、「正」のない字形に音注が加えられる場合がある。 たとえば「⿱⿰号乕土」に「音浩」とあるが、次の項目「㙱」に「正」の注記がある場合である。 これは「単字_見出し」を「㙱」、「単字_出現形」を「⿱⿰号乕土」とする。

次は熟語項目の場合である。

たとえば、「侏/𪝥」の見出しの「𪝥」は康熙字典体「儒」であるので、 「単字_見出し」を「儒」、単字_出現形を「𪝥」としてもよい。 後述の「漢語_見出し」は「侏儒」、漢語_出現形は「侏𪝥」となる。

日本漢字音史研究の資料としては、恐らくどちらでもよいであろうが、 入力方針としては、「単字_見出し」は康熙字典体かそれに近いもの、 単字_出現形は原文の字形がUnicodeにあればそれを採用することとし、 Unicodeにないものは、IDSにより表現することにしよう。

漢語_見出し

音注が付された漢字を含む漢語の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。 (「見出し」列の正規化に関する注意事項)

「単字_見出し」と同じ入力方針とする。

漢語_出現形

音注が付された漢字を含む漢語。単字_出現形に同じ。

「単字_出現形」と同じ入力方針とする。

漢語_alphabet

欧文による漢語の表記がある場合に入力されている

DHSJRでは、和英語林集成第三版のローマ字が入力されている。

語種

混種語がある場合に、語種を示す。ただし入力者によって対応はまちまちである。

DHSJRでは西方指南抄_専修寺が3例、和英語林集成第三版が255例見えた。説明のとおり、すべて混種語である。

漢語内位置

漢語内での単字の位置。例えば1文字目ならば”1”。

「単字_出現形」で例に挙げた「侏/𪝥」の音注の情報は、KRMで次のように記述されている。

KRID_no KR2ID Entry Def Def_code Def_name Word_form JK_URL Remarks
F00661_01 K0102842 侏/𪝥 音朱(L)𣽈 215 音注声点有_類音注等

Defの欄に記載した音注には「音朱(L)𣽈」とあり、これは 「侏」の類音注が「朱」、「𪝥」の類音注が「𣽈」であって、「朱」には平声(L)の声点が加えられている。 これをDHSJRの形式で書き換えてみると次のようになる。 「単字_見出し」から「類音」までの範囲で示す。「漢語_alphabet」は略す。

単字_見出し 単字_出現形 漢語_見出し 漢語_出現形 語種 漢語内位置 単字長 声点 声点型 仮名注 仮名型 反切 類音
侏儒 侏𪝥 1 平* 音朱(L)𣽈
𪝥 侏儒 侏𪝥 2 平* 音朱(L)𣽈

KRM_definitions.tsvは1行であるが、二字漢語(熟語)の上字と下字に音注が施されている場合、 DHSJR形式では2行とする必要がある。

さらに、「漢語内位置」について、 「侏」は1、「儒」は2をそれぞれ新たに追記する必要がある。

「声点」と「声点型」は原文「音朱(L)𣽈」の内容から、上記のようになると思われる。 声点が施されていない場合、全角の*を用いるようなので、それに合わせてみた。

「類音」について、原文「音朱(L)𣽈」とあるものを「音朱(L)」と「𣽈」とに分けて 記載する方式と、「音朱(L)𣽈」を漢語に対する音注と見てそのまま記載する方式が ある。 DHSJRに収録の色葉字類抄で類似の例を探してみると次のようになっている。「漢語_alphabet」は略す。

単字_見出し 単字_出現形 漢語_見出し 漢語_出現形 語種 漢語内位置 単字長 声点 声点型 仮名注 仮名型 反切 類音 節博士 その他
黏臍 黏臍 1 平濁 平濁去 テム テムセイ 添齊二音 添齊二音
黏臍 黏臍 2 平濁去 セイ テムセイ 添齊二音 添齊二音

これは二字漢語「黏臍」の例であるが、 「類音」の欄は「添齊二音」を記載している。 同じ内容を「その他」の欄にも記載しているのは、類音注の形式が通常と異なると判断したためであろうか。

単字長

単字の拍数(この項目はほとんど入力できていない。今後の検討課題である)

「ほとんど入力できていない」とのことであるが、DHSJR収録の18文献に記載が認められる。

資料番号 資料名 例数
20-001-01 大般若波羅蜜多経_根津美術館 13899
30-010-01 阿弥陀経_西本願寺 2906
30-012-01 群書治要_金沢文庫_経部 3802
30-015-01 浄土三経往生文類_西本願寺 535
30-019-01 一念多念文意_東本願寺 1764
30-020-01 尊号眞像銘文_法雲寺_略本 2471
30-020-02 尊号眞像銘文_専修寺_広本 4644
30-021-01 西方指南抄_専修寺 20090
30-022-01 唯信鈔文意_専修寺_正月十一日本 1836
30-022-02 唯信鈔文意_専修寺_正月二十七日本 1963
30-023-01 唯信鈔_専修寺_平仮名本 46
30-023-02 唯信抄_西本願寺 1571
30-023-03 唯信鈔_專修寺 1881
30-039-03 魚山六巻帖九方便 359
30-040-01 専修大学図書館本和漢朗詠集 4089
30-040-02 岩瀬文庫蔵延慶二年識語本和漢朗詠集 738
40-045-01 東洋文庫本法華経音訓 2206
70-042-01 和英語林集成第三版 26669

KRMに「単字長」に関する情報はないので、 当面、空欄としておく。

声点

単字に対する四声(平上去入)、六声(平平軽上去入軽入)及び清濁

KRMでは、ローマ字により次のように示している。

記号 内容
L
平軽 F
H
R
T
入軽 S
"

これをDHSJRの形式に変換する必要がある。

DHSJRでは、用例を見ると、?を用いている箇所があるが、 これは声点の位置の判断が難しいことを示したものと考えられる。

声点型

漢語に対する声点の組合せ。声点がない単字については*で表す。

KRMでは声点がない単字はを@で示しているので、これを*に変換する。 (アットマーク“@”は、2025年3月に仕様変更してアンダーバー“_”を用いることした。)

仮名注

仮名表記による字音注(仮名反切を含む)

これは、KRMでいうところの仮名注に該当する。 漢字を用いて拗音を示す「正 和者ウ」「曠 和火ウ」、 濁音を示す「堂 俗云堕ウ」のような例も仮名注とする。

DHSJRにいう「仮名反切」がどのようなものが該当するか、 例を探せなかったが、KRMの処理で問題になることはなさそうである。

仮名型

漢語に対する仮名注の組合せ。仮名注がない単字については*で表す。

*を用いて仮名注がないことを示す点は、変換が必要である。

反切

単字に対する反切注

「◯◯反」「◯◯△△二反」のような反切形式は問題がない。 反切上字や反切下字に仮名注が見えることがある。 たとえば「併」に「蒲鼎(H)「テイ」反」と記載されている。 この「テイ」は反切下字「鼎」に対する音注である。「鼎」には平声の声点も施されている。 「鼎」に平声点があり、仮名注「テイ」があることを別の項目とする必要がある。

しかしこれは別の作業となるので、反切字に対する音注を整理することは後回しとしたい。

「蒲鼎(H)「テイ」反」の例で言えば、DHSJRの「反切」欄に「蒲鼎反」を記載するのは問題ない。 では、「声点」はどうすればよいか。「*上」としておくのがよいであろうか。DHSJRの方針を確認したいところである。

類音

単字に対する類音注

「音◯」「◯音」の形式が大半である、問題は少ない。

二字漢語(熟語)に「二音」をつけて「◯△二音」「二音〇△」の形式となることがある。 たとえば、「鷦鷯」に「焦(L)「セウ」遼(L)「レウ」二音」とあって、「鷦」の類音注「焦」と「鷯」の 類音注「遼」を同時に示している。こうした例の場合、「漢語_見出し」と「漢語_出現形」 は「鷦鷯」となるので、類音注は焦遼二音」とするのがよいであろう。 ただし、仮名注と声点を省くのはひと手間かかるので、当面は「焦(L)「セウ」遼(L)「レウ」二音」の ままに記載しておく。

「音鴛之上声」「魂之去声」のように声調も示すものは、「その他」としておく。

節博士

声明等音楽資料に付される博士譜など

これは該当する例がない。

その他

その他の音注

声調を記す用語「又平」「去声」などが該当する。

「音鴛之上声」「魂之去声」のように声調も示すものも「その他」とする。

出現位置

資料内の単字・漢語の所在

KRMでは、風間書房版により帖数、頁数、行数、段数、字数を示している。 たとえば、K0804311は風間書房版影印本の僧上(8)、43頁、1行、1字目を示す。

帖数は仏上を01、仏中を02、仏下本を03、仏下末を04 法上を05、法中を06、法下を07、僧上を08、僧中を09、僧下を10とする。

頁数は3桁で示し、1頁なら001、55頁なら、120頁なら120とする。

行数は8行まで、段数は4段までである。字数も10字を超えることはない。それぞれ1桁を割り当てる。

備考

注記すべき事柄

音注の出典考証は、広韻等を参照して進捗している。どの程度まで 記載するかは検討の余地がある。

観智院本名義抄(KRM)の音注の種類

以下に記す内容は、DHSJRとの連携を図るために行った、作業上のメモである。

DHSJRとの連携がとれれば、もっと簡潔にまとめることができるはずである。 試行錯誤をそのまま書いているので、非常に読みにくい。 その点はご容赦願いたい。 メモなので不要となった部分はまとめて削除することがある。

名義抄には約24,000の音注がある。これには、反切、類音注、仮名注の3種が主なものであるが、 これらに声点が施される。

反切と類音注は漢字により表記され、仮名注は片仮名により表記される。

音注の形式は複合的であり、反切、類音注、仮名注の3種の組み合わせは次のようになる。

  1. 反切
  2. 反切 + 仮名注
  3. 類音注
  4. 類音注 + 仮名注

さらに声点が施されることがあるから、上の4種は次のように細分される。

  1. 反切
  2. 反切 + 声点
  3. 反切 + 仮名注
  4. 反切 + 声点 + 仮名注
  5. 類音注
  6. 類音注 + 声点
  7. 類音注 + 仮名注
  8. 類音注 + 声点 + 仮名注

反切は、反切上字と反切下字に声点を施すものがある。

反切上字に声点・仮名注があるかどうかのパターンは次の4種類である。

  1. 反切上字
  2. 反切上字 + 声点
  3. 反切上字 + 仮名注
  4. 反切上字 + 声点 + 仮名注

反切下字に声点・仮名注があるかどうかのパターンも同様に次の4種類である。

  1. 反切下字
  2. 反切下字 + 声点
  3. 反切下字 + 仮名注
  4. 反切下字 + 声点 + 仮名注

反切上字の4種類と反切4種類を組み合わせたパターンは16種類となる。

  1. 反切上字 + 反切下字
  2. 反切上字 + 反切下字 + 声点
  3. 反切上字 + 反切下字 + 仮名注
  4. 反切上字 + 反切下字 + 声点 + 仮名注
  5. 反切上字 + 声点 + 反切下字
  6. 反切上字 + 声点 + 反切下字 + 声点
  7. 反切上字 + 声点 + 反切下字 + 仮名注
  8. 反切上字 + 声点 + 反切下字 + 声点 + 仮名注
  9. 反切上字 + 仮名注 + 反切下字
  10. 反切上字 + 仮名注 + 反切下字 + 声点
  11. 反切上字 + 仮名注 + 反切下字 + 仮名注
  12. 反切上字 + 仮名注 + 反切下字 + 声点 + 仮名注
  13. 反切上字 + 声点 + 仮名注 + 反切下字
  14. 反切上字 + 声点 + 仮名注 + 反切下字 + 声点
  15. 反切上字 + 声点 + 仮名注 + 反切下字 + 仮名注
  16. 反切上字 + 声点 + 仮名注 + 反切下字 + 声点
  17. 反切上字 + 声点 + 仮名注 + 反切下字 + 声点 + 仮名注

この他に字体注や義注の漢字に声点を付した例がある。字体注に声点を付したのは20例、 義注に声点を付したのは5例、義注の漢字に音注を付したのが10例である。

DHSJRの音注の種類は、次の五つ。

  1. 仮名注
  2. 反切
  3. 類音
  4. 節博士
  5. その他

名義抄に節博士はないので、これは無視できる。

「平」「又去」のような声調の注記は、DHSJRでは「その他」に記載しているので、 それに従う。

また、「和同」「音同上」「呉同」などは、前出の音注に同じことを示す注記であるが、 これらは「その他」に記載することとする。

仮名注、音注、類音、その他の四つについて、エクセルのフィルター機能を使いながら、 目視で整理した結果は次のとおりである。分類は不十分であり、正確な数値ではないが、 大まかな傾向をみるために示してみる。

音注種類 例数
仮名注 2,299
反切 10,016
類音 12,398
その他 483
合計 25,159

反切や類音注に仮名が施されることがあり、これを 仮名注として重複して数えているので、音注約24,000よりも 多くなっている。

類音注の整理

類音注の形式を整理するため、 手始めに声点や仮名注のない形式について検討する。

類音注の種類はおよそ次の4種である。

  1. 類音注
  2. 類音注 + 声点
  3. 類音注 + 仮名注
  4. 類音注 + 声点 + 仮名注

音注の種類の認定に問題あるものを残すが、現時点での 分類により数値を出してみると次のようになる。

類音注の種類 例数 百分率
1. 類音注 9,537 76.9%
2. 類音注 + 声点 2,212 17.8%
3. 類音注 + 仮名注 150 1.2%
4. 類音注 + 声点 + 仮名注 499 4.0%
合計 12,398 100%

DHSJRのデータ構造では、声点、声点型、仮名注、仮名型、反切、類音を設定している。

このデータ構造に記入するのに、1の類音注(のみ)、2の類音注+声点、3の類音注+仮名注は問題が生じない。

しかし、4の類音注 + 声点 + 仮名注ではいささか具合が悪くなる。ほとんどの場合、声点は類音注に 対してのものであるが、稀に仮名注に対しても声点が施されることがある。

また、声点の欄と類音の欄が離れており、途中に仮名注、反切があり、声点の欄の内容が 類音に対するものとは理解しにくい。

具体例を見てみよう。 たとえば、F00762_01のIDを与えた「優」には「音憂(L)「イウ」」と見える。これを DHSJRのフォーマットで入力しようとするとどうなるか。 次に、HDSJRの 関連部分を取り出して示す。

単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
イウ 音憂

声点は類音の「憂」に施されているが、この形式だと、仮名注「イウ」に施されている ようにも見える。「イウ」は2文字なので、「平*」か「*平」になるはずだから、 仮名注でなく類音に対する声点であるというように理解するのは、少しむずかしいように思う。

二つのレコードを用意して明示的に対応するのが分かりやすい。

単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
音憂
イウ

しかし、この形式だと、声点は「優」に施されているのか、「憂」に施されているのか、 はっきりしない。

単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
音憂
イウ

このようにしても仮名注「イウ」に声点が施されているようにとれるので、 声点の対象となる文字がなにかはっきりしない。

とすれば、次のようになる。

単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
音憂
イウ

しかし、これだと「優」が平声であるという情報が抜け落ちてしまう。

単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
音憂
イウ

「憂」の平声点は、「憂」が平声であることを示すと同時に 「優」が平声であることを示している。声点の機能をそのように 理解しておくのがよいであろう。

次にkrm_main.jsonとkrm_notes.jsonとの連携をとるにはどうすればよいか。 「優」にはF00762_01のIDを与えており、krm_main.jsonとkrm_notes.jsonで 名義抄の注文に対するIDに加えて、音注(仮名注、反切、類音)に対するIDを 用意する必要がある。

注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
F00762_01 F00762_01 音憂
F00762_01 F00762_01b
F00762_01 F00762_01c イウ

この例では、三つに区分し、注文IDと同じIDを音注IDとするとともに、 同じIDの末尾にbとcを追加して新たな音注IDを用意した。

音武(L-HV)「フ」「ム(H)」の場合は次のようになる。ここでは末尾にbとcを追加している。

注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
F00841_01 F00841_01 平/上濁 平/上濁 音武
F00841_01 F00841_01b 平/上濁 平/上濁 ム/フ
F00841_01 F00841_01c

音注は三つの要素に区分される。

二つ以上の音注IDが必要になった場合は、順にb、c、d、…nを順に付すこととする。

以上の例は、4の類音注 + 声点 + 仮名注の例であるが、全体では499例を数える。 約500例について音注IDを区分することとなる。

反切の整理

もう一度、反切の種類を示してみよう。

  1. 反切
  2. 反切 + 声点
  3. 反切 + 仮名注
  4. 反切 + 声点 + 仮名注

反切を反切上字と反切下字の場合分けると更に種類が多くなる。 前述したように16種類となるが、あまりに多い。 大まかな傾向を見るために、最初の4種のパターンを調査してみた。

反切ありの約1000例の出現パターンはおよそ次のように なった。

  • 仮名注あり かつ 声点あり: 26例
  • 仮名注あり かつ 声点なし: 39例
  • 仮名注なし かつ 声点あり: 923例
  • 仮名注なし かつ 声点なし: 9,027例

先の分類に合わせて示せば、次のとおりである。

  1. 反切: 9,027例
  2. 反切 + 声点: 923例
  3. 反切 + 仮名注: 39例
  4. 反切 + 声点 + 仮名注: 26例

1が大半の例であり、これらは注文IDと音注IDとが1対1対応である。 2、3、4は、注文IDと音注IDとが1対多対応になる。

いくつか例示してみよう。

  1. 辵 丑略反
  2. 邏 盧賀(R)反
  3. 避 裨豉「シ」反
  4. 佛 又符「フ」弗(S)「フツ」反

説明の都合上、最初に上記の番号 (no)を示す。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F01041_01 F01041_01   丑略反
2a F01058_01 F01058_01 *去 *去 盧賀反
2b F01058_01 F01058_01
3a F01361_01 F01361_01     裨豉反
3b F01361_01 F01361_01a    
4a F00016_03 F00016_03 *入 *入 符弗反
4b F00016_03 F00016_03a    
4c F00016_03 F00016_03b  入  入

1の「辵」は反切「丑略反」だけなので問題ない。
2の「邏」は反切「盧賀反」に加えて反切下字が「去」の声点であることを示す必要がある。

2aとして「邏」が去声であることを「声点」と「声点型」を示し、 2bとして反切下字「賀」が「去」であることを「声点」と「声点型」を示した。

これはDHSJRの方針次第だが、反切上字と反切下字の声点を続けて記入してみた。

3a/bの「避」は反切「裨豉反」に加えて反切下字「豉」に仮名注「シ」があるものである。 3aは「単字_見出し」を「避」とし、3bは「単字_見出し」を「豉」とすることで対応させた。

4a/b/cの「佛」は反切、声点、仮名注が複合するものである。上に示したよう4から6までの三つに区分した。

仮名注の整理

仮名注は約2,300例である。

最終的な分類には至っていないので、現時点での暫定的な分類とその数値を次に示す。 “✓”を記入したのは、該当例があることを示し、空欄は該当例がないことをを示す。

no 仮名注 声点 反切 類音 その他 例数
1 0
2 0
3 0
4 27
5 0
6 495
7 892
8 0
9 0
10 1
11 11
12 1
13 143
14 712
15 14
16 2
合計 2,298

番号を太字とした4611121315は 仮名注と声点・反切・類音・その他の対応が1対多になるものである。 およそ691例ある。 すなわち、これらは注文IDと音注IDとの対応が1対多になるのである。

1対多となるレコードはあらかじめ準備しておくのがよい。

音注の整理

音注の種類は、声点、仮名注、反切、類音、その他である。

この5種類が1対多となるレコードは扱いが面倒である。これは、 類音注、反切、仮名注を順に検討してきてはっきりした。

ただ、パターンが複雑になるので、1対多となるレコードがどれくらいになるか、 予備的に調査シておく必要がある。 仮名注はさきほどの検討から約690という数値を出した。

いま、作業用に使っているExcelのデータでは、 該当例がないことを示すのに“#N/A”を入れているので、その有無をチェックすれば 仮名注、反切、類音、その他があるかどうかを判定できる。

声点は必ず全角文字の“(”と“)”とで括っているので、“(”の有無をチェックすれば 声点があるかどうかを判定できる。

そこで、次のような条件を立てた。

  1. 仮名注を含む音注に声点があれば、2を返し、なければ1を返す。仮名注がなければ0を返す。
  2. 反切を含む音注に声点があれば、20を返し、なければ10を返す。反切がなければ0を返す。
  3. 類音を含む音注に声点があれば、200を返し、なければ100を返す。類音がなければ0を返す。
  4. その他を含む音注に声点があれば、400を返し、なければ0を返す。類音がなければ0を返す。
  5. 上記1から4までの戻り値を合計し、3桁の数値に揃えるため、100を加算。

この条件をEexcelの関数を使って記入すると次のようになる。

=IF(ISNA(R2), 0, IF(AND(NOT(ISNA(R2)), NOT(ISERROR(FIND("(",R2)))), 2, 1)) + IF(ISNA(T2), 0, IF(AND(NOT(ISNA(T2)), NOT(ISERROR(FIND("(",T2)))), 20, 10)) + IF(ISNA(U2), 0, IF(AND(NOT(ISNA(U2)), NOT(ISERROR(FIND("(",U2)))), 200, 100)) + IF(ISNA(Z2), 0, IF(AND(NOT(ISNA(Z2)), NOT(ISERROR(FIND("(",Z2)))), 400, 0)) + 100

ちなみに、自分で考えるのは面倒なので、生成AI(今回はGemini 2.0)に頼みました。

もっとスマートな方法があるだろうが、ここで時間をとってもしかたないので、 これで切り抜ける。

結果を整理すると、およそ次の表になった。

分類 例数 声点 仮名注 反切 類音 その他 レコード追加
200 9542
110 9044
300 2216
120 931
102 904
101 715
302 495 495
100 451
201 144 144
122 27 27
111 12 12
500 7 7
210 2 2
502 2 2
合計 24,492 4,580 2,297 10,016 12,399 458 689

仮名注で約690という数値を出していたが、追加が必要なレコードは それとほぼ同数となった。

これは、反切と類音注を併記する例は、二つに分離していたので、 異なる音注を併記するのは、仮名注と反切、仮名注と類音、仮名注とその他となるためである。

反切と類音を併記するのは、2例であったが、これはDHSJRのフォーマットでは 一つのレコードに記入できるが、念のため二つのレコードを用意することとする。

単字_見出しの扱い

異体字併記の場合

異体字を併記する項目は、採用法方法として次の二つが考えられる。

  1. すべてを「単字_見出し」として採用する
  2. 代表の見出しをひとつだけ採用する

たとえば「萍/蓱」は「上通下正 音屏(L) ウキクサ(HH__) 」とあるが、 「萍」と「蓱」とを「単字_見出し」とする1の方法である。 これだとレコード数が膨大になり、漢字音史研究の資料とする目的から すると、他の日本漢字音資料に例のない漢字ばかりとなり、 有用でない情報を大量に取り込むこととなる。

2は代表の見出しだけをとるもので、たとえば「萍/蓱」の 字体注「上通下正」により「正」とされる「蓱」を「単字_見出し」として採用する方法である。 これに、 字体注がない場合は、広韻にある見出しを優先するという方法を追加する。つまり、次の二つの条件を 勘案して、ひとつだけ採用することとする。

  1. KRMで「正」注記の対象となる見出し
  2. 広韻にある見出し

以上はUnicodeに見出しの漢字がある場合のことであるが、それがない場合は、適宜、 判断してIDS形式のままに記載しておく。

たとえば、「𠾧/嘼/⿳凹⿱甲一口」は注に「或今正」とあるが、「正」の字体はIDSでしか表現できないので、 「今」の字体である「𠾧」か「嘼」が採用の候補である。 「𠾧」は広韻になく、「嘼」は広韻にあるので、後者「嘼」を採用する。

熟語(二字以上の漢語)の場合

その他

名義抄の見出しに声点だけがあるものは、「その他」とする。 KRMでは「◎節(S)」のように記載し、 「節」に入声の声点が施されていることを示す。

音注の加工

大雑把な音注の分類

音注の種類は、仮名注、反切、類音、その他の4種である。これに声点を 加えると5種になる。

名義抄の音注は、大まかに仮名注、反切、類音、その他の4種に分類済みである。 先に類音注、反切、仮名注の順に整理の方法を検討してきたが、これは 大雑把に分類したデータに基づく。

名義抄の冒頭「人」には「音仁(LV)「ニン」」の音注が施されている。 大雑把な分類では、仮名注と類音注に同じ内容を転記しただけである。

よって、仮名注に「ニン」、類音注に「音仁」、声点に「LV」を転記する必要がある。

DHSJRの仕様に合わせると、声点は、「LV」を変換して「平濁」としなければならない。

注文IDと音注ID

これまでは、注文IDと音注IDという用語で説明してきた。 HDICで作成しようとしているJSON形式のファイルkrm_pronunciations.jsonでは、 音注IDをpronunciation_idとし、 注文IDをdefinition_seq_idとしている。

JSON形式のファイルkrm_pronunciations.jsonと同内容を krm_pronunciations.tsvのファイル名でも作成する。

krm_pronunciations.jsonを生成する前の段階では、 作業用のExcelファイルによって行っている。 内部用であるが、ファイル名はKRM_pron20250404.xlsxのようにしている。 ファイル名の前半KRM_pronは、音注に関するファイルであることを示す。 ファイル名の後半20250404は、年月日であり、バージョン管理のために示す。

このKRM_pron20250404.xlsxでは、カラム名が仕様変更前の旧形式である。

音注ID(pronunciation_id)は、KRID_pron_noであり、 注文ID(definition_seq_id)は、KRID_noである。

ややこしいことこの上ないが、もっぱら自分の覚えのために書いているので、 ご容赦願いたい。

「人」に「音仁(LV)「ニン」」とある例でいうと、 仮名注の欄と類音の欄に現状では「音仁(LV)「ニン」」と入力されている。 これを仮名注の欄に「ニン」、類音の欄に「音仁」、声点の欄に「平濁」を入力したい。

一つ一つ判断しながら行うことは、大変なので、プログラムを作って、前処理して、 それを確認・修正するという手順を踏むことにする。

仮名注の処理

まず仮名注を処理しよう。カラム名仮名注から、仮名の音注のみを 取り出して、カラム名仮名表記に書き出す、ということを考えた。

これは生成AIを用いてPythonのコードを作成してもらった。 使用する生成AIはGemini 2.0である。 プロンプト(prompt、指示文、質問文)は次のとおりとした。

エクセルのファイルから、以下の操作をしたいのですが、pythonプログラムを書いていただくことはできますか。
1. excelのファイル名はKRM_pron20250404.xlsx、対象となるシート名はKRM_DHSJR_formatです。
2. KRM_DHSJR_formatのシートのカラム名“KRID_pron_no”は“F00001_01”のような内容です。
3. KRM_DHSJR_formatのシートのカラム名“仮名注”は“音仁(LV)「ニン」”のような内容です。
4. カラム名“仮名注”の内容ら全角文字の“「“と”」”の間にある片仮名の文字を取り出して、カラム名"仮名表記"に書き出す。
5. 具体例でいえば、(処理前)のデータを(処理後)のデータに書き出してほしい。半角空白で区切っています。
(処理前)(必要部分のみ)
KRID_pron_no 仮名注
F00001_01 音仁(LV)「ニン」
(処理後)
KRID_pron_no 仮名注 仮名表記
F00001_01 音仁(LV)「ニン」 ニン
6. 書き出すexcelのファイル名はkana_output.xlsx、シート名は“kana”とします。

この条件で大丈夫でしょうか。よろしくお願いします。

Geminiは「はい、ご提示いただいた条件でPythonプログラムを作成できます。以下にプログラムを示します」と言って、次のPythonのコードを書いてくれた。

import pandas as pd
import re

# 1. ファイルとシート名の指定
input_file = 'KRM_pron20250404.xlsx'
input_sheet = 'KRM_DHSJR_format'
output_file = 'kana_output.xlsx'
output_sheet = 'kana'

try:
    # 2. Excelファイルの読み込み
    df = pd.read_excel(input_file, sheet_name=input_sheet)

    # 4. 新しいカラム "仮名表記" を追加 (初期値は空文字列)
    df['仮名表記'] = ''

    # 5. "仮名注" カラムの内容から片仮名を取り出して "仮名表記" に書き出す
    def extract_kana(kana_note):
        if isinstance(kana_note, str):
            match = re.search(r'「([ァ-ンー]+)」', kana_note)
            if match:
                return match.group(1)
        return ''

    df['仮名表記'] = df['仮名注'].apply(extract_kana)

    # 6. 書き出すExcelファイルの作成と保存
    with pd.ExcelWriter(output_file) as writer:
        df.to_excel(writer, sheet_name=output_sheet, index=False)

    print(f"処理完了: {output_file} のシート '{output_sheet}' に結果を書き出しました。")

except FileNotFoundError:
    print(f"エラー: ファイル '{input_file}' が見つかりません。")
except KeyError as e:
    print(f"エラー: シート名 '{input_sheet}' またはカラム名 '{e}' がファイルに存在しません。")
except Exception as e:
    print(f"予期せぬエラーが発生しました: {e}")

ExcelデータをいったんTSVファイルかCSVファイルにして、 awkやperlでコードを書いてもらってもいいが、 PythonはExcelのファイルを直接扱えるので便利である。 pandasというライブラリを最初に読み込むことが必要ですが、 かなり楽です。

ただ、実際のデータを見てみると、「和音部ツ」のような「」のない仮名注は 対象外となるので、消えてしまった。

これは数が多くないので、Excelのソートなどを使い、手作業で一括追加した。

音注に冠される「和音」「俗」のような用語をどのように残すかは別途検討する。

音注ID(pronunciation_id)の追加規則

音注が一つだけしか出現しない注文では、 注文IDと音注IDとは1対1で対応するので、 同じもので問題ない。

注文IDと音注IDとが1対多となる場合はどうするか。

「人」に「音仁(LV)「ニン」」とある例でいうと、 これは、注文ID(definition_seq_id、旧KRID_no)が F00001_01であるが、音注ID(pronunciation_id、旧KRID_pron_no) は「音仁(LV)」に対してのものと「ニン」に対してのものの二つを 用意する必要がある。

仮名注「ニン」は、直接的には「仁」に対する音注であるが、同時に 「人」に対する音注でもある。

次のように、1行にまとめてしまうと、声点が「人」に施されているのか、 「仁」に施されているのか、不明瞭である。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F00001_01 F00001_01 平濁  平濁 ニン ニン 音仁

次のように2行に分けることもできる。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F00001_01 F00001_01 平濁  平濁 音仁
2 F00001_01 F00001_01b 平濁 平濁 ニン ニン

これは、「仁」の声点が「平濁」であり、同じ行に「ニン」を配置するのは 清濁に関わる整合性がとれないことになる。

そこで3行に分ければ、掲出字(被注字、annotated headword or character)と、音注(仮名注、声点、類音)との対応は明確になる。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F00001_01 F00001_01   音仁
2 F00001_01 F00001_01b 平濁 平濁
3 F00001_01 F00001_01c ニン ニン

3行に分けるのは、かなりデータ作成者の解釈を入れるものとなっている。 誰でもがそのような作業を行えるわけではない。

そうすると、専門家が見ると矛盾することになるが、次のように2行にしておくの がよいかもしれない。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F00001_01 F00001_01 平濁  平濁 音仁
2 F00001_01 F00001_01b 平濁 平濁 ニン ニン

異形がある場合は/で区切って示すこととなっており、原文の表記を単純に転記できるの がよいかもしれない。

どちらがよいか判断が難しいので、なるべくデータ作成者の解釈を加えない 方式を採用し、ある程度作業を進めたところで見直し、必要なら 方針を変更することにする。

さて、音注IDが複数必要な場合、注文IDにb, c, …, nを追加することで行う。

音注を記載する順位は次のとおりである。

  1. 掲出字(被注字)に対する仮名注と声点があればこれらを優先し、同一行に記載。
  2. 注文として施される音注(仮名注、類音、反切、その他)を 掲出字(被注字)に対する音注として別行に記載。
  3. 類音、反切、その他に用いる漢字に施される仮名または声点は、注記対象字を変更して、別行に記載。

1の掲出字(被注字)に対して直接仮名注と声点がある例はそれほど多くない。 たとえば、 「蹟」に「◎蹟(S)「セキ」」とある例が該当する。HDIC収録の KRMデータベースでは掲出字そのものに施される音注(声点、仮名注)であることを 示すのに二重丸“◎”を用いて示している。

「蹟」に「◎蹟(S)「セキ」」とある例は次のように記載される。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F13740_01 F13740_01 入   セキ セキ

次に2と3の場合を見てみよう。

「佛」に施される音注「又符「フ」弗(S)「フツ」反」は2と3に該当する例であり、 これは次のように記載される。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F00016_03 F00016_03   符弗反
2 F00016_03 F00016_03b
3 F00016_03 F00016_03c フツ フツ

反切の声点の扱い

反切の声点が施されることは多い。 反切下字に声点を施した例が大半であるが、稀に反切上字に施すこともある。

反切の例がある時に、「声点」はどのように記載すればよいか。 F00022_01 F00022_01 僧 僧 僧 僧 0 #N/A 蘇曽(F)反

「僧」に「蘇曽(F)反」とある例で考えてみよう。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F00022_01 F00022_01 平軽 平軽 蘇曽反
2 F00022_01 F00022_01 *平軽 *平軽 蘇曽反
3 F00022_01 F00022_01 #平軽 #平軽 蘇曽反

上の1の記載法だと、「僧」に「平軽」の声点が施されていることを否定できない。 2の記載法は、二字漢語に対する声点のように誤解されるおそれがある。 3の記載法は、2の欠点を補うために、*を#に変えたものである。 この方式であれば、「二反」ある場合にも対応できそうである。 「#平##」とするか、「#平/##」とするか、いくつか案が考えられる。

これはDHSJRの仕様にない記号と思われる。調整・相談が必要な案件である。 #を*に変換するのは簡単なのでひとまず#を用いることとする。

被注字を示す「上」「下」の扱い

音注は掲出字を被注字とするが、二字の漢語を掲出字とする場合、被注字が どの字になるかを明示するために「上」と「下」が用いられる。 稀に三字の漢語があり、「中」を用いることもある。

krm_pronuncitations.jsonでは、被注字は“character_headword”(DHSJRの「単字_見出し」) として明示するので、「上」「中」「下」の記載を省略できる。

被注字の英訳は“annotated headword”としてきたが、類音や反切に用いる文字を対象とする音注を説明するいはこの英訳は適切でない。 英語の用語が必要な場合には、“annotated headword or character”を用いることとする。

「又」の扱い

二種類以上の音注を示す場合に、「又」が用いられることがある。

たとえば「蛇」に「音陁 又食車反 又羊支反」と三つの音注が施されている。 「蛇」は広韻に 「弋支切」(平声支韻、移)、 「託何切」(平声歌韻、佗)、 「食遮切」(平声麻韻)。 の三音が記載されている。名義抄の音注と広韻の音注との対応は次のようである。

名義抄 広韻
音陁 託何切(平声歌韻、佗)
又食車反 食遮切(平声麻韻)
又羊支反 弋支切(平声支韻、移)

「上」「下」の場合は、入力データの構造により、被注字(単字_見出し)は 明示的に示されているので、省略できた。

「又」は、その情報を入力するのに相応しいカラムがない。 そこで、「又」はそのまま残して記載することとする。

「二音」の扱い

単字の音注

二つの類音注を同時に示す形式に「△▲二音」がある。

これを「△」と「▲」とに分けて二つのレコードに 記載することが考えられる。

「△▲二音」の形式をどのように分けるか、いくつかの案が考えられる。

  1. 「△」と「▲」
  2. 「△(音)」と「▲(音)」
  3. 「△(二音)」と「▲(二音)」
  4. 「△…二音」と「…▲二音」

1案が優れるが、類音注が一つの場合の「△音」との整合性に欠ける。
2案は「二音」であることを明示できない。
3案は、類音注が一つなのに「二音」を残す点が分かりにくい。
4案は、この中では比較的分かりやすい。

最終的には1案としたいが、現在のところでは、「△▲二音」のまま 残し、他の形式との整合性などを勘案して、最終的な結論を出すこととする。

二字漢語の音注

二字漢語の上字の音と下字の音を「二音」を付けて 表示する例は多い。
たとえば、「珊瑚」に「刪胡二音」とある例である。

これも単字の音注「二音」がある場合と同様のことが問題となるが、 現時点ではそのまま記載しておくこととする。

「二反」の扱い

単字の音注

二つの反切を同時に示す形式に「△△▲▲二反」がある。 これを「△△」と「▲▲」とに分けて二つのレコードに 記載することが考えられる。

「△△▲▲二反」の形式をどのように分けるか、いくつかの案が考えられる。

  1. 「△△」と「▲▲」
  2. 「△△(反)」と「▲▲(反)」
  3. 「△△(二反)」と「▲▲(二反)」
  4. 「△△……二反」と「…▲▲二反」

1案が優れるが、反切一つの場合の「△△反」との整合性に欠ける。
2案は「二反」であることを明示できない。
3案は、反切が一つなのに「二反」を残す点が分かりにくい。
4案は、この中では比較的分かりやすい。

最終的には1案としたいが、現在のところでは、「△△▲▲二反」のまま 残し、他の形式との整合性などを勘案して、最終的な結論を出すこととする。

二字漢語の音注

例はほとんどないが、二字漢語の上字の音と下字の音を「二切」を付けて 表示することがある。
「抖擻」に「多口思口二切」とある例がそれである。 これは宋本玉篇に「上:多口切。下:思口切。抖擻起物也」とあるのに 依拠したかと考えられる。

「和音」などの冠称の扱い

「冠称」というのはあまり一般的な用語ではない。

日本の古い文献では、漢字の音訓を示すときに「和音」「呉音」を冠したり、訓読みを示すときに「倭言」「訓」などを冠したりすることがある。 たとえば、「佛」に「和音部ツ」、「此間」に「倭言擧去(ココ)」とするような例である。 こうした「漢字の発音や読み方を示す際のマーカー」あるいは 「漢字の読み方を特定するための、前付けのマーカー」を言い表す用語としては、 「音訓マーカー」「音訓標識」「読法表示」などが考えられる。

「音訓マーカー」と「音訓標識」の二つは 「音読み・訓読みの区別を明示するためのマーカー」という意味で用いることができる。

「音訓マーカー」と「音訓標識」とでは「音訓標識」が好みだが、 語学研究では「マーカー」を使うことが多いので、妥協して 「音訓マーカー」を使うことにする。 英語の用語としては on/kun reading markersとする。

「読法表示」は「文字の読み方(読法)に関する注釈や説明」の意味で、 自立語の音読み・訓読みだけでなく、助詞・助動詞なども含めた広い意味を持つ。 英語の用語としては reading glossesとする。

次は英語(ChatGPTによる)の用語定義文である。

In this paper, the term on/kun reading markers refers to labels indicating whether a kanji reading is of the on (Sino-Japanese) or kun (native Japanese) type.
The term reading glosses refers to annotations or explanatory notes that indicate how a character or phrase should be read.

話が横道にそれた。

たとえば「僧」に「和音ソウ(LL-N)」とある場合、この「和音」を残すかどうかという問題である。

これは音の種類を明示するマーカーであるから、記載するだけの意味はあるので、 残すことにする。

残すのが適切と判断される音訓マーカーを記録しておこう。

典拠表示の書名・人名

音注の前に典拠となる書名や人名が記載されることがあり、 《》を付して翻刻している。

  • 仮名注: 該当例なし
  • 反切: 《玉ー》《魴》《道宣》《大日經疏》
  • 類音注: 《漢書》《尒疋》《字指》《説文》《玉ー》《説文》
  • その他: 《廣韻》

これらは参考のために残すこととする。

仮名注に使われる漢字の扱い

濁音、拗音を表すのに用いられる

  • 佛 和音部ツ

鼻音を表す符号の扱い

その他、問題となる例の扱い

各種の形式の音注の併記

「和見又去コン」の場合

たとえば「健」に「渠建(R)反 … 和見又去コン」と見える。 まず「渠建(R)反」と「和見又去コン」の二つの音注に分ける点は問題ない。

「和見又去コン」はいくつかの記載方法が考えられる。

  1. 「和見又去コン」の1種にまとめて記載
  2. 「和見又去」と「コン」の2種に分けて記載
  3. 「和見」と「又去コン」の2種に分けて記載
  4. 「和見」と「又去」と「コン」の3種に分けて記載

このうち、3は仮名注「コン」が「又去」だけに関係するように とれるので、採用できない。 とすれば、1、2、4のいずれかとなる。

ポイントとしては仮名注「コン」の注記対象が掲出字「健」であることを 示す点である。2、4のようにしてしまうと、 掲出字と音注との関連がたどりにくい。 これは1のように1種にまとめるのがよいようである。

この例は高山寺本に「又音見コン」とあって本文異同のある箇所である。 西念寺本は観智院本と同内容である。データベースへの記載方法としては あまり問題にならないと判断される。

**「音測(S)「シキ(L_)」」の場合**

「測」に「音測(S)「シキ(L_)」」の音注が見える。 仮名注「シキ」にさらに声点を施している。

精査していないが例はそれほど多くないと見られる。次のように記載することとした。

no 注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
1 F17762_01 F17762_01 音測
2 F17762_01b F17762_01 シキ(平*)