DHSJRとの連携

DHSJRとの連携 (Collaboration with DHSJR)

DHSJRとは

DHSJRとは「資料横断的な漢字音・漢語音データベース」の 英語名"Database of Historical Sino-Japanese Readings” に基づく略称である。DHSJRのプロジェクトは、 早稲田大学の加藤大鶴氏がリーダーとなって推進しており、 https://dhsjr.w.waseda.jp/ で構築した全データが公開されている。

以下、DHSJRの用例は、2024年5月29日公開のバージョンによる。

このデータベースの目的は、次のように記されている。

本データベース(略称:DHSJR)は、平安・鎌倉期~現代までの文献資料に現われる漢字音・漢語音を、字音注記(仮名注、声点、反切、類音注、節博士等)に即して検索可能とするものです。

DHSJR構築の背景としては、これまで、個別具体的資料に基づく高度な漢字音史研究の成果があったが、 多様な研究成果を横断的に見直して俯瞰的な視点から整理して新たな研究領域を見出そうとする プロジェクトである。

日本漢字音史の資料の多様性は、次の三点にあり、この観点を踏まえたDBの設計を行ったとされる。

  1. 漢文直読・訓読資料、和化漢文資料、和文資料など文献資料の位相差による漢字音・漢語音の位相的多様性
  2. 単漢字単位と漢字連接単位という異なる単位における字音の単位的多様性
  3. 中国語原音およびそれを受容した日本語社会における平安・鎌倉期から近世期〜現代までの字音・漢語音韻史の通史的多様性

2024年5月29日現在、56文献、約27万2千300字(延字数)を格納しているとのことである。

中国音韻史研究においては、切韻系韻書に基づく中国中古音の再構がなされており、 論者により用語や再構の音価に相違があるとは言え、広韻と韻鏡という共通の基準があり、 その枠組はほぼ確立していると言える。

日本国内では、鈴木慎吾氏の篇韻データベース(PYDB) がよく知られているが、これには、 上古音、切韻・廣韻・中古音、玉篇のデータベースが公開されている。切韻・廣韻・中古音には次の三つが収録されており、 内容の正確性、検索閲覧の利便性に優れている。

これに対して日本漢字音史においては、研究者により整理方法がまちまちであり、なかなか手を付けるのが 難しい分野である。 こうした状況を打開するプロジェクトとしてDHSJRは画期的である。

20年ほど前に湯沢質幸氏を代表者とする科学研究費基盤研究(B) 「日本漢字音データベース(大字音表)作成のための基礎的研究」が あって、「日本漢字音研究者の研究上の便宜を図るためのソフトの開発」がなされたというが、 現在、そのソフトを利用する情報は容易に見つからない。 また、「将来における日本漢字音データベース(大字音表)の完成を目指して国内外の漢字音資料の調査を行い」と 見えるので、日本漢字音データベース(大字音表)が構築されたことが分かる。 しかし、現在、日本漢字音データベース(大字音表)のデータは、公開されていないようである。

湯沢質幸氏らによる大字音表のプロジェクトは、2001年度から2004年度まで行われているが、 この時期のコンピュータの環境を振り返ってみると、UnicodeのCJK統合漢字がやっと 使えるようになった時期である。技術的な制約のある時期のプロジェクトとして画期的であったが、 現在のコンピュータの環境にあった漢字音のデータが求められる。

ところで、名義抄のデータベース化は、 田島毓堂氏を代表とする科学研究費総合研究(A) 「類聚名義抄の注釈的研究ー電算機利用によるー」 があった。研究期間は、1988年度から1989年度まである。 このプロジェクトは、JIS漢字約6,000字しか利用できない環境でなされたものであり、極めて先駆的な研究であった。 このデータベースは、蓮成院本類聚名義抄を底本として、データベース化と読解作業を行ったものであるが、 構築したデータベースは公開されなかったようである。

DHSJR収録の辞書音義

DHSJRの文献資料一覧を見ると、2024年5月29日公開のバージョンには 辞書音義としては、次の5点が収録されている。

  • 20-043-01「金光明最勝王経音義」大東急記念文庫蔵
  • 20-044-01「法華経音」九条家蔵
  • 30-017-01「色葉字類抄」前田育徳会尊経閣文庫蔵
  • 40-045-01「法華経音訓」東洋文庫蔵、心空版
  • 50-029-01「浄土三部経音義」龍谷大学図書館蔵

名義抄は未収録となっている。名義抄は日本漢字音史研究の重要資料であり、 これを追加することが期待される。

名義抄の全文テキストデータは、KRM.tsvとして公開しており、 注文に分解したデータもKRM_definitions.tsvとして公開している。 KRM_definitions.tsvから音注を抜き出して、DHSJRのフォーマットに揃える 必要がある。

以下、KRM_definitions.tsvをKRMと表記して説明することがある。

DHSJRのデータ列の構成

データ列の構成は次のようになっており、 23の項目(列)を設定している。

KRMと対応をとることができそうな項目、問題なさそうな項目は太字としておく。

  • ID:単字ごとのユニークID(統合データのみ)
  • 資料番号:資料ID
  • 資料名
  • 資料内漢字番号:漢字の資料内出現順の通し番号
  • 資料内漢語番号:漢語の資料内出現順の通し番号
  • 単字_見出し:音注が付された漢字の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。(「見出し」列の正規化に関する注意事項)
  • 単字_出現形:音注が付された漢字。原則的に入力者の表記方針による。助詞、音合符などが表記される場合もある。
  • 漢語_見出し:音注が付された漢字を含む漢語の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。 (「見出し」列の正規化に関する注意事項)
  • 漢語_出現形:音注が付された漢字を含む漢語。単字_出現形に同じ。
  • 漢語_alphabet:欧文による漢語の表記がある場合に入力されている
  • 語種:混種語がある場合に、語種を示す。ただし入力者によって対応はまちまちである。
  • 漢語内位置:漢語内での単字の位置。例えば1文字目ならば”1”。
  • 単字長:単字の拍数(この項目はほとんど入力できていない。今後の検討課題である)
  • 声点:単字に対する四声(平上去入)、六声(平平軽上去入軽入)及び清濁
  • 声点型:漢語に対する声点の組合せ。声点がない単字については*で表す。
  • 仮名注:仮名表記による字音注(仮名反切を含む)
  • 仮名型:漢語に対する仮名注の組合せ。仮名注がない単字については*で表す。
  • 反切:単字に対する反切注
  • 類音:単字に対する類音注
  • 節博士:声明等音楽資料に付される博士譜など
  • その他:その他の音注
  • 出現位置:資料内の単字・漢語の所在
  • 備考:注記すべき事柄

次にDHSJR収録の色葉字類抄の例を示す。 資料番号(30-017-01)と資料名(色葉字類抄_尊経閣文庫_三巻本)は字数が多く、表が見づらくなるので、省略する。

ID 資料内漢字番号 資料内漢語番号 単字_見出し 単字_出現形 漢語_見出し 漢語_出現形 漢語_alphabet 語種 漢語内位置 単字長 声点 声点型 仮名注 仮名型 反切 類音 節博士 その他 出現位置 備考
30-017-01-000001 1 1 且千 且千 1 シヤ シヤ* 1/001b/3
30-017-01-000002 2 2 1 ライ ライ イカツチ 又作\PMO{042518} 1/002a/3
30-017-01-000003 3 3 雷公 雷公 1 平平 ライ ライコウ 1/002a/3

DHSJRとの対応策

DHSJRのデータ列の構成に示された23の項目の順に、 KRMのデータの対応方法、加工方法を検討する。

ID

IDは単字ごとのユニークID(統合データのみ)とされる。 公開された統合データを見ると資料番号(資料ID)に資料内漢字番号を加えたものとなっている。

先に例示した色葉字類抄の例で言うと、 IDは30-017-01-000001であるが、30-017-01が資料番号(資料ID)、000001が資料内漢字番号に一致しており、 両者をハイフン(-)で繋いでいる。

資料番号(資料ID)はDHSJR側が設定するものなので、HDICのKRMデータは資料内漢字番号を用意すればよい。

資料番号

資料ID

資料番号(資料ID)はDHSJR側が設定する。30-017-01のように三つの要素をハイフン(-)で繋いでいる。 一定のルールがあるようだが、最初の30は年代・時代、次の017は資料、最後の01は写本・版本の種類を示すようである。

名義抄は、原撰本系に図書寮本があり、改編本系に観智院本、高山寺本、蓮成院本、西念寺本、宝菩提院本がある。

たとえば、次のようになるであろう。未定のものはxxxまたはxxxyとした。

  • 原撰本系

    • 図書寮本 30-xxx-01
  • 改編本系

    • 観智院本 30-xxy-01
    • 高山寺本 30-xxy-02
    • 蓮成院本 30-xxy-03
    • 西念寺本 30-xxy-04
    • 宝菩提院本 30-xxy-05

資料名

DHSJRの色葉字類抄は「色葉字類抄_尊経閣文庫_三巻本」となっており、 これにならえば、「類聚名義抄_天理図書館_観智院本」となる。

前述のIDに追記すれば次のようになる。

  • 原撰本系

    • 図書寮本 30-xxx-01 類聚名義抄_宮内庁書陵部_図書寮本
  • 改編本系

    • 観智院本 30-xxy-01 類聚名義抄_天理図書館_観智院本
    • 高山寺本 30-xxy-02 三宝類字集_天理図書館_高山寺本
    • 蓮成院本 30-xxy-03 三宝類聚名義抄_鎮国守国神社_蓮成院本
    • 西念寺本 30-xxy-04 類聚名義抄_天理図書館_西念寺本
    • 宝菩提院本 30-xxy-05 類聚名義抄_東寺宝菩提院_宝菩提院本

(追記2025/2/18) DHSJR代表者の加藤大鶴氏に問い合わせたところ、 048以降が空いているとのことなので、この番号を予約させていただいた。 また、原撰本系と改編本系のように諸本を分類して番号を与えることは していないとのことなので、以下の案を出しておく。

  • 図書寮本 30-048-01 類聚名義抄_宮内庁書陵部_図書寮本
  • 観智院本 30-048-02 類聚名義抄_天理図書館_観智院本
  • 高山寺本 30-048-03 三宝類字集_天理図書館_高山寺本
  • 蓮成院本 30-048-04 三宝類聚名義抄_鎮国守国神社_蓮成院本
  • 西念寺本 30-048-05 類聚名義抄_天理図書館_西念寺本
  • 宝菩提院本 30-048-06 類聚名義抄_東寺宝菩提院_宝菩提院本

(追記はここまで)

資料内漢字番号

漢字の資料内出現順の通し番号

KRMでは機械的に処理することが可能である。

資料内漢語番号

漢語の資料内出現順の通し番号

KRMでは機械的に処理することが可能である。

単字_見出し

音注が付された漢字の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。(「見出し」列の正規化に関する注意事項)

名義抄が単字の見出しの場合、約24,000の音注付き見出しのうち、約18,000はそのまま転記すればよい。 残る約6,000字は、異体字か、熟語であり、個別の対応が必要となる。

異体字が併記されるのは約3,700である。 たとえば、「靜/静」、「卝/丱」のような場合は、康熙字典体があればそれを採用すればよい。

「靜/静」は「靜」を採用する。

「卝/丱」は注に「今正」とあるので、「正」に対応する「丱」 を採用すればよさそうであるが、「卝」は広韻「呼䁝切」(上声梗韻)、 「丱」は「古患切」(去声諫韻)と別字である。名義抄の音注は「古患」「音慣(R)」とあって 「丱」に対応する。名義抄は「卝/丱」の次の項目「卝」に「礦字」とあり、 「呼䁝切」(上声梗韻)に対応している。 「卝」は「丱」に通用して用いられることがあるので、「今正」のような字体注が施されたと 考えられる。

異体字併記の約3,700は個別に判断して行くことが必要になるが、ある程度は機械的な処理ができそうである。

「⿰黄王/黈」のように、IDSで表現した漢字と、Unicodeで符号位置が割り当てられている場合は、 Unicodeの漢字を採用すればよい。

「⿺更与/⿺更與」のように、IDSで表現した漢字だけの場合は、どちらかを採用することになる。 この手のものは、諸字書に見えない僻字であり、龍龕手鏡のような字書との比較には 役立つが、日本漢字音史研究にはほとんど役に立たない。どちらをとっても大過ないものと考えられる。

現在のDHSJRには、異なり字数6,487字、延べ字数164,913字が収録されている。

単字_出現形

音注が付された漢字。原則的に入力者の表記方針による。助詞、音合符などが表記される場合もある。

これはほとんどの場合、「単字_見出し」をそのまま転記するのでよいと思われる。

しかし、異体字の扱いが問題となる場合がある。

これは、名義抄で異体字を併記する項目(異体字項目)の場合と二字以上の漢語からなる項目(熟語項目)に異体字が用いられる場合が問題となる。

たとえば、「磺/礦」に反切「古猛反」と仮名注「和火ウ」が見える。 「磺」と「礦」とは異体字の関係であるが、名義抄に字体注記はなく、いずれが「正」であるか 判断できない。広韻を見ると「礦」を収録しているが、「磺」を収録していない。そこで 「単字_見出し」を「礦」とすることができる。 DHSJRは漢字音研究のためのデータなので、広韻にあれば、その見出しを採用するのが適切である。

そこまではよいが、「単字_出現形」はどうするか。

これは、「単字_見出し」と同じ内容を記載するやり方と、異体字併記の内容をそのまま記載するやり方とが 考えられる。

「単字_見出し」が決定しているのであれば、単字_出現形をこれと同じ内容にするのは簡単である。

「出現形」の部分に拘るなら、異体字併記としておくのがよいが、そうすると次の「漢語_見出し」 の扱いが面倒になる。形式から異体字併記なのか、熟語なのか、両者の区別がつかない。 DHSJRは漢語の研究に資することを必要なので、異体字に関する情報は割愛して、 異体字併記の項目は、代表とする字のみを記載するのがよさそうである。 異体字に関する情報は、必要に応じて「備考」に記載することにする。

さらに、「単字_出現形」に誤写あるいは異体字の通用が疑われる場合がある。これは元の字形を「単字_出現形」に、 校訂した字形を「単字_見出し」とすることで対応する。 たとえば、「⿰火句」は音注「許于反」とあるが、広韻にない。 これは龍龕手鏡(巻2火部平声)に「㶷:俗許于反」とあることから、 名義抄の「⿰火句」は「㶷」の同字または誤写が疑われるものである。

異体字が別項目に記載され、「正」の字形には音注がないが、「正」のない字形に音注が加えられる場合がある。 たとえば「⿱⿰号乕土」に「音浩」とあるが、次の項目「㙱」に「正」の注記がある場合である。 これは「単字_見出し」を「㙱」、「単字_出現形」を「⿱⿰号乕土」とする。

次は熟語項目の場合である。

たとえば、「侏/𪝥」の見出しの「𪝥」は康熙字典体「儒」であるので、 「単字_見出し」を「儒」、単字_出現形を「𪝥」としてもよい。 後述の「漢語_見出し」は「侏儒」、漢語_出現形は「侏𪝥」となる。

日本漢字音史研究の資料としては、恐らくどちらでもよいであろうが、 入力方針としては、「単字_見出し」は康熙字典体かそれに近いもの、 単字_出現形は原文の字形がUnicodeにあればそれを採用することとし、 Unicodeにないものは、IDSにより表現することにしよう。

漢語_見出し

音注が付された漢字を含む漢語の見出し列。JIS漢字第2水準の範囲内の字体は康熙字典体に正規化。 (「見出し」列の正規化に関する注意事項)

「単字_見出し」と同じ入力方針とする。

漢語_出現形

音注が付された漢字を含む漢語。単字_出現形に同じ。

「単字_出現形」と同じ入力方針とする。

漢語_alphabet

欧文による漢語の表記がある場合に入力されている

DHSJRでは、和英語林集成第三版のローマ字が入力されている。

語種

混種語がある場合に、語種を示す。ただし入力者によって対応はまちまちである。

DHSJRでは西方指南抄_専修寺が3例、和英語林集成第三版が255例見えた。説明のとおり、すべて混種語である。

漢語内位置

漢語内での単字の位置。例えば1文字目ならば”1”。

「単字_出現形」で例に挙げた「侏/𪝥」の音注の情報は、KRMで次のように記述されている。

KRID_no KR2ID Entry Def Def_code Def_name Word_form JK_URL Remarks
F00661_01 K0102842 侏/𪝥 音朱(L)𣽈 215 音注声点有_類音注等

Defの欄に記載した音注には「音朱(L)𣽈」とあり、これは 「侏」の類音注が「朱」、「𪝥」の類音注が「𣽈」であって、「朱」には平声(L)の声点が加えられている。 これをDHSJRの形式で書き換えてみると次のようになる。 「単字_見出し」から「類音」までの範囲で示す。「漢語_alphabet」は略す。

単字_見出し 単字_出現形 漢語_見出し 漢語_出現形 語種 漢語内位置 単字長 声点 声点型 仮名注 仮名型 反切 類音
侏儒 侏𪝥 1 平* 音朱(L)𣽈
𪝥 侏儒 侏𪝥 2 平* 音朱(L)𣽈

KRM_definitions.tsvは1行であるが、二字漢語(熟語)の上字と下字に音注が施されている場合、 DHSJR形式では2行とする必要がある。

さらに、「漢語内位置」について、 「侏」は1、「儒」は2をそれぞれ新たに追記する必要がある。

「声点」と「声点型」は原文「音朱(L)𣽈」の内容から、上記のようになると思われる。 声点が施されていない場合、全角の*を用いるようなので、それに合わせてみた。

「類音」について、原文「音朱(L)𣽈」とあるものを「音朱(L)」と「𣽈」とに分けて 記載する方式と、「音朱(L)𣽈」を漢語に対する音注と見てそのまま記載する方式が ある。 DHSJRに収録の色葉字類抄で類似の例を探してみると次のようになっている。「漢語_alphabet」は略す。

単字_見出し 単字_出現形 漢語_見出し 漢語_出現形 語種 漢語内位置 単字長 声点 声点型 仮名注 仮名型 反切 類音 節博士 その他
黏臍 黏臍 1 平濁 平濁去 テム テムセイ 添齊二音 添齊二音
黏臍 黏臍 2 平濁去 セイ テムセイ 添齊二音 添齊二音

これは二字漢語「黏臍」の例であるが、 「類音」の欄は「添齊二音」を記載している。 同じ内容を「その他」の欄にも記載しているのは、類音注の形式が通常と異なると判断したためであろうか。

単字長

単字の拍数(この項目はほとんど入力できていない。今後の検討課題である)

「ほとんど入力できていない」とのことであるが、DHSJR収録の18文献に記載が認められる。

資料番号 資料名 例数
20-001-01 大般若波羅蜜多経_根津美術館 13899
30-010-01 阿弥陀経_西本願寺 2906
30-012-01 群書治要_金沢文庫_経部 3802
30-015-01 浄土三経往生文類_西本願寺 535
30-019-01 一念多念文意_東本願寺 1764
30-020-01 尊号眞像銘文_法雲寺_略本 2471
30-020-02 尊号眞像銘文_専修寺_広本 4644
30-021-01 西方指南抄_専修寺 20090
30-022-01 唯信鈔文意_専修寺_正月十一日本 1836
30-022-02 唯信鈔文意_専修寺_正月二十七日本 1963
30-023-01 唯信鈔_専修寺_平仮名本 46
30-023-02 唯信抄_西本願寺 1571
30-023-03 唯信鈔_專修寺 1881
30-039-03 魚山六巻帖九方便 359
30-040-01 専修大学図書館本和漢朗詠集 4089
30-040-02 岩瀬文庫蔵延慶二年識語本和漢朗詠集 738
40-045-01 東洋文庫本法華経音訓 2206
70-042-01 和英語林集成第三版 26669

KRMに「単字長」に関する情報はないので、 当面、空欄としておく。

声点

単字に対する四声(平上去入)、六声(平平軽上去入軽入)及び清濁

KRMでは、ローマ字により次のように示している。

記号 内容
L
平軽 F
H
R
T
入軽 S
"

これをDHSJRの形式に変換する必要がある。

声点型

漢語に対する声点の組合せ。声点がない単字については*で表す。

KRMでは声点がない単字はを@で示しているので、これを*に変換する。

仮名注

仮名表記による字音注(仮名反切を含む)

これは、KRMでいうところの仮名注に該当する。 漢字を用いて拗音を示す「正 和者ウ」「曠 和火ウ」、 濁音を示す「堂 俗云堕ウ」のような例も仮名注とする。

DHSJRにいう「仮名反切」がどのようなものが該当するか、 例を探せなかったが、KRMの処理で問題になることはなさそうである。

仮名型

漢語に対する仮名注の組合せ。仮名注がない単字については*で表す。

*を用いて仮名注がないことを示す点は、変換が必要である。

反切

単字に対する反切注

「◯◯反」「◯◯△△二反」のような反切形式は問題がない。 反切上字や反切下字に仮名注が見えることがある。 たとえば「併」に「蒲鼎(H)「テイ」反」と記載されている。 この「テイ」は反切下字「鼎」に対する音注である。「鼎」には平声の声点も施されている。 「鼎」に平声点があり、仮名注「テイ」があることを別の項目とする必要がある。

しかしこれは別の作業となるので、反切字に対する音注を整理することは後回しとしたい。

「蒲鼎(H)「テイ」反」の例で言えば、DHSJRの「反切」欄に「蒲鼎反」を記載するのは問題ない。 では、「声点」はどうすればよいか。「*上」としておくのがよいであろうか。DHSJRの方針を確認したいところである。

類音

単字に対する類音注

「音◯」「◯音」の形式が大半である、問題は少ない。

二字漢語(熟語)に「二音」をつけて「◯△二音」「二音〇△」の形式となることがある。 たとえば、「鷦鷯」に「焦(L)「セウ」遼(L)「レウ」二音」とあって、「鷦」の類音注「焦」と「鷯」の 類音注「遼」を同時に示している。こうした例の場合、「漢語_見出し」と「漢語_出現形」 は「鷦鷯」となるので、類音注は焦遼二音」とするのがよいであろう。 ただし、仮名注と声点を省くのはひと手間かかるので、当面は「焦(L)「セウ」遼(L)「レウ」二音」の ままに記載しておく。

「音鴛之上声」「魂之去声」のように声調も示すものは、「その他」としておく。

節博士

声明等音楽資料に付される博士譜など

これは該当する例がない。

その他

その他の音注

声調を記す用語「又平」「去声」などが該当する。

「音鴛之上声」「魂之去声」のように声調も示すものも「その他」とする。

出現位置

資料内の単字・漢語の所在

KRMでは、風間書房版により帖数、頁数、行数、段数、字数を示している。 たとえば、K0804311は風間書房版影印本の僧上(8)、43頁、1行、1字目を示す。

帖数は仏上を01、仏中を02、仏下本を03、仏下末を04 法上を05、法中を06、法下を07、僧上を08、僧中を09、僧下を10とする。

頁数は3桁で示し、1頁なら001、55頁なら、120頁なら120とする。

行数は8行まで、段数は4段までである。字数も10字を超えることはない。それぞれ1桁を割り当てる。

備考

注記すべき事柄

音注の出典考証は、広韻等を参照して進捗している。どの程度まで 記載するかは検討の余地がある。

観智院本名義抄(KRM)の音注の種類

(以下、後日修正追加の予定)

名義抄には約24,000の音注がある。これには、反切、類音注、仮名注の3種が主なものであるが、 これらに声点が施される。

反切と類音注は漢字により表記され、仮名注は片仮名により表記される。

音注の形式は複合的であり、反切、類音注、仮名注の3種の組み合わせは次のようになる。

  1. 反切
  2. 反切 + 仮名注
  3. 類音注
  4. 類音注 + 仮名注

さらに声点が施されることがあるから、上の4種は次のように細分される。

  1. 反切
  2. 反切 + 声点
  3. 反切 + 仮名注
  4. 反切 + 声点 + 仮名注
  5. 類音注
  6. 類音注 + 声点
  7. 類音注 + 仮名注
  8. 類音注 + 声点 + 仮名注

反切は、反切上字と反切下字に声点を施すものがある。反切の4種は更に9種に細分される。

  1. 反切
  2. 反切上字 + 声点
  3. 反切下字 + 声点
  4. 反切上字 + 仮名注
  5. 反切下字 + 仮名注
  6. 反切上字 + 声点 + 仮名注
  7. 反切下字 + 声点 + 仮名注
  8. 反切上字 + 声点 + 仮名注
  9. 反切下字 + 声点 + 仮名注

この他に字体注や義注の漢字に声点を付した例がある。字体注に声点を付したのは20例、 義注に声点を付したのは5例、義注の漢字に音注を付したのが10例である。

DHSJRの音注の種類は、次の五つ。

  1. 仮名注
  2. 反切
  3. 類音
  4. 節博士
  5. その他

名義抄に節博士はないので、これは無視できる。

「平」「又去」のような声調の注記は、DHSJRでは「その他」に記載しているので、 それに従う。

また、「和同」「音同上」「呉同」などは、前出の音注に同じことを示す注記であるが、 これらは「その他」に記載することとする。

仮名注、音注、類音、その他の四つについて、エクセルのフィルター機能を使いながら、 目視で整理した結果は次のとおりである。分類は不十分であり、正確な数値ではないが、 大まかな傾向をみるために示してみる。

音注種類 例数
仮名注 2,299
反切 10,016
類音 12,398
その他 483
合計 25,159

反切や類音注に仮名が施されることがあり、これを 仮名注として重複して数えているので、音注約24,000よりも 多くなっている。

類音注の整理

類音注の形式を整理するため、 手始めに声点や仮名注のない形式について検討する。

類音注の種類はおよそ次の4種である。

  1. 類音注
  2. 類音注 + 声点
  3. 類音注 + 仮名注
  4. 類音注 + 声点 + 仮名注

音注の種類の認定に問題あるものを残すが、現時点での 分類により数値を出してみると次のようになる。

類音注の種類 例数 百分率
1. 類音注 9,537 76.9%
2. 類音注 + 声点 2,212 17.8%
3. 類音注 + 仮名注 150 1.2%
4. 類音注 + 声点 + 仮名注 499 4.0%
合計 12,398 100%

DHSJRのデータ構造では、声点、声点型、仮名注、仮名型、反切、類音を設定している。

このデータ構造に記入するのに、1の類音注(のみ)、2の類音注+声点、3の類音注+仮名注は問題が生じない。

しかし、4の 類音注 + 声点 + 仮名注ではいささか具合が悪くなる。ほとんどの場合、声点は類音注に 対してのものであるが、稀に仮名注に対しても声点が施されることがある。

また、声点の欄と類音の欄が離れており、途中に仮名注、反切があり、声点の欄の内容が 類音に対するものとは理解しにくい。

具体例を見てみよう。 たとえば、F00762_01のIDを与えた「優」には「音憂(L)「イウ」」と見える。これを DHSJRのフォーマットで入力しようとするとどうなるか。 次に、HDSJRの 関連部分を取り出して示す。

単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
イウ 音憂

声点は類音の「憂」に施されているが、この形式だと、仮名注「イウ」に施されている ようにも見える。「イウ」は2文字なので、「平*」か「*平」になるはずだから、 仮名注でなく類音に対する声点であるというように理解するのは、少しむずかしいように思う。

二つのレコードを用意して明示的に対応するのが分かりやすい。

単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
音憂
イウ

次にkrm_main.jsonとkrm_notes.jsonとの連携をとるにはどうすればよいか。 「優」にはF00762_01のIDを与えており、krm_main.jsonとkrm_notes.jsonで 名義抄の注文に対するIDに加えて、音注(仮名注、反切、類音)に対するIDを 用意する必要がある。

注文ID 音注ID 単字_見出し 声点 声点型 仮名注 仮名型 反切 類音
F00762_01 音憂
F00762_01 イウ

音武(L-HV)「フ」「ム(H)」

単字_見出しの扱い

異体字併記の場合

異体字を併記する項目は、採用法方法として次の二つが考えられる。

  1. すべてを「単字_見出し」として採用する
  2. 代表の見出しをひとつだけ採用する

たとえば「萍/蓱」は「上通下正 音屏(L) ウキクサ(HH@@) 」とあるが、 「萍」と「蓱」とを「単字_見出し」とする1の方法である。 これだとレコード数が膨大になり、漢字音史研究の資料とする目的から すると、他の日本漢字音資料に例のない漢字ばかりとなり、 有用でない情報を大量に取り込むこととなる。

2は代表の見出しだけをとるもので、たとえば「萍/蓱」の 字体注「上通下正」により「正」とされる「蓱」を「単字_見出し」として採用する方法である。 これに、 字体注がない場合は、広韻にある見出しを優先するという方法を追加する。つまり、次の二つの条件を 勘案して、ひとつだけ採用することとする。

  1. KRMで「正」注記の対象となる見出し
  2. 広韻にある見出し

以上はUnicodeに見出しの漢字がある場合のことであるが、それがない場合は、適宜、 判断してIDS形式のままに記載しておく。

たとえば、「𠾧/嘼/⿳凹⿱甲一口」は注に「或今正」とあるが、「正」の字体はIDSでしか表現できないので、 「今」の字体である「𠾧」か「嘼」が採用の候補である。 「𠾧」は広韻になく、「嘼」は広韻にあるので、後者「嘼」を採用する。

熟語(二字以上の漢語)の場合

その他

名義抄の見出しに声点だけがあるものは、「その他」とする。 KRMでは「◎節(S)」のように記載し、 「節」に入声の声点が施されていることを示す。

音注の点検の意義