マスタ・エンティティ

2020-10-28 / 最終更新日時 : 2021-02-08 pharma-it マスタ・エンティティ

異体字と外字と文字コード

文字コードは本当に難しいですね。

施設にしても、医療従事者にしても、施設名や医療従事者の氏名には、旧字、異体字、そして外字があります。

広田と廣田、国本と國本、斎藤、齋藤、斉藤、齊藤、高橋、髙橋‥等

これらについて、システム上の考慮が必要です。
問題は2つあります。

1.異体字の名寄せ問題
2.外字問題

です。

1. 異体字の名寄せ問題

これは、医師検索や病院検索などの機能にかかわります。

例えば、斎藤、齋藤、斉藤、齊藤を使い分けて検索しないといけないとなると、あまりにも不親切ですから、どの字で検索しても、検索結果としてはすべてを網羅して表示する必要があります。

ここで、どこまで寄せる必要があるかという問題が生じます。
國本で検索したら国本も表示すべきでしょうか?

旧字と新字

wikipediaによると、新字体は「第二次世界大戦後に内閣が告示した漢字表に示された漢字の字体のうち、字体整理により従来の活字の習慣と異なる形となった簡易字体を指す。」って出ています。難しいですね。

「國」⇒「国」、「萬」⇒「万」、「瀧」⇒「滝」、「佛」⇒「仏」などが「旧字」⇒「新字」の例です。

国本と検索されても、國本と検索されても、国本と國本の両方のデータを表示することになります。

異体字と正字

新字旧字というのは異体字の一種と考えればいいと思います。異体字-正字は、新字-旧字を含むより広い概念の様です。

例えば、「船」と「舩」や、「峰」「峯」です。
これらは新字旧字の関係にはありませんが、「舩」と「船」は「異体字」です。

この2文字を検索時に同じにしてしまってよいのかという違和感も若干ありますが、最近の検索エンジンは間違ってタイプしたものまで気を効かせてくれますから、広い方がいいのかも知れません。

異体字でもないが似ている字など

真っ先に出て来るのは、「斉藤さん」です。

「齊」⇒「斉」、「齋」⇒「斎」・・・これはそれぞれ、旧字⇒新字の関係にあります。
一方で、「斉」と「斎」、「齊」と「齋」は新字旧字の関係ではありませんし、異体字正字の関係でもありません。「斉」と「斎」は別の字なのです。

しかし、検索する利用者は、「斎藤」「齋藤」「斉藤」「齊藤」のいずれを入力しても、「斎藤」「齋藤」「斉藤」「齊藤」のすべてが表示されるものと期待しているでしょう。

後述しますが、「厚生労働省の医師等資格確認検索」でも、
「斎」「齋」「斉」「齊」は異体字とされています。

しかし、斉藤さんシリーズはこの4文字だけではありません。人名用漢字外の「齎」などもっとたくさんあります。どこまでカバーすればよいのか・・・。

実装は変換表

新字旧字だろうが、正字異体字だろうが、異体字ではないけど一般にそう認識されている字であろうと、そのこと自体は実装する上で、あまり重要ではありません。

実装方法としては、変換表を持つという事になります。

2. 外字問題

外字を使用しているかどうかはシステムによって異なると思います。
今は大々的に外字を使用する事は少ないのではないでしょうか。プリンターやパソコンの維持管理が大変になりますし、自社内で登録しても、社外とやり取りする際には役に立ちません。

ただ、どうしてもその字の通りでなければならない性質のシステムであれば、そのシステムの中でのみ外字を登録して使用するという事はあるでしょう。

そして、業界標準ともいうべきアルトマークマスターも、医師名や、医療機関名に外字を使用しています。外字の文字コードと対応フォントは提供されますが、この外字に対応するとなると、維持管理の問題が生じます。一方対応しない場合は、その文字は、文字化けしてしまいます。

悩ましいですが、対応としては、以下の3通りが考えられると思います。
1. 外字対応する。
2. 文字化けしたままにする。
3. 既存の文字に変換する。

外字対応する

これは前述のとおり、外字を登録するという事になります。社内の標準プリンターや全社員配布の標準PCに外字を持ち込むことになります。

あるいは、一部の限定されたシステム内でのみ外字対応するというのが現実的ではないでしょうか。

文字化けしたままにする

これは、もっとも安易な方法です。要は何もしないという事です。そのデータは直接の狙い撃ちとしては検索することは出来ません。

検索結果としては、「〓」「・」「?」などと表示されます。

そもそも、レアなケースですから、これでもいいかも知れません。

既存の文字に変換する

文字コードと字体は提供されますから、外字一覧を眺めて、既存の文字コードに変換するという方法です。

国語的な意味として正しいかどうかは別問題になりますが、既存の字とちょっとだけ違う字は寄せてしまうという考え方です。

ただし、『いやいや、こんな字見たことないですよ』という字もありますから、この方法もすべてをカバーすることは出来ません。

Shift-JISとUnicode

最近の新しいシステムはUnicodeが採用されているケースが多いのではないかと思いますが、他システムや過去とのしがらみで、Shift-JISのシステムはまだまだたくさんあると思います。

結局、外字問題は、程度の問題でもあり、Unicodeだったとしても表現できない字はあります。ただし、この『程度の違い』というのはとても大事で、Unicodeを使えば大分改善されるという事になります。

厚労省　医師等資格確認検索

厚生労働省が公開している、「医師等資格確認検索」というサービスがあります。

医師等の氏名を入力することで存在と登録年が分かるサービスですが、ここに、異体字の読み替え表が載っています。

参考リンク
厚生労働省　医師等資格確認検索

( 2020.10.28 )

カテゴリー: マスタ・エンティティ

タグ: マスタ・エンティティ

コメントを残すコメントをキャンセル

DB&SQL

2020-11-03

DB&SQL

2020-10-26

異体字と外字と文字コード