地図よもやま話
第23話 アドレスマッチング(続)
| 毎日暑いなぁ、まったく死にそうだぜ。神は我々に試練を与えたもうたか。 | |
| そんな大げさな・・ | |
| さて、ではアドレスマッチングの続きの話を与えたもいましょう。 | |
| お、お、おまえは鬼かぁ。 | |
| そんな大げさな・・ | |
| アドレスマッチングが難しい理由として前回日本の住所体系のややこしさを挙げましたが、次の理由として日本語そのものの難しさがあります。 | |
| あん? | |
| 例えば、英語は文章も住所の表記もword毎に区切られていますよね。でも、日本語は区切られてないですよね。だから、「すもももももももものうち」なんて言われるとどこが区切りが分からなくて苦労します。同様に住所も区切りなくつながってますからどこが区切りかわかりにくい。 | |
| 都道府県や市区町村で区切れるじゃん。住所にそういう県とか市とかいう文字が出てくれば区切ればいいじゃんか。 | |
| でも、例えば四日市という市がありますが、「市」という文字が出てきたら区切るという話だと、四日という市になってしまいます。 | |
| 四日市は四日市市やんけ。 | |
| それは課長が常識人で、四日市という市があることを常識として知っているからですよ。 | |
| 課長が常識人というのは疑問が残るが・・・ | |
| では、市が二つ重なる時は後ろの「市」で区切るというルールにしたらどうだ。 | |
| でも、大阪に河内長野という市があってそこに市町という地名があります。続けて書くと河内長野市市町となって、後ろの「市」で区切ると間違いになってしまいます。他にも、廿日市町とか原町市とか混乱しそうなのがあります。 | |
| よくそんなん見つけてくるな。 | |
| 別に好きで見つけてるわけじゃないですよ。 | |
| そうだ!英語みたいに住所の区切りの所で分かち書きしてもらえばいいじゃん。 | |
| でも、既に自治体や企業に大量の住所データが蓄積されているわけで、それを今さら分かち書きするのは大変ですよ。 | |
| そうか。分かち馬鹿よねーーーー。お馬鹿さんよねーーーー。 | |
| ???? | |
| 昔、そういう歌があったんだよ。もちろん「分かち」じゃなくて「私」だけど。 | |
| 和菓子と洋菓子はどちらが馬鹿か知ってるか? | |
| ???? | |
| 察しが悪いなぁ。和菓子馬鹿よねーーーー。 | |
| しかし、だいたい都道府県、市区町村、町丁目、地番、号番という順番で来るんだからなんとかなりそうなもんだがなぁ。 | |
| いぇ。それがそうでもないんです。 | |
| はぁ? | |
| 例えば、龍ヶ崎市役所は、龍ヶ崎市3710番地にあります。 | |
| へ?普通、大字○○とか間に入るよな。なんでそんな事になるねん。 | |
| まあ、地名というのはそんな機械的、規則的に決まるものじゃないということですよ。逆にそれが地名の良さでもあると思います。 | |
| ふむ。 なかなかいいこと言うやんけ。そういえば、京都の地名なんてなかなかいいよね。 | |
| そうですね。でも、京都はまた難しいんですよ。 | |
| え?何が? | |
| 京都は、たとえば、烏丸通り七条下ルなんていう住所表記をしますよね。 | |
| いいねぇ、風情があるよね、こういう表記は。それに京都を知っている人なら、だいたいこの辺だとすぐに見当がつくぞ。 | |
| そうなんですけど、アドレスマッチングは建物まで特定したいので下ルでは分からないんですよね。そもそも、通常の住所体系は土地に対してつけられていますが、京都の表記は通りをベースにした表記で発想がちがうんです。 | |
| う〜ん。頭が痛くなってきた。 | |
| まだ問題があるんですけど。 | |
| ええっ。 | |
| そもそもアドレスマッチングは例えば、企業の顧客DBの住所から座標を求める処理なのですが、大もとの住所データが正しく記入されているかどうかが問題なんです。 | |
| 住所ってそんなに間違うものなのか? | |
| 私は以前に1/500の地図から1/5000の地図を合成して作る研究をしていたのですが、その時に地図上に同じ住所表記が複数ある時は、一つだけ残して他は消すという処理をやってました。で、霞ヶ関のあたりの合成結果を見ると消されずに複数残っている表記がある。 | |
| なんで? | |
| で、原因を調べてみると、霞ヶ関が、「霞ケ関」、「霞ケ関」、「霞が関」という風にバラバラに表記されていて、同じものという認識が出来なかったのです。 | |
| う〜ん。入力時に正しい入力をしないといけないということだな。もしかして、1丁目7番11号を1-7-11なんて入力するとまずいのか? | |
| それは最近は認識できるようになりました。でも、特に顧客DBなどは、顧客が記入したデータをそのまま入力することが多いので、表記が正しくないことはおおいにありえます。 | |
| お客さんだって、そんなこと気にせずに記入するよなぁ。 | |
| それに、市区町村の合併などがあった時に、住所データが変更されず前のままになっていたりするとやっぱりまずいですよね。 | |
| がーーーーん。 ああ、もう疲れた。聞きたくない。 | |
| 課長!へこたれないで下さい。 | |
| なにぃ?課長、屁をタレないで下さいだとぉ。失礼な。 | |
| もおーーー。お下品ですね。 | |
| だって、そう聞こえたんだもん。 | |
| しかし、一字違うだけでとんでもなく意味が変わってしまうんですねぇ。すごいですねぇ。 | |
| 何を感心してんねん。 |
Copyright(C) 2004 IRI-Ubiteq Inc. All Rights Reserved.









