「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ①導入編
お久しぶりです。 びょーりです。
突然ですけど、
今の日本で一番多い苗字って何か知ってます?
有名すぎる雑学なので、知ってる人は多いでしょう。
山田悠介氏の「リアル鬼ごっこ」でも知られるように、「佐藤」ですね。
しかし、私は思うわけです。
「佐藤」別に多そうじゃなくね?
近畿在住である僕の身の回りに「佐藤」が少ないから(佐藤は主に東日本、特に東北に集中して分布している)というのもあるんですけど、
たとえば「山田」とか「田中」のほうが、「居そう」じゃないですか?
市役所とかの記入例に「山田太郎」はいても「佐藤太郎」はあんまり居ませんよね。
まあ「田中」は日本で4番目に多い苗字なんで代表っぽいのもまだわかるんですけど、「山田」に至っては12位ですからね。トップテンにも入ってない。
なのに山田は苗字の代表みたいな顔をしている。これはなぜか? ということを考えてみたいわけです。
◇◆◇◆◇
ーここから先のデータは須崎サイト様、写録宝夢巣様、苗字検索net様によるものです。ー
実際の苗字の多さと、我々が「よくある苗字だなあ」または「珍しい苗字だなあ」と感じる要素には乖離があると思うんですよね。極端な例を挙げますと、
「興梠(こうろぎ)」と「阪内(さかうち)」
どっちが多いと思います?
ここで「あ、聞くってことは興梠が多いんだな」って答える人は現代文が得意です。そういう話ではない。
実は、興梠の方が25倍くらいいます。
まあ興梠はその見た目を抜きにしてもかなり多い部類に入る苗字なので(宮崎に集中するので、他の地域ではあまり見られませんが)知ってる人も多いと思うんですけど、もっと言えば、この阪内さん、有名な難読苗字「四月朔日(わたぬき)」と同じくらいしかいないんですよ。日本中に100件以下しかない。
「えっ100件以下!? 1万件くらいありそうなのに!」
ああ、これは僕の感想です。でもそうですよね。みんな似たような感覚を抱くと思うんです。
苗字って、僕は面白がっていろいろ調べたりもしてますけど、特に興味の無い方にとっても非常に身近ですよね。ほとんどの日本人は自分の苗字を持っていますし、大量の苗字と出会っています。だから、なんとなく多そうな苗字とか珍しそうな苗字って感覚は誰しもが持っているし、ある程度は似通っているんじゃないか。そういう気がします。
なんでこういうことが起こるか。
僕たちは何をもって苗字の「ありふれ度」を感じ取っているのか? というと、たぶん基本的には「構成する漢字」だと思うんですよね。あとは読み方。
興梠なんて、「興」も「梠」も苗字に使われてるの見たことない。
対して「阪」や「内」は、しょっちゅう苗字に見かけるわけです。
これが、阪内が興梠よりもありふれていると感じる所以である。そう僕は仮説を立ててみたのです。
じゃあ、しょっちゅう見かける漢字って、どれくらい見かけるんでしょうか?
漢字ごとに、苗字における「ありふれ度」を数字で表してみれば、興梠よりも阪内が高く出るというような、
我々の感覚に沿った「ありふれ度」を表せる指標ができるかもしれません。
◇◆◇◆◇
しかし問題があります。
数学と違って、それぞれの苗字の量には法則がありませんし、そもそも、実際の量なんてわかりません。
国が戸籍を全部把握して苗字の世帯数を発表してくれればいいんですけど、まあそんなことしてくれるわけがありませんから、僕を含む苗字ジャンキーは基本的に電話帳を眺めて集計していくしかありません。そのためのマイナンバー制度じゃないのか。絶対に違う
しかし、最初の部分は、ありがたいことに先人がデータベース化して検索できるようにしてくれています。僕はそれを検索すれば、田中さんが何番目に多い苗字で、日本に何件あるかを知ることができます。インターネット世代。いやマジで高度情報化社会って便利っすよね。マジで。
しかし、「田」が含まれている苗字が何件あるのかまではわかりません。
それはもう、「田中」「太田」「岡田」……と調べては手計算するしかない。
しかも、日本の苗字は十万種類以上あると言われています。全部計算するのも、網羅するのも無理です。第一回から諦める構え。当たり前やろ集計中に輪廻転生してまうわ
しかし、日本の人口の約一割はありふれ苗字トップテンで占められるとも言われていますから、まあ、100位くらいまで調べればある程度の、1000位くらいまで調べればそこそこの精度になるでしょう。
というわけで、さしあたり100位くらいまで集計してきます。地獄の始まりだ
次の記事→