「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ②入力編
前回の記事→
じゃあ、集計していきましょうか。(ガンギマリ)
今回は苗字の世帯数を調べたいということで、須崎サイト様こと「全国の苗字(名字)11万種」様の苗字ランキングを参照していきたいと思います。
もちろん世帯数なんて人が生まれたり亡くなったりしたら変わるものなんで常に不定なんですけど、ま、数件なんて誤差ですよ誤差。
そもそもが「どれくらいありふれてんの?」とかいうこれ以上ないファジィな疑問ですから。正答もありませんしね。適当でいいんだよオラァン!
一位、「佐藤」。474558世帯。
二位、「鈴木」。418463世帯。
三位、「高橋」。348628世帯。
こういう風に、世帯数の多い苗字から順に、含まれる漢字ごとに世帯数を足していきます。引くくらい地味な作業。チネリかよ。
で、「伊藤」までいくと「藤」が被るんで、そこは「藤」の欄に足していく。
RPGツクールでモンスターのパラメータを延々作る作業を思い出しますね。
余談ですが僕は全くプログラミングやスクリプトの知識がありません。見切り発車すぎる
更に余談ですが、これはExcelじゃなくてgoogleスプレッドシートです。自分のパソコンを持っているのにExcelを持っていない。なめてんのか。
◇◆◇◆◇
次の日。
100位まで集計しました。やったー!!!!パチパチパチ(一人ぼっちの部屋に反響する拍手の音)
あ、いや、ニコ動世代的には「8888」の方がいいか。どうでもいい
足し算は勝手にやってくれるとはいえ、ひとつひとつのデータは手打ちなのでどっかミスってるかもしれませんけど
プログラマはずっとこんなことやってんのか。そりゃ過労死するわ
まあめんどくさいはめんどくさいんですけど、たかだか100個ですし、
「へえー、金子さんってこんなに多いんだ」みたいな発見もあって面白かったです。大丈夫です。あんまり共感得られないのはわかってます。
◇◆◇◆◇
まあ、ゆーて100個なので、誤差はまだまだ大きいんでしょうけど、見てみるとざっくり感じ取れるものがありますね。
どれもこれもしょっちゅう見かける漢字ばかりです。「鈴木」の一本だけで上位に食い込む「鈴」が異彩を放っていますが、どんどんデータ量を増やしていけば相対的に修正されていくのでしょう。ま、鈴井とか鈴本も、そこまで変わった苗字って感じしませんしね。
適当に漢字を組み合わせてみる。森口。川上。中本。村井。
うむ、いかにもありふれてそうな苗字が生成できたぞ。実験は成功じゃ!
あとは、圧倒的に「田」と「藤」が多いんですよね。
「田」は三番手の「山」にほぼダブルスコア。
「田中」「吉田」「山田」……ありふれた「田」苗字も、
「佐藤」「伊藤」「加藤」……ありふれた「藤」苗字も、
大量に思いつきますもんね。
……と、いうことで、最も「ありふれ度」の高い苗字は、「藤田」ということになりました。
めでたしめでたし。
◇◆◇◆◇
ここで終わるなら「前編」「後編」ってタイトルにしてますって。
勘のいい方ならとっくに思い至ってると思うんですけど、この方法だと、
「藤田」と「田藤」の区別ができないんですよ。
藤田さんっていっぱいいそうですけど、田藤さんって見たことあります?
僕は無いです。調べてみたら50件弱くらいしかありませんでした。
前回言及した阪内さんとか四月朔日さんより珍しい。
確かに最も使われているであろう漢字二つを繋げたのに、受ける感覚が大きく変わってしまいました。
よく考えたら当たり前のことで、「一文字目に使われやすい漢字」と「二文字目に使われやすい漢字」があるんですよね。
たとえば「崎」で始まる苗字とか、「口」で始まる苗字ってぱっと思いつきます?
1300位くらいに「崎山」、10000位くらいに「口石」「口田」があるんですけど、二文字目に使われるのに比べたらかなり少ない。
逆に、「小」「佐」なんかで終わる苗字も、非常に珍しい。例:右衛門佐(約20件)
じゃあ、これ、
一文字目の時と二文字目の時で、分けて集計するっきゃないですよねぇ!?
とりあえず、そこまでできれば第一章、完! って感じですかね。
やりますとも。RPGツクールは完成させたことないけど。
次の記事→