びょーりさんの長文置き場

Twitterで書きにくい長文をまとめる場所。

任意の苗字のありふれ度を計測できる、「苗字ありふれカウンター」を作りたい! 

f:id:NeZaReN:20180202230229p:plain

こういうのが作りたいんですよ!!!!(唐突)

数学風に言うと、

任意の苗字を代入すると、その苗字のありふれ度を計測して返してくれる関数!

数学風にうまく言えてるかは知りません。ド文系なので。センター試験以降の3か月、数学は見てもいないです。

 

せっかく表計算ソフト(ブラウザなんでソフトじゃないんですけど)使ってるんで、その機能を使いこなしてやりましょう。オラハタラケハタラケェ

偏差値の計算とか、あんなん人間の手でやってたら頭おかしくなりますけど、パソコンならスイスイっとできちゃいますからね。いわば、今から「偏差値」みたいな単位と、そのための計算式作っちゃいましょう! という試みです。いやあ数学の教科書に載っちゃうなあ。

 

◇◆◇◆◇

 

しかし、僕はただの普通科高校の劣等生、しかも春から文学部Excelズブの素人。関数が使えるらしいってことしか知らねえ。

 

しかし、やりたいことは決まっていますから何とかなるでしょう。いざとなればゲイツ氏でも雇えばええやん。

 

①入力された苗字の一文字目、二文字目を抽出(三文字姓は後述)

対応した数字(↓この表で言うところの、BとCの列です)を計測。

f:id:NeZaReN:20180202110027p:plain

③出てきた数字をなんやかんや、わかりやすいように計算する。

表示する。

⑤たのしい!!!!!!!

 

◇◆◇◆◇

 

でね。できたんですよ。

(ついでに500位まで入力しました)

 

f:id:NeZaReN:20180403180406p:plain

 

はい!

 

上の部分はその仕組みを表示してるだけですが、まあ、こんな感じで。

順を追って、その機構を説明してみます。

 

①まず、記入された苗字を一文字ごとに分解する

 「MID関数」という、任意の文字列から何文字目かを指定して抜き出す関数があるので、それを使うことができました。これを探すのにめっちゃ時間かかりました(情弱)。

 いやーこの程度のことに数時間かかるとは、情報系学科に進んでなくてよかった~!(文学部)(就職不可能)(情弱)(週3コマ)(サークル掛け持ち)(ウェーイワンチャン)(古文で差を付けろ!)

 

f:id:NeZaReN:20180403182109p:plain

こちらが、500位まで入力しておいたものになります!(料理番組)

どんだけ見ても「田」最強ですね。

 

ここから、「中」の世帯数、「野」の世帯数を取り出して表示。

 

③それの平均をとりまして。

 

④で、これを「ありふれ度」としま……

 

……したかったんですけど。

 

よく考えてみると、指標がないとよくわかんなくなりますよね。

例えばいきなり隣の席の子に「中野」は834691!って言っても、「は?」ですよ。大学で早々に「中野くん」というあだ名をつけられてしまいます。

 

偏差値の「50」みたいな、基準を作る必要があります。

 

⑥ので、「山田」ありふれ度10000とすると決めます。


これを定義することで、「山田を10000とした時に中野は6465!」と言うことができます。これで中野くんと呼ばれずに済みますね。

 

任意の苗字の、この時点で出てきた数字を「山田」の数字で割って、10000を掛けます。これをありふれ度としま……

 

……したかったんですけど。

 

数字が小さくなりすぎたんです。上位の漢字は圧倒的に数字が大きいので、

トップクラスにありふれているはずの「中野」すら山田の半分の5000を切ってしまう結果となりました。これだと、例えば「白沢」「梶谷」くらいの「まあ珍しくは無いかな……?」の計測が難しい。

500位まで拡張したんだから中堅苗字(今命名しました)も使いこなしたい。

 

⑧ので、平方根を取ります。「山田」の数字も平方根を取った状態で計算するので差が縮まり、中野は6465となりました。

 

これで比べやすくなりましたね! さあ、苗字を入れて遊んでみましょう!

 

◇◆◇◆◇

 

中野 6465

大島 4702

橋本 5456

 

菊田 8792

尾田 8714

篠田 8741

 

やったーーー=!

ありふれ度が計測できるようになりました!!!

 

◇◆◇◆◇

 

 

……いや、ちょっと待てよ。

 

中野とか大島が6000前後で、菊田が8800くらいあるのはおかしくないか?

と、ここでさっきの、漢字単位でのありふれ順位上位の表を見てみましょう。

f:id:NeZaReN:20180403182109p:plain

 

「田」の量が多すぎる!

3位の「山」に余裕のダブルスコア、30位くらいの漢字にはもう10倍の差をつけてしまっています。

「n田」(n=任意の漢字)という苗字が多すぎるのです。種類も、数も。

 

そう、「田」が圧倒的に多すぎて、他の要素による変化を無意味にしてしまうのです。

数の暴力とはこのことである。田の前に、他の漢字は無力。田こそが日本の苗字を牛耳る絶対王。

 

この「病理式苗字ありふれカウンター初号機」「二文字目に田がついてるかどうかカウンター」にしかなっていないのである!

 

◇◆◇◆◇

 

「苗字というのは 様々な漢字が点々と 本当に点々と! 配置されているのだ!」

「なのに正常に計測できないなんて」

「何かがあったに 違いない……」

 

田が! 多すぎるのである!

 

◇◆◇◆◇

 

というわけで、今回はいい感じの結果を得ることができませんでした。

結論として得られたことは〇田がめっちゃ多い」。わかってらあそんなことは。

……なんかうまいやりかたを見つけたらまた記事書きます。