びょーりさんの長文置き場

Twitterで書きにくい長文をまとめる場所。

日本国民全員に出席番号をつけたらどうなるの? ①前座編

また苗字の話です。

苗字で遊べるだけ遊んじゃおうぜヘーイカモーン! みたいなノリのなんかアレです。

あの、なんか、そういうアレです。(大学生特有の語彙消失)

 

◇◆◇◆◇

 

さて。みなさん、中学とか高校の時の出席番号って何番でした?

年によって変わると思うんですよね、中盤は特に。僕もまあ中盤なもので、隣のクラスにいる僕と同じ苗字のやつ出席番号に10もの差があったんですよ。

対して、友人の青木くんずっと1番だって言ってました。まあ僕の知り合いには合尾(あいお)って子も居るんですが、その子はまあ青木よりもっと1番なわけです。こういう苗字を持った人らは、出席番号がぶれないんですね。

「アイーア・アイアイ」に遭遇しない限りは。

f:id:NeZaReN:20180405014821p:plain

(参考画像)

 

で。

この、「青木よりもっと1番」という概念。

あるいはもっと普遍的にすると、「20番くらいかな?」とか「だいたい30番台後半やな……」みたいなのを、はっきりさせたくないですか?

 

僕はさせたいです。(鋼の意志)

 

十数万の苗字から無作為に40人前後を抽出して番号を付けるからブレるのも当然。

ならば、全国民からなる「統一出席番号」、どうにかして求められないものでしょうか?

 

◇◆◇◆◇

 

じゃあ手始めに、類似の数字というかざっくりとした指標を簡単に求めるために、

世帯数の多い苗字ベスト40を列記して、五十音順に並べ出席番号を確かめたいと思います。

つまり、ありふれ苗字ベスト40による「最も普遍的なクラス」を作ってみようということです。たぶん統計学的には最も普遍的でもなんでもないとは思うんですけど、ノリなので大体でいいんだよ上等だろ

 

f:id:NeZaReN:20180405020036p:plain

 

用意しておいたものがこちらになります。(料理番組)(オリーブオイルで差を付けろ!)

それはそうと、在学中は無料でofficeをインストールできる弊大学、神じゃね?

 

それをレポートでも論文でもなくトチ狂ったブログに利用する模範的な学生の姿。

 

さて、じゃあこれをちょっと観察してみましょう。苗字で遊ぼうプロジェクト(仮)は我々から干渉できる部分は少なく、基本的には観察がメインになります

 

ア行:10名(青木、阿部、池田、石井、石川、伊藤、井上、遠藤、岡田、小川)

カ行:5名(加藤、木村、後藤、小林、近藤)

サ行:6名(斎藤、坂本、佐々木、清水、鈴木)

タ行:2名(高橋、田中)

ナ行:2名(中島、中村)

ハ行:4名(橋本、長谷川、林、藤田)

マ行:4名(前田、松本、村上、森)

ヤ行:6名(山口、山崎、山下、山田、山本、吉田)

ワ行:1名(渡辺)

 

清水鈴木がこのクラスの真ん中ということになります。

つまり、おおむねから始まる苗字周辺が、出席番号20(40人クラスだった場合)になるだろうということですね。

 

10番は小川、30番は前田です。ア行の多さよ。

 

しかしもっと任意の苗字にも対応させたいし、そもそも上位四十種類並べただけで普遍性もクソもありません。ということで、もうちょっと下の順位まで集計してきます地獄の始まりだ

任意の苗字のありふれ度を計測できる、「苗字ありふれカウンター」を作りたい! 

f:id:NeZaReN:20180202230229p:plain

こういうのが作りたいんですよ!!!!(唐突)

数学風に言うと、

任意の苗字を代入すると、その苗字のありふれ度を計測して返してくれる関数!

数学風にうまく言えてるかは知りません。ド文系なので。センター試験以降の3か月、数学は見てもいないです。

 

せっかく表計算ソフト(ブラウザなんでソフトじゃないんですけど)使ってるんで、その機能を使いこなしてやりましょう。オラハタラケハタラケェ

偏差値の計算とか、あんなん人間の手でやってたら頭おかしくなりますけど、パソコンならスイスイっとできちゃいますからね。いわば、今から「偏差値」みたいな単位と、そのための計算式作っちゃいましょう! という試みです。いやあ数学の教科書に載っちゃうなあ。

 

◇◆◇◆◇

 

しかし、僕はただの普通科高校の劣等生、しかも春から文学部Excelズブの素人。関数が使えるらしいってことしか知らねえ。

 

しかし、やりたいことは決まっていますから何とかなるでしょう。いざとなればゲイツ氏でも雇えばええやん。

 

①入力された苗字の一文字目、二文字目を抽出(三文字姓は後述)

対応した数字(↓この表で言うところの、BとCの列です)を計測。

f:id:NeZaReN:20180202110027p:plain

③出てきた数字をなんやかんや、わかりやすいように計算する。

表示する。

⑤たのしい!!!!!!!

 

◇◆◇◆◇

 

でね。できたんですよ。

(ついでに500位まで入力しました)

 

f:id:NeZaReN:20180403180406p:plain

 

はい!

 

上の部分はその仕組みを表示してるだけですが、まあ、こんな感じで。

順を追って、その機構を説明してみます。

 

①まず、記入された苗字を一文字ごとに分解する

 「MID関数」という、任意の文字列から何文字目かを指定して抜き出す関数があるので、それを使うことができました。これを探すのにめっちゃ時間かかりました(情弱)。

 いやーこの程度のことに数時間かかるとは、情報系学科に進んでなくてよかった~!(文学部)(就職不可能)(情弱)(週3コマ)(サークル掛け持ち)(ウェーイワンチャン)(古文で差を付けろ!)

 

f:id:NeZaReN:20180403182109p:plain

こちらが、500位まで入力しておいたものになります!(料理番組)

どんだけ見ても「田」最強ですね。

 

ここから、「中」の世帯数、「野」の世帯数を取り出して表示。

 

③それの平均をとりまして。

 

④で、これを「ありふれ度」としま……

 

……したかったんですけど。

 

よく考えてみると、指標がないとよくわかんなくなりますよね。

例えばいきなり隣の席の子に「中野」は834691!って言っても、「は?」ですよ。大学で早々に「中野くん」というあだ名をつけられてしまいます。

 

偏差値の「50」みたいな、基準を作る必要があります。

 

⑥ので、「山田」ありふれ度10000とすると決めます。


これを定義することで、「山田を10000とした時に中野は6465!」と言うことができます。これで中野くんと呼ばれずに済みますね。

 

任意の苗字の、この時点で出てきた数字を「山田」の数字で割って、10000を掛けます。これをありふれ度としま……

 

……したかったんですけど。

 

数字が小さくなりすぎたんです。上位の漢字は圧倒的に数字が大きいので、

トップクラスにありふれているはずの「中野」すら山田の半分の5000を切ってしまう結果となりました。これだと、例えば「白沢」「梶谷」くらいの「まあ珍しくは無いかな……?」の計測が難しい。

500位まで拡張したんだから中堅苗字(今命名しました)も使いこなしたい。

 

⑧ので、平方根を取ります。「山田」の数字も平方根を取った状態で計算するので差が縮まり、中野は6465となりました。

 

これで比べやすくなりましたね! さあ、苗字を入れて遊んでみましょう!

 

◇◆◇◆◇

 

中野 6465

大島 4702

橋本 5456

 

菊田 8792

尾田 8714

篠田 8741

 

やったーーー=!

ありふれ度が計測できるようになりました!!!

 

◇◆◇◆◇

 

 

……いや、ちょっと待てよ。

 

中野とか大島が6000前後で、菊田が8800くらいあるのはおかしくないか?

と、ここでさっきの、漢字単位でのありふれ順位上位の表を見てみましょう。

f:id:NeZaReN:20180403182109p:plain

 

「田」の量が多すぎる!

3位の「山」に余裕のダブルスコア、30位くらいの漢字にはもう10倍の差をつけてしまっています。

「n田」(n=任意の漢字)という苗字が多すぎるのです。種類も、数も。

 

そう、「田」が圧倒的に多すぎて、他の要素による変化を無意味にしてしまうのです。

数の暴力とはこのことである。田の前に、他の漢字は無力。田こそが日本の苗字を牛耳る絶対王。

 

この「病理式苗字ありふれカウンター初号機」「二文字目に田がついてるかどうかカウンター」にしかなっていないのである!

 

◇◆◇◆◇

 

「苗字というのは 様々な漢字が点々と 本当に点々と! 配置されているのだ!」

「なのに正常に計測できないなんて」

「何かがあったに 違いない……」

 

田が! 多すぎるのである!

 

◇◆◇◆◇

 

というわけで、今回はいい感じの結果を得ることができませんでした。

結論として得られたことは〇田がめっちゃ多い」。わかってらあそんなことは。

……なんかうまいやりかたを見つけたらまた記事書きます。

 

アイドルマスター新シリーズが公開されたので、メンバーの苗字についてまとめてみた

アイドルマスターの新シリーズ、シャイニーカラーズのメンバーが出そろったと巷で噂になっていますね。

新シリーズの開始に先立って、一番話題になっているのはアイドルの体重ではないでしょうか。

 

アニメのキャラクターの体重の多くは明らかに男性の幻想を助長している内臓を何個か売っている虚偽記載ではないか、与党は説明責任を果たせなどと言われていますが、このシャニマスでは特に白瀬さんの体重が例として示され、リアル寄りの数字(それでもアイドルらしい数字ではあるのですが)なっていることが見受けられます。

 

f:id:NeZaReN:20180305193239p:plain

 

 

186cmの諸星きらりが61kgですから、これまでのアイドルマスターシリーズよりもリアル寄りのプロフィールになっていることがわかります。

 

……これは余談ですが、僕には178cm/48kgの友人がいるので、強ちアニメ体重も有り得ないとは言えないんですけど。あいつそろそろ餓死するんじゃねえかな

 

◇◆◇◆◇

 

さて。(本題の開始を告げる魔法の言葉)

アイドルマスターと言えば、もう一つ、他のアニメではまず気を遣われないところでリアリティを演出している要素があります。デレマスだけの話だったかもしれない。すいませんうろ覚えです。

 

その要素とは、苗字の分布と出身地がある程度合致しているということ。

 

まあ、全員じゃないんですけど、そりゃあ関西にも佐藤はいますし、東京にも比嘉はいるでしょうからそれもリアリティですよね。

 

アイドルマスターの苗字を語る生 THE SURNAMEM@STERとは (アイドルマスターノミョウジヲカタルナマサーネームマスターとは) - ニコニコ大百科

↑既存のアイドルについての詳しいことはきょくにゃん氏まななん氏などによるこちらの生放送でかなりの人数が解説されているので、こちらをご覧ください。

バックナンバーも読めるよ!(ダイレクトマーケティング

 

っていうか、たぶんシャニマスのメンバーもそのうちしっかり解説されると思うんですけど、こちらはそれに先んじてシャニマスアイドルの苗字の簡単なまとめを作ろうと思った次第であります。苗字の知識の深さでは敵わないから速度で競り勝とうとする姑息な手段

 

◇◆◇◆◇

 

では、世帯数の多い順に紹介していきます。

画像とか貼っ付けるので、やだやだプレイするまで一切の情報を入れたくないんだッというわがままな方は、ここでF5を114514回くらい連打してアクセス数を増やしてからブラバすることをお勧めします。

 

第1位 田中

f:id:NeZaReN:20180305205932p:plain

言わずと知れたメジャー苗字。25万世帯くらい存在し、全国で4番目に多い苗字である。

全国的にあまり偏りなく分布しているが、特に関西圏の多くの府県で世帯数1位を獲得している。誰でも知り合いに一人はいるだろう。

地名姓かつ地形姓。田んぼはありふれていたし、生活の中心でもあり、命に直結する最も大切なものであった。必然的に田中という地名も増えたし、そこに住む人も多かったと考えられる。

田のつく苗字はダサいとかいうのは資本主義に飲み込まれた現代人の勝手な感想なのだ。

 

第2位 園田

f:id:NeZaReN:20180305214552p:plain

約8500世帯、順位で言うと450位くらい。

九州に集中する苗字で、熊本と鹿児島では世帯数ベスト50入り、宮崎と大分でもベスト100にランクインしている。

これも各所に地名があるので、地形姓かつ地名姓とみていいだろう。

ちなみに、とは周りと区別された一定の区画のことである。

 

第3位 大崎

f:id:NeZaReN:20180306000501p:plain

f:id:NeZaReN:20180306000459p:plain

約7500世帯、順位で言うと500位くらい。

わりと全国に広く分布するが、突出して高知に多い。特に須崎市ではベスト10に入る多さで、県内全域でもベスト50に入る。

とは大きく突き出た部分、岬などを指す。これも地形姓かつ地名姓だろう、大崎という地名は各所にある。

富山にも普通に分布しているので、大崎さんが出身地を偽装している可能性は低いとみていいだろう。

 

第4位 小宮

f:id:NeZaReN:20180305220359p:plain

約5000世帯、順位で言うと700位くらい。

ヒーローならもっと突拍子もない名前であれ!

f:id:NeZaReN:20180306173257j:plain

……ああ、いや、三四郎小宮のモノマネです。すいません。

 

神奈川、東京など都心の周辺に集中する苗字。

福岡県南部みやま市柳川市大牟田市などにも突出して分布している。

これも各所に「小さな神社」に由来するっぽい地名があるが、武蔵国(現在の東京都)に小宮氏という武家が居たので、それで勢力(世帯数)を拡大したのかもしれない。

 

第5位 桑山

f:id:NeZaReN:20180306002351p:plain

約1700世帯、順位で言うと1750位くらい。

愛知県の西側で多く、常滑市ではベスト50に、岩倉市津島市でベスト100にランクインしている。

いくつか地名が存在するが、愛知県にも桑山という地名が存在したようだ。いうまでもなく、地形姓かつ地名姓と思われる。

出身地である山口県にはほとんど分布していない。

 

第6位 月岡f:id:NeZaReN:20180306012604p:plain

約1000世帯、順位で言うと2500位くらい。

長野や新潟に多く、その他関東地方周辺に分布している。

長野県では、飯山市などいくつかの市町村でベスト100にランクインしている。

出身地である長崎県にはほとんど分布していない。

各所に地名が存在するが、苗字に関係が深いのは新潟県にある月岡という地名だと思われる。

月の入る苗字の中で世帯数の多い「若月」「大月」などは「槻(ケヤキを表す)」からの転訛のものが多いが、「槻岡」世帯数が非常に少ないため、月岡に関しては地名からダイレクトに苗字になったと考えていいだろう。(長いので読み飛ばしてもいいです)

 

ちなみに、「月」で始まる苗字の中で最多なのは月岡である。

 

第7位 西城

f:id:NeZaReN:20180306014613p:plain

約700世帯、順位で言うと3300位くらい。

宮城県北東部に集中して存在しており、気仙沼市本吉郡南三陸町ではベスト50にランクインする。

宮城県北東部には西条西條も多く分布しており(この二つは西城よりも世帯数が多い)、西城はこれらから転訛、分化してきたとみられる。

細長いものを表し光線の単位を「条」で数えることもある。転じて、「一条」などからわかるようにを表すこともある。

 

超スーパーマジで余談だが筆者はこの苗字になりかけたのに祖父のせいで三桁順位のありふれた苗字になってしまったので、この苗字にはいくらか執着がある。

僕も西城になりたかったなあ!!!(ありふれ苗字の魂からの叫び)

 

第8位 白瀬

f:id:NeZaReN:20180306020511p:plain

約350世帯、順位で言うと5500位くらい。

小保方と同じくらいなので、かなり珍しい苗字の域だと言ってもいいだろう。一緒にするなというPの忿怒の声が聞こえるようだ……

地名や地形に由来する……と、思う。

 分布につかみどころがなく、一応は福島や北海道に多く分布するものの、全国各地にぶつ切りに分布しているのだ。

なのに、出身地である高知県にはほとんど分布していない。っていうか、僕が使っているデータベースでは一軒もないので、白瀬さんが出身地か名前を偽ってアイドルになったのはほぼ間違いないだろう。

背景に闇を抱えているのか……?

 

第9位 櫻木

f:id:NeZaReN:20180306021931p:plain

約250世帯、順位で言うと7000位くらい。

桜木と合わせると1900世帯くらいになり、第5位まで上昇する。

旧字体マジックである。

櫻木、桜木ともに福岡県に多い苗字で、櫻木はさらに福岡県に強く集中する。

言うまでもなく桜の木を由来としており桜木という地名も存在するのでそこから苗字になった桜木さんも多いだろう。

 

第10位 風野

f:id:NeZaReN:20180306022916p:plain

約100世帯、順位で言うと10000位以下

茨城県に非常に集中する苗字で、関東圏にも少数だが分布している。

「かぜの」さんが多数派であり、「かざの」である風野さんレアである。「ふうの」さんも存在するらしい。

風のつく苗字では風見風間が多く、それらと比べても風野かなり少ない。

 

第11位 八宮

f:id:NeZaReN:20180306023727p:plain

約15世帯。まごうことなきレア苗字である。

というのは神社のことを指し、「数字+宮」系の苗字はその国(当時の国とは尾張国とか摂津国とかのこと)の最も大規模な神社から順番に「一宮」「二宮」と呼んでいたことに由来していて、八宮までいくと存在が非常に珍しいので必然的に苗字も珍しくなる。

四宮まではいっぱいいるが、五宮から急激に珍しくなる。

埼玉に多く分布しており、東京や神奈川にも存在している。

 

第12位 三峰

f:id:NeZaReN:20180306024515p:plain

約10世帯。僕の使ってるデータベースでは9世帯。である。

読み方は、リアルでも少なくともほとんどは「みつみね」

兵庫や岡山に分布するが、出身地である福島県には一軒もヒットしない。

彼女も白瀬さんと同じく、出身地か名前のどちらかを偽っていると考えていいだろう。

まあ、なんか、こっちは偽名を名乗ることにもそんなに抵抗無さそうに見えるし。

いや、まだゲーム開始してないし何も知らないからあんまり知ったような口を利くと怒られそうだけど。

 

第13位 幽谷

f:id:NeZaReN:20180306025204p:plain

ほあようごあいまーーーーーーしゅ!!!!!!

ぎゃーてー!!!

あ、すいません、人違いでした。

 

f:id:NeZaReN:20180306160448j:plain<???

 

東方のキャラクターの方は「かそだに」と読ませていたが、リアルの幽谷さん(5世帯くらいしかいない)「ゆうこく」と読む。こっちはリアルに準拠している。

兵庫県、福岡県、広島県に点々と存在しているが、青森県にはヒットしない。

幽谷は、戸籍を作る際に国民全員が苗字を持つことになり苗字を持たなかった僧侶が登録の為に作った比較的新しい苗字。業界では寺院姓とも呼ばれ、かなり珍しいパターンの苗字であり、「釈」「梵」なんかが仲間。

 

青森というのはなんとなく恐山のイタコを思わせるし、心霊系アイドルとして売ろうとしている事務所の方針かもしれない? こちらも出身地か名前を偽っていると考えられる。

霊感があるからそれっぽい芸名にして心霊アイドルとしてデビューした、とかなら普通にありそうな話。

 

第14位? 有栖川

f:id:NeZaReN:20180306161521p:plain

有栖川という苗字は、現在おそらく存在していない。有栖川有栖さんは上原さんである)

かつての公家に有栖川宮という血筋が存在していたが、どうやら大正時代くらいで滅亡してしまったらしい。苗字は少しずつ滅びてゆく(有名どころだと正親町三条とか)ものなのだ。まあ、昔はたまに増えることも有ったみたいだが(書き間違いとかで)。

しかし、彼女に関しては「家名に誇りを持ち」と明記されてしまっている。これが芸名だという線は無いだろう。

ならば、彼女は本名が有栖川なのだ。ということは、公家の末裔であり、天皇家とのつながりもある名家である。

ここで苗字のデータベースの話なのだが、私が利用しているいくつかのデータベースは、基本的に電話帳に準拠している。

 

姓名分布&姓名ランキング 写録宝夢巣/名前・苗字・名字

↑僕がこの記事を書くにあたって主に利用したデータベース

 

このデータベースでは電話帳に載せていない家庭は検索にヒットしないと思われるので、彼女の家庭は電話帳への掲載を拒否したのだろう。

もしくは、彼女の親が何らかの理由で偽名を名乗っており、彼女は自分の苗字が有栖川であると思い込んでいるという可能性も捨てきれない。

f:id:NeZaReN:20180306165524j:plain

(↑自分を有栖川だと思いこんでいる社長令嬢)

 

本名を偽って会社を経営しているってなんか裏稼業の香りがする。

この名前すら伏線後に家が黒いって伏線回収したらめっちゃ面白いけど、さすがにそれはないか。

 

測定不能 杜野

f:id:NeZaReN:20180306170426p:plain

 

一軒もヒットせず。

森野なら滋賀県などに3000世帯弱ほど存在するし、守野盛野100世帯ずつくらい居るのだが……

森と同じような意味で、しかし聖なる森や、人工的な森というニュアンスを持っている。御神木などをイメージするといいかもしれない。また、これ一文字で「やまなし」と読むこともあり、いわゆる梨の意味も持つ。

そんな普段見かけない字ではあるのだが、を含む苗字も存在する。多くはからの転訛ではないだろうか。

最も多いのは「杜(もり)」で、鹿児島県に集中する。とはいえ70世帯くらいしかいない。次点が「杜下(もりした)」で、30世帯くらいしかいない。これは滋賀県岐阜県の周辺に多い。

その他「杜山(もりやま)」「石杜(いしもり)」「杜若(かきつばた)」などいくつか存在するのだが、杜野は実在しない。

電話帳に載せていないのだという可能性もあるが、アイドルだし芸名という可能性も十分にあるだろう。

 

◇◆◇◆◇

 

いやーお疲れさまでした、長々と読んでくださってありがとうございます。

ここまで15個の苗字を見てきましたが、このシャイニーカラーズにおいては、アイドルの名前は苗字の分布をあまり考慮していないように思えます。

たまたまデレマスのスタッフに苗字フェチが混ざりこんでいただけなのかもしれません。

もしくは、シャニマスは現代日本とよく似たパラレルワールドを舞台にしたSF作品になるのかも……

……

……いや、さすがにないよな。それでは、僕も事前登録してきます。

 

事前登録はこちらからどうぞ。

「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ③解決編

前回の記事→

nezaren.hatenablog.com

 

苗字の一文字目に使われてる場合。

苗字の二文字目に使われてる場合。

これをそれぞれで集計すると、こうなります。(データは相変わらず100位までです)

 

どん。

f:id:NeZaReN:20180202110027p:plain

 

100位までだと、三文字の苗字である「佐々木」「長谷川」が出てくるので、三文字目も用意しました。

いやぁExcel(っぽいやつ)は便利ですねぇ。

 

こう見ますと、やはり100位までですから偏りもありますよね。

「本」「川」から始まる苗字が現れてなかったり、「〇松」って苗字が現れてなかったり。国語のゴリ松……

もうちょっとデータ増やせば現れるはず。

 

で、これをクリックしてソートすると……

 

一文字目に多い順↓

f:id:NeZaReN:20180202110937p:plain

 

二文字目に多い順↓

f:id:NeZaReN:20180202110933p:plain

 

並び変わった~~~~!!!

すご~~~~~~~い!!!

(幼女の声で脳内再生してください)

 

しかも全然違う順番になってるから、やっぱり傾向があるってことですよね!

 

一文字目で最も多いのは「山」。一文字目だけで並べているので「藤」などの順位が下がっています。そのぶん「佐」「高」などが上位に。

二文字目で最も多いのは「田」。二文字目だけで並べているので「中」などの順位が下がっています。そのぶん「野」「村」などが上位に。

 

……ん?

 

 

一文字目で最も多いのは「山」。

二文字目で最も多いのは「田」。

 

と、いうことは……最も「ありふれ度」の高い苗字は……

 

 

山田じゃん!!!!!!!!!!!!

 

◇◆◇◆◇

 

いやー、僕たちの感覚も捨てたもんじゃないですね。カタルシスってこういうことを言うんでしょうか。迫真の伏線回収。

 

確かに「苗字」単位で一番多いのは「佐藤」なんですけど、

「漢字」単位で見てみると、一番多そうなのは「山田」なんですね。

一文字目に最もよく使われる「山」と二文字目に最もよく使われる「田」。これを組み合わせた「山田」が、日本の苗字の代表として扱われるのにも納得できますね。市役所に大量に山田太郎くんが生息しているのも、さもありなん、という感じ。

 いやぁ、めでたしめでたし。

 

◇◆◇◆◇

 

自分で作っときながら、この表、いいなぁ……田山さんより山田さんの方が多そうってことも数字で表せてるもんなぁ……

 

そうだなぁ……例えば、この表を応用して、「任意の苗字を入れたらその苗字のありふれ度を測れる関数」とか作れないかなぁ……

 

 

でも僕、プログラミングはおろかスクリプトも組めないしなぁ……Excelもほとんど使ったことないし……

 

 

……

 

 

……

 

 

f:id:NeZaReN:20180202230229p:plain

 

……かみんぐすーん!

「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ②入力編

前回の記事→

nezaren.hatenablog.com

 

じゃあ、集計していきましょうか。(ガンギマリ)

 

今回は苗字の世帯数を調べたいということで、須崎サイト様こと「全国の苗字(名字)11万種」様苗字ランキングを参照していきたいと思います。

もちろん世帯数なんて人が生まれたり亡くなったりしたら変わるものなんで常に不定なんですけど、ま、数件なんて誤差ですよ誤差。

そもそもが「どれくらいありふれてんの?」とかいうこれ以上ないファジィな疑問ですから。正答もありませんしね。適当でいいんだよオラァン!

 

一位、「佐藤」。474558世帯。

二位、「鈴木」。418463世帯。

三位、「高橋」。348628世帯。

 

 

f:id:NeZaReN:20180201224540p:plain

 

こういう風に、世帯数の多い苗字から順に、含まれる漢字ごとに世帯数を足していきます。引くくらい地味な作業。チネリかよ。

で、「伊藤」までいくと「藤」が被るんで、そこは「藤」の欄に足していく。

RPGツクールでモンスターのパラメータを延々作る作業を思い出しますね。

余談ですが僕は全くプログラミングやスクリプトの知識がありません。見切り発車すぎる

更に余談ですが、これはExcelじゃなくてgoogleスプレッドシートです。自分のパソコンを持っているのにExcelを持っていない。なめてんのか。

 

◇◆◇◆◇

 

次の日。

 

f:id:NeZaReN:20180201225045p:plain

 

100位まで集計しました。やったー!!!!パチパチパチ(一人ぼっちの部屋に反響する拍手の音)

あ、いや、ニコ動世代的には「8888」の方がいいか。どうでもいい

 

足し算は勝手にやってくれるとはいえ、ひとつひとつのデータは手打ちなのでどっかミスってるかもしれませんけど

プログラマはずっとこんなことやってんのか。そりゃ過労死するわ

まあめんどくさいはめんどくさいんですけど、たかだか100個ですし、

「へえー、金子さんってこんなに多いんだ」みたいな発見もあって面白かったです。大丈夫です。あんまり共感得られないのはわかってます。

 

◇◆◇◆◇

 

まあ、ゆーて100個なので、誤差はまだまだ大きいんでしょうけど、見てみるとざっくり感じ取れるものがありますね。

 

どれもこれもしょっちゅう見かける漢字ばかりです。「鈴木」の一本だけで上位に食い込む「鈴」が異彩を放っていますが、どんどんデータ量を増やしていけば相対的に修正されていくのでしょう。ま、鈴井とか鈴本も、そこまで変わった苗字って感じしませんしね。

 

適当に漢字を組み合わせてみる。森口。川上。中本。村井。

うむ、いかにもありふれてそうな苗字が生成できたぞ。実験は成功じゃ!

 

あとは、圧倒的に「田」と「藤」が多いんですよね。

「田」は三番手の「山」にほぼダブルスコア。

 

「田中」「吉田」「山田」……ありふれた「田」苗字も、

「佐藤」「伊藤」「加藤」……ありふれた「藤」苗字も、

 

大量に思いつきますもんね。

……と、いうことで、最も「ありふれ度」の高い苗字は、「藤田」ということになりました。

めでたしめでたし。

 

◇◆◇◆◇

 

ここで終わるなら「前編」「後編」ってタイトルにしてますって。

勘のいい方ならとっくに思い至ってると思うんですけど、この方法だと、

「藤田」と「田藤」の区別ができないんですよ。

 

藤田さんっていっぱいいそうですけど、田藤さんって見たことあります?

僕は無いです。調べてみたら50件弱くらいしかありませんでした。

前回言及した阪内さんとか四月朔日さんより珍しい。

 

確かに最も使われているであろう漢字二つを繋げたのに、受ける感覚が大きく変わってしまいました。

よく考えたら当たり前のことで、「一文字目に使われやすい漢字」「二文字目に使われやすい漢字」があるんですよね。

 

たとえば「崎」で始まる苗字とか、「口」で始まる苗字ってぱっと思いつきます?

1300位くらい「崎山」10000位くらい「口石」「口田」があるんですけど、二文字目に使われるのに比べたらかなり少ない。

逆に、「小」「佐」なんかで終わる苗字も、非常に珍しい。例:右衛門佐(約20件)

 

じゃあ、これ、

一文字目の時と二文字目の時で、分けて集計するっきゃないですよねぇ!?

 

とりあえず、そこまでできれば第一章、完! って感じですかね。

やりますとも。RPGツクールは完成させたことないけど。

 

次の記事→

nezaren.hatenablog.com

「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ①導入編

お久しぶりです。 びょーりです。

突然ですけど、

今の日本で一番多い苗字って何か知ってます?

有名すぎる雑学なので、知ってる人は多いでしょう。

山田悠介氏の「リアル鬼ごっこ」でも知られるように、「佐藤」ですね。
しかし、私は思うわけです。

 

「佐藤」別に多そうじゃなくね?

 

近畿在住である僕の身の回りに「佐藤」が少ないから(佐藤は主に東日本、特に東北に集中して分布している)というのもあるんですけど、

たとえば「山田」とか「田中」のほうが、「居そう」じゃないですか?

市役所とかの記入例に「山田太郎」はいても「佐藤太郎」はあんまり居ませんよね。

まあ「田中」は日本で4番目に多い苗字なんで代表っぽいのもまだわかるんですけど、「山田」に至っては12位ですからね。トップテンにも入ってない。
なのに山田は苗字の代表みたいな顔をしている。これはなぜか? ということを考えてみたいわけです。

 

◇◆◇◆◇

ーここから先のデータは須崎サイト様、写録宝夢巣様、苗字検索net様によるものです。ー

 

実際の苗字の多さと、我々が「よくある苗字だなあ」または「珍しい苗字だなあ」と感じる要素には乖離があると思うんですよね。極端な例を挙げますと、

「興梠(こうろぎ)」「阪内(さかうち)」

どっちが多いと思います?


ここで「あ、聞くってことは興梠が多いんだな」って答える人は現代文が得意です。そういう話ではない。

 

実は、興梠の方が25倍くらいいます。

 

まあ興梠はその見た目を抜きにしてもかなり多い部類に入る苗字なので(宮崎に集中するので、他の地域ではあまり見られませんが)知ってる人も多いと思うんですけど、もっと言えば、この阪内さん、有名な難読苗字四月朔日(わたぬき)」と同じくらいしかいないんですよ。日本中に100件以下しかない。

「えっ100件以下!? 1万件くらいありそうなのに!」

ああ、これは僕の感想です。でもそうですよね。みんな似たような感覚を抱くと思うんです。

苗字って、僕は面白がっていろいろ調べたりもしてますけど、特に興味の無い方にとっても非常に身近ですよね。ほとんどの日本人は自分の苗字を持っていますし、大量の苗字と出会っています。だから、なんとなく多そうな苗字とか珍しそうな苗字って感覚は誰しもが持っているし、ある程度は似通っているんじゃないか。そういう気がします。

 

なんでこういうことが起こるか。

 

僕たちは何をもって苗字の「ありふれ度」を感じ取っているのか? というと、たぶん基本的には「構成する漢字」だと思うんですよね。あとは読み方。

 

興梠なんて、「興」も「梠」も苗字に使われてるの見たことない。

対して「阪」や「内」は、しょっちゅう苗字に見かけるわけです。

これが、阪内が興梠よりもありふれていると感じる所以である。そう僕は仮説を立ててみたのです。

じゃあ、しょっちゅう見かける漢字って、どれくらい見かけるんでしょうか?

 

漢字ごとに、苗字における「ありふれ度」数字で表してみれば、興梠よりも阪内が高く出るというような、

我々の感覚に沿った「ありふれ度」を表せる指標ができるかもしれません。

 

◇◆◇◆◇

 

しかし問題があります。

 

数学と違って、それぞれの苗字の量には法則がありませんし、そもそも、実際の量なんてわかりません。
国が戸籍を全部把握して苗字の世帯数を発表してくれればいいんですけど、まあそんなことしてくれるわけがありませんから、僕を含む苗字ジャンキーは基本的に電話帳を眺めて集計していくしかありません。そのためのマイナンバー制度じゃないのか。絶対に違う


しかし、最初の部分は、ありがたいことに先人がデータベース化して検索できるようにしてくれています。僕はそれを検索すれば、田中さんが何番目に多い苗字で、日本に何件あるかを知ることができます。インターネット世代。いやマジで高度情報化社会って便利っすよね。マジで。

 

しかし、「田」が含まれている苗字が何件あるのかまではわかりません。
それはもう、「田中」「太田」「岡田」……と調べては手計算するしかない。

しかも、日本の苗字は十万種類以上あると言われています。全部計算するのも、網羅するのも無理です。第一回から諦める構え。当たり前やろ集計中に輪廻転生してまうわ

 

しかし、日本の人口の約一割はありふれ苗字トップテンで占められるとも言われていますから、まあ、100位くらいまで調べればある程度の、1000位くらいまで調べればそこそこの精度になるでしょう。

というわけで、さしあたり100位くらいまで集計してきます。地獄の始まりだ

 

次の記事→

nezaren.hatenablog.com

ボーカロイド衰退論は正しかったのか

 初回から危ないところに首を突っ込みます。

 大丈夫だよ誰も読んでねえから。


 この記事はボーカロイドについてある程度知っていることを前提に書いています。


 あの、ボーカロイド衰退論ってあるじゃないですか。事実、2015年あたりからミリオンが全然(年に数曲レベル)出てないらしいんですよ。僕は2008~2011くらいの世代なんで、ミリオンとかバカスカ出てたんですよね。


 有名歌い手の故・鋼兵さんのゆっくり解説動画。ニコニコとか最近のボーカロイドをぶった斬るあの動画が引鉄となって、ボーカロイド界隈がにわかに荒れたことは記憶に新しいです。

 それに対してのアンサーなのか、直後に有名ボカロPのcosMo@暴走Pが「リアル初音ミクの消失」という曲を出したり。


 だからって本当に衰退したのか?

 それは微妙なところです。一概にそうとも言えないでしょう。最近でも人気を博し、話題になった曲は沢山あります。

 新世代の有名Pも沢山出てきています。


 しかし、僕ら「過去のボカロ厨」の中には、最近のボーカロイド界隈に苦言を呈する者も少なくない訳です。その不満の多くは「餓鬼ばっかりじゃねえか」と「プロジェクトとかもういいから」だと思うんですけど、それって実はそんなに大きな問題じゃないように思えます。


 僕らの時にも悪ノシリーズ、終末シリーズなど、ストーリーを含んだ楽曲群は存在しましたし、受け入れられていました。

 子供が増えたことも、子供に人気のプロジェクト系の曲を避けていればどうということはありません。気に食わないものの台頭は面白くないですが、だからといってそれを見捨てる人は多くの場合それだけが原因ではないと思います。


 ちょっとややこしい物言いになってしまいました。

 つまり、ボーカロイド衰退論の根本は、「欲しくないものの増加」ではなく「欲しいものの減少」にあるのではないか、と。


 その減少とは何か。

初音ミクの消失」なんです。


◆◇◆◇◆


 暴走Pの曲のことじゃないです。

 これまで人気を博してきた曲……その時期の覇権だけでなく、確実に盛り上げてきた様々な曲を思い出してほしいんです。

 そして、その曲でなく、動画を。思い出してほしい。


 初期。初音ミクの一枚絵。背景や歌詞が入っていればいいところでした。

 そしてPVがつき始めます。初音ミクや鏡音兄弟がいろんな衣裳でポーズ決めたり、演じたり。

 そしてGUMIが人気を博す時期を経て、問題のカゲプロ世代に入るわけです。多くの古参が舌打ちを始めるのはこのへんからだと思います。


 千本桜には初音ミクがいました。

 カゲロウデイズには初音ミクがいません。


 ……?


 世界寿命と最後の一日。

 ロストワンの号哭。


 PVから初音ミクが消えているんです。


 ……いえ、確かに昔ほどではないにしても、すろぉもぉしょんとか、ほらまだ残ってるよ! って思われるかもしれません。


 しかし、減っていることも確かです。そして私達……「初音ミク」が好きだった私達は、求めるものがなくなったと嘆いている。


 私が最近切に感じることは、「初音ミク」の共通幻想はもう今のボーカロイド界隈には必要ないんだろうなってことなんです。

 最初、ヤマハでしたっけ、が人工音声のボーカルソフトを出した時は、所持層は一部の音楽関係者に限られていたようです。それが美少女のパッケージを、共通幻想を、アイドルを、付随させることで、ニコニコという遊び場を席巻し、爆発的に広がった。

 しかしボーカロイド楽曲が次第に認められて、初音ミクによって集まった我々によって集まった新たなボカロ厨がどんどん増えていく。

 基本的には界隈の世代交代はされた方がいいんですけどね。若すぎると荒れるんですよね。

 そして新たな世代は別に初音ミクというアイドルを求めてやってきていないわけです。


 しかも、加えて。

 新世代、多くはカゲプロとハニワからやってきました。初音ミクたちを使わずに、ボーカロイド楽曲を自らの作品の一部として発表したものの二大勢力です。

 そこに釣られて入ってきた人々が、初音ミクを欲するわけがない。


 僕らの不満は、世代交代による初音ミクの消失に起因していた。おそらくそういうことだとおもいます。


 ちょっととっ散らかっちゃったなあ。


 くちばしPの「私の時間」って曲の歌詞にはこうあります。


ニコニコ動画がなくなった その時私はどうなるの ねぎ ねぎ ねぎ ねぎを回すしかない」


 これ2007年10月の曲なんですけど、当時のボーカロイド界隈がいかに初音ミクのキャラクターに頼っていたかがよくわかる歌詞だと思います。

 ニコニコ動画がなくなるより先に、初音ミクがネギを回すのをやめたわけですが。


 そして2015年8月に発表された、cosMo@暴走Pの「リアル初音ミクの消失」のラスサビにはこうあります。


「紡ぐ歌も詩もすべて それはキミのじゃない返してもらおう」


 ボーカロイドというソフトは、僕達の初音ミクという幻想を切り捨て、本来の形へと戻る。


 僕らが間違っているとも言えませんが。

 彼らだって間違っていない。


 僕達が望む形でではないだけで、ボーカロイドは終わっていない。そう結論するのが、恐らく一番妥当でしょう。


 そんな感じで。僕の最近のボーカロイド観でした。

 最近は蜜柑星Pがお気に入りです。

ご挨拶

 はじめまして。普段はTwitterを本拠地に、東方界隈でSSを書いたり、ニコニコにゆっくりを用いた動画を上げたりしている者です。名義は沢山ありますが「びょーり」とお呼び頂けば結構でございます。

 知ってる方がいらっしゃったらフォロワーですね。ありがとうございます。

 普段からふぁぼやリツイートありがとうございます。貴方の1RTが励みでございます。俺ももっとバズりてえ。そんな感じでブログ開設でございます。


 今回は前置きのみです。次の記事から色々書きます。

 で、何でまたブログなんて? Twitterでやってろよ! って感じなんですが、Twitterって140文字に収めなきゃいけないので難しいんですよね。持論を展開するには数ツイートまたぐ必要がある。あと重要なのが、流れちゃうってとこですね。人目につきやすい、見てもらいやすい、けれどそこに残らない。僕の手元にすら残らないわけです。

 いや、検索すればあるけど。

 ということで、ここは手記というか、この時俺はこう考えた! みたいな記録として使おうと思います。面白い記事になるかはその時次第ですね。


 ……っと、そんな感じで。

 次回予告をしておくと、次はボーカロイドの話でもしようかと思います。ごきげんよう