びょーりさんの長文置き場

Twitterで書きにくい長文をまとめる場所。

「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ③解決編

前回の記事→

nezaren.hatenablog.com

 

苗字の一文字目に使われてる場合。

苗字の二文字目に使われてる場合。

これをそれぞれで集計すると、こうなります。(データは相変わらず100位までです)

 

どん。

f:id:NeZaReN:20180202110027p:plain

 

100位までだと、三文字の苗字である「佐々木」「長谷川」が出てくるので、三文字目も用意しました。

いやぁExcel(っぽいやつ)は便利ですねぇ。

 

こう見ますと、やはり100位までですから偏りもありますよね。

「本」「川」から始まる苗字が現れてなかったり、「〇松」って苗字が現れてなかったり。国語のゴリ松……

もうちょっとデータ増やせば現れるはず。

 

で、これをクリックしてソートすると……

 

一文字目に多い順↓

f:id:NeZaReN:20180202110937p:plain

 

二文字目に多い順↓

f:id:NeZaReN:20180202110933p:plain

 

並び変わった~~~~!!!

すご~~~~~~~い!!!

(幼女の声で脳内再生してください)

 

しかも全然違う順番になってるから、やっぱり傾向があるってことですよね!

 

一文字目で最も多いのは「山」。一文字目だけで並べているので「藤」などの順位が下がっています。そのぶん「佐」「高」などが上位に。

二文字目で最も多いのは「田」。二文字目だけで並べているので「中」などの順位が下がっています。そのぶん「野」「村」などが上位に。

 

……ん?

 

 

一文字目で最も多いのは「山」。

二文字目で最も多いのは「田」。

 

と、いうことは……最も「ありふれ度」の高い苗字は……

 

 

山田じゃん!!!!!!!!!!!!

 

◇◆◇◆◇

 

いやー、僕たちの感覚も捨てたもんじゃないですね。カタルシスってこういうことを言うんでしょうか。迫真の伏線回収。

 

確かに「苗字」単位で一番多いのは「佐藤」なんですけど、

「漢字」単位で見てみると、一番多そうなのは「山田」なんですね。

一文字目に最もよく使われる「山」と二文字目に最もよく使われる「田」。これを組み合わせた「山田」が、日本の苗字の代表として扱われるのにも納得できますね。市役所に大量に山田太郎くんが生息しているのも、さもありなん、という感じ。

 いやぁ、めでたしめでたし。

 

◇◆◇◆◇

 

自分で作っときながら、この表、いいなぁ……田山さんより山田さんの方が多そうってことも数字で表せてるもんなぁ……

 

そうだなぁ……例えば、この表を応用して、「任意の苗字を入れたらその苗字のありふれ度を測れる関数」とか作れないかなぁ……

 

 

でも僕、プログラミングはおろかスクリプトも組めないしなぁ……Excelもほとんど使ったことないし……

 

 

……

 

 

……

 

 

f:id:NeZaReN:20180202230229p:plain

 

……かみんぐすーん!

「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ②入力編

前回の記事→

nezaren.hatenablog.com

 

じゃあ、集計していきましょうか。(ガンギマリ)

 

今回は苗字の世帯数を調べたいということで、須崎サイト様こと「全国の苗字(名字)11万種」様苗字ランキングを参照していきたいと思います。

もちろん世帯数なんて人が生まれたり亡くなったりしたら変わるものなんで常に不定なんですけど、ま、数件なんて誤差ですよ誤差。

そもそもが「どれくらいありふれてんの?」とかいうこれ以上ないファジィな疑問ですから。正答もありませんしね。適当でいいんだよオラァン!

 

一位、「佐藤」。474558世帯。

二位、「鈴木」。418463世帯。

三位、「高橋」。348628世帯。

 

 

f:id:NeZaReN:20180201224540p:plain

 

こういう風に、世帯数の多い苗字から順に、含まれる漢字ごとに世帯数を足していきます。引くくらい地味な作業。チネリかよ。

で、「伊藤」までいくと「藤」が被るんで、そこは「藤」の欄に足していく。

RPGツクールでモンスターのパラメータを延々作る作業を思い出しますね。

余談ですが僕は全くプログラミングやスクリプトの知識がありません。見切り発車すぎる

更に余談ですが、これはExcelじゃなくてgoogleスプレッドシートです。自分のパソコンを持っているのにExcelを持っていない。なめてんのか。

 

◇◆◇◆◇

 

次の日。

 

f:id:NeZaReN:20180201225045p:plain

 

100位まで集計しました。やったー!!!!パチパチパチ(一人ぼっちの部屋に反響する拍手の音)

あ、いや、ニコ動世代的には「8888」の方がいいか。どうでもいい

 

足し算は勝手にやってくれるとはいえ、ひとつひとつのデータは手打ちなのでどっかミスってるかもしれませんけど

プログラマはずっとこんなことやってんのか。そりゃ過労死するわ

まあめんどくさいはめんどくさいんですけど、たかだか100個ですし、

「へえー、金子さんってこんなに多いんだ」みたいな発見もあって面白かったです。大丈夫です。あんまり共感得られないのはわかってます。

 

◇◆◇◆◇

 

まあ、ゆーて100個なので、誤差はまだまだ大きいんでしょうけど、見てみるとざっくり感じ取れるものがありますね。

 

どれもこれもしょっちゅう見かける漢字ばかりです。「鈴木」の一本だけで上位に食い込む「鈴」が異彩を放っていますが、どんどんデータ量を増やしていけば相対的に修正されていくのでしょう。ま、鈴井とか鈴本も、そこまで変わった苗字って感じしませんしね。

 

適当に漢字を組み合わせてみる。森口。川上。中本。村井。

うむ、いかにもありふれてそうな苗字が生成できたぞ。実験は成功じゃ!

 

あとは、圧倒的に「田」と「藤」が多いんですよね。

「田」は三番手の「山」にほぼダブルスコア。

 

「田中」「吉田」「山田」……ありふれた「田」苗字も、

「佐藤」「伊藤」「加藤」……ありふれた「藤」苗字も、

 

大量に思いつきますもんね。

……と、いうことで、最も「ありふれ度」の高い苗字は、「藤田」ということになりました。

めでたしめでたし。

 

◇◆◇◆◇

 

ここで終わるなら「前編」「後編」ってタイトルにしてますって。

勘のいい方ならとっくに思い至ってると思うんですけど、この方法だと、

「藤田」と「田藤」の区別ができないんですよ。

 

藤田さんっていっぱいいそうですけど、田藤さんって見たことあります?

僕は無いです。調べてみたら50件弱くらいしかありませんでした。

前回言及した阪内さんとか四月朔日さんより珍しい。

 

確かに最も使われているであろう漢字二つを繋げたのに、受ける感覚が大きく変わってしまいました。

よく考えたら当たり前のことで、「一文字目に使われやすい漢字」「二文字目に使われやすい漢字」があるんですよね。

 

たとえば「崎」で始まる苗字とか、「口」で始まる苗字ってぱっと思いつきます?

1300位くらい「崎山」10000位くらい「口石」「口田」があるんですけど、二文字目に使われるのに比べたらかなり少ない。

逆に、「小」「佐」なんかで終わる苗字も、非常に珍しい。例:右衛門佐(約20件)

 

じゃあ、これ、

一文字目の時と二文字目の時で、分けて集計するっきゃないですよねぇ!?

 

とりあえず、そこまでできれば第一章、完! って感じですかね。

やりますとも。RPGツクールは完成させたことないけど。

 

次の記事→

nezaren.hatenablog.com

「佐藤」より「山田」の方が多そうに感じるのはなぜ? 数字にして納得したい! ①導入編

お久しぶりです。 びょーりです。

突然ですけど、

今の日本で一番多い苗字って何か知ってます?

有名すぎる雑学なので、知ってる人は多いでしょう。

山田悠介氏の「リアル鬼ごっこ」でも知られるように、「佐藤」ですね。
しかし、私は思うわけです。

 

「佐藤」別に多そうじゃなくね?

 

近畿在住である僕の身の回りに「佐藤」が少ないから(佐藤は主に東日本、特に東北に集中して分布している)というのもあるんですけど、

たとえば「山田」とか「田中」のほうが、「居そう」じゃないですか?

市役所とかの記入例に「山田太郎」はいても「佐藤太郎」はあんまり居ませんよね。

まあ「田中」は日本で4番目に多い苗字なんで代表っぽいのもまだわかるんですけど、「山田」に至っては12位ですからね。トップテンにも入ってない。
なのに山田は苗字の代表みたいな顔をしている。これはなぜか? ということを考えてみたいわけです。

 

◇◆◇◆◇

ーここから先のデータは須崎サイト様、写録宝夢巣様、苗字検索net様によるものです。ー

 

実際の苗字の多さと、我々が「よくある苗字だなあ」または「珍しい苗字だなあ」と感じる要素には乖離があると思うんですよね。極端な例を挙げますと、

「興梠(こうろぎ)」「阪内(さかうち)」

どっちが多いと思います?


ここで「あ、聞くってことは興梠が多いんだな」って答える人は現代文が得意です。そういう話ではない。

 

実は、興梠の方が25倍くらいいます。

 

まあ興梠はその見た目を抜きにしてもかなり多い部類に入る苗字なので(宮崎に集中するので、他の地域ではあまり見られませんが)知ってる人も多いと思うんですけど、もっと言えば、この阪内さん、有名な難読苗字四月朔日(わたぬき)」と同じくらいしかいないんですよ。日本中に100件以下しかない。

「えっ100件以下!? 1万件くらいありそうなのに!」

ああ、これは僕の感想です。でもそうですよね。みんな似たような感覚を抱くと思うんです。

苗字って、僕は面白がっていろいろ調べたりもしてますけど、特に興味の無い方にとっても非常に身近ですよね。ほとんどの日本人は自分の苗字を持っていますし、大量の苗字と出会っています。だから、なんとなく多そうな苗字とか珍しそうな苗字って感覚は誰しもが持っているし、ある程度は似通っているんじゃないか。そういう気がします。

 

なんでこういうことが起こるか。

 

僕たちは何をもって苗字の「ありふれ度」を感じ取っているのか? というと、たぶん基本的には「構成する漢字」だと思うんですよね。あとは読み方。

 

興梠なんて、「興」も「梠」も苗字に使われてるの見たことない。

対して「阪」や「内」は、しょっちゅう苗字に見かけるわけです。

これが、阪内が興梠よりもありふれていると感じる所以である。そう僕は仮説を立ててみたのです。

じゃあ、しょっちゅう見かける漢字って、どれくらい見かけるんでしょうか?

 

漢字ごとに、苗字における「ありふれ度」数字で表してみれば、興梠よりも阪内が高く出るというような、

我々の感覚に沿った「ありふれ度」を表せる指標ができるかもしれません。

 

◇◆◇◆◇

 

しかし問題があります。

 

数学と違って、それぞれの苗字の量には法則がありませんし、そもそも、実際の量なんてわかりません。
国が戸籍を全部把握して苗字の世帯数を発表してくれればいいんですけど、まあそんなことしてくれるわけがありませんから、僕を含む苗字ジャンキーは基本的に電話帳を眺めて集計していくしかありません。そのためのマイナンバー制度じゃないのか。絶対に違う


しかし、最初の部分は、ありがたいことに先人がデータベース化して検索できるようにしてくれています。僕はそれを検索すれば、田中さんが何番目に多い苗字で、日本に何件あるかを知ることができます。インターネット世代。いやマジで高度情報化社会って便利っすよね。マジで。

 

しかし、「田」が含まれている苗字が何件あるのかまではわかりません。
それはもう、「田中」「太田」「岡田」……と調べては手計算するしかない。

しかも、日本の苗字は十万種類以上あると言われています。全部計算するのも、網羅するのも無理です。第一回から諦める構え。当たり前やろ集計中に輪廻転生してまうわ

 

しかし、日本の人口の約一割はありふれ苗字トップテンで占められるとも言われていますから、まあ、100位くらいまで調べればある程度の、1000位くらいまで調べればそこそこの精度になるでしょう。

というわけで、さしあたり100位くらいまで集計してきます。地獄の始まりだ

 

次の記事→

nezaren.hatenablog.com

ボーカロイド衰退論は正しかったのか

 初回から危ないところに首を突っ込みます。

 大丈夫だよ誰も読んでねえから。


 この記事はボーカロイドについてある程度知っていることを前提に書いています。


 あの、ボーカロイド衰退論ってあるじゃないですか。事実、2015年あたりからミリオンが全然(年に数曲レベル)出てないらしいんですよ。僕は2008~2011くらいの世代なんで、ミリオンとかバカスカ出てたんですよね。


 有名歌い手の故・鋼兵さんのゆっくり解説動画。ニコニコとか最近のボーカロイドをぶった斬るあの動画が引鉄となって、ボーカロイド界隈がにわかに荒れたことは記憶に新しいです。

 それに対してのアンサーなのか、直後に有名ボカロPのcosMo@暴走Pが「リアル初音ミクの消失」という曲を出したり。


 だからって本当に衰退したのか?

 それは微妙なところです。一概にそうとも言えないでしょう。最近でも人気を博し、話題になった曲は沢山あります。

 新世代の有名Pも沢山出てきています。


 しかし、僕ら「過去のボカロ厨」の中には、最近のボーカロイド界隈に苦言を呈する者も少なくない訳です。その不満の多くは「餓鬼ばっかりじゃねえか」と「プロジェクトとかもういいから」だと思うんですけど、それって実はそんなに大きな問題じゃないように思えます。


 僕らの時にも悪ノシリーズ、終末シリーズなど、ストーリーを含んだ楽曲群は存在しましたし、受け入れられていました。

 子供が増えたことも、子供に人気のプロジェクト系の曲を避けていればどうということはありません。気に食わないものの台頭は面白くないですが、だからといってそれを見捨てる人は多くの場合それだけが原因ではないと思います。


 ちょっとややこしい物言いになってしまいました。

 つまり、ボーカロイド衰退論の根本は、「欲しくないものの増加」ではなく「欲しいものの減少」にあるのではないか、と。


 その減少とは何か。

初音ミクの消失」なんです。


◆◇◆◇◆


 暴走Pの曲のことじゃないです。

 これまで人気を博してきた曲……その時期の覇権だけでなく、確実に盛り上げてきた様々な曲を思い出してほしいんです。

 そして、その曲でなく、動画を。思い出してほしい。


 初期。初音ミクの一枚絵。背景や歌詞が入っていればいいところでした。

 そしてPVがつき始めます。初音ミクや鏡音兄弟がいろんな衣裳でポーズ決めたり、演じたり。

 そしてGUMIが人気を博す時期を経て、問題のカゲプロ世代に入るわけです。多くの古参が舌打ちを始めるのはこのへんからだと思います。


 千本桜には初音ミクがいました。

 カゲロウデイズには初音ミクがいません。


 ……?


 世界寿命と最後の一日。

 ロストワンの号哭。


 PVから初音ミクが消えているんです。


 ……いえ、確かに昔ほどではないにしても、すろぉもぉしょんとか、ほらまだ残ってるよ! って思われるかもしれません。


 しかし、減っていることも確かです。そして私達……「初音ミク」が好きだった私達は、求めるものがなくなったと嘆いている。


 私が最近切に感じることは、「初音ミク」の共通幻想はもう今のボーカロイド界隈には必要ないんだろうなってことなんです。

 最初、ヤマハでしたっけ、が人工音声のボーカルソフトを出した時は、所持層は一部の音楽関係者に限られていたようです。それが美少女のパッケージを、共通幻想を、アイドルを、付随させることで、ニコニコという遊び場を席巻し、爆発的に広がった。

 しかしボーカロイド楽曲が次第に認められて、初音ミクによって集まった我々によって集まった新たなボカロ厨がどんどん増えていく。

 基本的には界隈の世代交代はされた方がいいんですけどね。若すぎると荒れるんですよね。

 そして新たな世代は別に初音ミクというアイドルを求めてやってきていないわけです。


 しかも、加えて。

 新世代、多くはカゲプロとハニワからやってきました。初音ミクたちを使わずに、ボーカロイド楽曲を自らの作品の一部として発表したものの二大勢力です。

 そこに釣られて入ってきた人々が、初音ミクを欲するわけがない。


 僕らの不満は、世代交代による初音ミクの消失に起因していた。おそらくそういうことだとおもいます。


 ちょっととっ散らかっちゃったなあ。


 くちばしPの「私の時間」って曲の歌詞にはこうあります。


ニコニコ動画がなくなった その時私はどうなるの ねぎ ねぎ ねぎ ねぎを回すしかない」


 これ2007年10月の曲なんですけど、当時のボーカロイド界隈がいかに初音ミクのキャラクターに頼っていたかがよくわかる歌詞だと思います。

 ニコニコ動画がなくなるより先に、初音ミクがネギを回すのをやめたわけですが。


 そして2015年8月に発表された、cosMo@暴走Pの「リアル初音ミクの消失」のラスサビにはこうあります。


「紡ぐ歌も詩もすべて それはキミのじゃない返してもらおう」


 ボーカロイドというソフトは、僕達の初音ミクという幻想を切り捨て、本来の形へと戻る。


 僕らが間違っているとも言えませんが。

 彼らだって間違っていない。


 僕達が望む形でではないだけで、ボーカロイドは終わっていない。そう結論するのが、恐らく一番妥当でしょう。


 そんな感じで。僕の最近のボーカロイド観でした。

 最近は蜜柑星Pがお気に入りです。

ご挨拶

 はじめまして。普段はTwitterを本拠地に、東方界隈でSSを書いたり、ニコニコにゆっくりを用いた動画を上げたりしている者です。名義は沢山ありますが「びょーり」とお呼び頂けば結構でございます。

 知ってる方がいらっしゃったらフォロワーですね。ありがとうございます。

 普段からふぁぼやリツイートありがとうございます。貴方の1RTが励みでございます。俺ももっとバズりてえ。そんな感じでブログ開設でございます。


 今回は前置きのみです。次の記事から色々書きます。

 で、何でまたブログなんて? Twitterでやってろよ! って感じなんですが、Twitterって140文字に収めなきゃいけないので難しいんですよね。持論を展開するには数ツイートまたぐ必要がある。あと重要なのが、流れちゃうってとこですね。人目につきやすい、見てもらいやすい、けれどそこに残らない。僕の手元にすら残らないわけです。

 いや、検索すればあるけど。

 ということで、ここは手記というか、この時俺はこう考えた! みたいな記録として使おうと思います。面白い記事になるかはその時次第ですね。


 ……っと、そんな感じで。

 次回予告をしておくと、次はボーカロイドの話でもしようかと思います。ごきげんよう