カプリスのかたちをしたアラベスク

このブログはフィクションです。詳しくはプロフィール参照。

【最近のできごと】

2018.8 掌編小説「青は藍より藍より青」第一回阿波しらさぎ文学賞を受賞しました。

2017.6 文学ムック「たべるのがおそい」の編集などを手がける西崎憲主宰の電子書籍レーベル「惑星と口笛ブックス」より
ぼくの初の単著となる短編集「コロニアルタイム」が発売されました。

ライトノベルのタイトルに使われている単語を統計分析でぶん回してみた(ウォーミングアップ編)

f:id:bibibi-sasa-1205:20180201171713j:plain

 

普段は自宅でキーワードライティングとかそういうやつを書く「記事ドカタ」をしているのだけど、「キーワード3つで40字以内でタイトルつけろ!」という注文がめっちゃ多い。

 

www.waka-macha.com

 

でも、常識的に考えて40字の中に指定情報3つって割合的に多すぎて、出来上がったものをみると「ラノベ感」がすごいある。

そこでぼくはピーンときたわけで、次の瞬間「ライトノベルはSEO対策的な発想でタイトルや作品案をひねり出しているんじゃないか」と考えていた。

実際に「SEO的想像力」が駆動力となっているかを確認することは難しいけれど、統計をとり語彙の関係性を視覚化することで計量的な観点からの仮説立てくらいならできそうだ。

こいつら、絶対ヤッてるな……!

 

と、いうわけで無駄話をしていたら今日は特に長くなるので、早速本題に入りたいと思う。

「約1800作のライトノベルのタイトル」を使って、簡単なテスト計算をやってみた。

以下そのまとめを記しておく。

なお、本エントリーはあくまで「テスト計算」であり、サンプル数も少なくライトノベル業界全体をカバーには確保に至っていませんし、調査方法も確立していません。したがって今回の結果はまだ確からしさの確保に至っていないことにご注意ください。

 

目次

 

準備

調査範囲

ライトノベル作品全部を網羅するのには結構骨が折れるため、手始めに今回は、

  • 角川スニーカー文庫
  • 電撃文庫
  • 富士見ファンタジア文庫
  • GA文庫
  • MF文庫J

の5つのレーベルが2015年〜2017年に出版した作品で統計をとることにした。なぜこの5つなのか、という理由は特にない。テストなのでそれなりに数が確保できそうなやつをぺぺっと選んできただけ。もちろん作風のレーベル依存性はあるのだけど、ラノベ警察の皆さんはご不満ならじぶんでやってください。ぼくはそのうちウェブスクレイピングでも勉強してみようかなとはおもっています。

(参照サイト:ラノベの杜

 

表1:調査レーベルの作品数(2015年〜2017年)

レーベル 出版総数 新作数 新作率
角川スニーカー文庫 245 108 0.44081633
電撃文庫 471 190 0.40339703
富士見ファンタジア文庫 431 109 0.25290023
GA文庫 368 96 0.26086957
MF文庫J 353 127 0.35977337
総数 1868 630 0.3372591

 

ちなみに、冒頭では「約1800作品扱った」と行ったけれど、そのうち7割がシリーズものだったので、タイトルに含まれる単語の頻度分析を行う際は、残りの3割が対象になるということに注意が必要だ。そうしなければ特定のシリーズを強く反映してしまう。よって以下では、「新作」のみを対象としている。

ちなみに旧作か新作かは目視で判別したのでめっちゃしんどかった。

画面を凝視しすぎて目は充血し、マウスを握った手はしびれています。

 

さてはて、一旦脇道に逸れるけれど、この「新作率」はなかなか面白い。

これを眺めてみると、角川スニーカー文庫は新作が多く(新人発掘に力入れてる??)、GA文庫はシリーズ続きやすい(人気作をバンバン出してる?)みたいな想像ができて意外と楽しい。もちろん、あくまで仮説だよ。検証してないよ!

 

使用ソフト

言語分析などの研究で広く使用されている「KH Coder」を使用した。

http://khc.sourceforge.net/

ちなみにこのソフト、某25歳素人童貞の風俗調査でも使用されているやつです。

 

shirotodotei.hatenablog.com

 

比較データとして「アニメ化されたライトノベル」を分析

こちらはサンプル数を稼ぐために2000年〜2018年に放送されたもので分析した。

こちらももちろん1期のみを分析対象とし、その数は234作だった。

ちなみにデータはWikipediaから引っ張ってきた。

ライトノベルのアニメ化作品一覧 - Wikipedia

 

結果など

というわけで結果をちゃっちゃと簡潔に紹介しよう。

語彙の出現数・出現率

ラノベタイトルの頻度分析結果はこんな感じ。

頻出単語上位25位はこちら↓

表2:頻度分析(ライトノベルのタイトル)

 No. 抽出語 出現回数 出現率
1 異世界 58 0.092063
2 世界 35 0.055556
3 英雄 28 0.044444
4 勇者 28 0.044444
5 魔法 23 0.036508
6 22 0.034921
7 最強 21 0.033333
8 少女 21 0.033333
9 20 0.031746
10 魔王 19 0.030159
11 エルフ 18 0.028571
12 18 0.028571
13 18 0.028571
14 17 0.026984
15 騎士 16 0.025397
16 魔術 16 0.025397
17 チート 15 0.02381
18 ゲーム 14 0.022222
19 学園 14 0.022222
20 転生 13 0.020635
21 青春 12 0.019048
22 12 0.019048
23 見る 11 0.01746
24 始める 11 0.01746
25 10 0.015873

 

やはりというか、「異世界」が圧倒的強さを見せ、他の追随を許さないぶっちぎりの1位!

しかも他の単語も異世界を中心としたファンタジー系の単語が目立つのも特筆すべきことだ。8位の「少女」と14位の「妹」以外で上位15位はすべてファンタジー系語彙だ。

日常系が強くなってきたとは思っていたけれど、なんだかんだで「ファンタジー」がラノベの王道なんだなとしみじみ思った。もちろん、これは単なる印象です。

 

あと、参考だけどアニメ化ライトノベルの方はこんな感じ↓

表3:頻度分析(アニメ化したライトノベル)

No. 抽出語 出現回数 出現率
1 魔法 6 0.025641
2 勇者 6 0.025641
3 異世界 5 0.021368
4 魔王 5 0.021368
5 学園 4 0.017094
6 4 0.017094
7 戦記 4 0.017094
8 4 0.017094
9 4 0.017094
10 ソード 3 0.012821
11 3 0.012821
12 3 0.012821
13 這う 3 0.012821
14 物語 3 0.012821
15 3 0.012821
16 アート 2 0.008547
17 アリア 2 0.008547
18 アル 2 0.008547
19 オンライン 2 0.008547
20 ガール 2 0.008547
21 キノ 2 0.008547
22 スる 2 0.008547
23 スト 2 0.008547
24 ダンジョン 2 0.008547
25 テレビ 2 0.008547

 

そもそもサンプル数が足りてないという結果だと思われる。

出現回数がそもそも少ないので、もうちょい母集団が大きくないと何にも言えないなぁという感じだ。まあそうだよねぇ。

また、割と意味のない単語がちらほら現れてしまったので、このへんの調整は今後の技術的課題にしたいと思う。まぁ、ビギナーズラックということで許しておくれ。

 

 

f:id:bibibi-sasa-1205:20180201175649p:plain

Fig.1 出現率のグラフ。左から大きい順に並べている。(青)ライトノベル作品、(オレンジ)アニメ化作品。

 

サンプルの年代も数も青とオレンジでかなり違うので比較にあまり意味はないけれど、青の1位「異世界」がこうしてみるとかなり突出しているということがわかりやすい。2010年代中期は「異世界の時代」と言えるほど、やはり異世界作品が乱発していた。そりゃあ「なろう」も異世界禁止令出すわ。

ちなみに、べき乗則とかその辺のものに「ラノベのタイトルに使われる語彙」も従っているならば、このグラフの形は結構妥当に思える。

本当はなんやかややって両対数グラフを描いて直線!みたいな処理をするとその主張ができるのだけれど、まぁ見た感じそうなりそうだな思う。このへんも今後ちゃんと検証したいポイントだ。

 

狂気共起ネットワーク

この分析でもっとも「華やか」な結果がこの「共起ネットワーク」だ。これについては「ラノベのタイトル」の方でのみ作ってみた(Fig. 2)。

「共起」とは馴染みのない言葉だけれど、これは言語学の分野で「任意の文書や文において、ある文字列とある文字列が同時に出現すること」を示す言葉だ。そして互いに共起する文字同士は「共起関係にある」といい、「共起ネットワーク」はそれを視覚的に捉えるために行う図示である。注意すべきことは、「共起」と「頻出」は全く別のデータであるということだ。「頻出」は単発のトレンドを示すのに対し、「共起」は関係性の強さを示す。つまり、このネットワークは「想像力の構造」のようなものを視覚化しているわけである。

 

f:id:bibibi-sasa-1205:20180201195338p:plain

Fig.2 ライトノベルのタイトル(2015年〜2017年)における共起ネットワーク

 

Fig.2はまだまだデータとしては調整が必要だけれども、これをみると「最強」が割とテーマとしてホットなものであるという解釈ができるかもしれない。あくまで、「今回のサンプルのなかでは」という話ですがね。

この図で濃いピンクになるほど、さまざまな文字列と強い共起関係にあるという風に読める。ちなみに「最強」を含むタイトルをいくつか以下に書き出してみる。

  • 千剣の魔術師と呼ばれた剣士 最強の傭兵は禁忌の双子と過去を追う
  • アウトサイド・アカデミア!! 《留年組》は最強なので、チートな教師と卒業します
  • スティール!! 最凶の人造魔術師と最強の魔術回収屋
  • 最強をこじらせたレベルカンスト剣聖女ベアトリーチェの弱点 その名は『ぶーぶー』暗殺拳はチートに含まれますか? ~彼女と目指す最強ゲーマー~
  • マンガを読めるおれが世界最強 ~嫁達と過ごす気ままな生活
  • 魔力ゼロの俺には、魔法剣姫最強の学園を支配できない……と思った?

なんというか、「俺TUEEEE!臭」で胸焼けしそうだ……。

ともあれ、ライトノベル批評(そんなの真面目にやっている人いるのかわからないけれど)で、俺TUEEEE!の批評をガッツリやっている人は見ないのだけれど(宇野常寛がサヴァイブ系とか、そういう感じのジャンル批評をしていたけれどそれが近いかもしれない)、「最強」を批評テーマにおいてやってみるのもありかもしれない。

※追記(2018.2.2):「ブタ」界隈のデータに関して、「青春ブタ野郎シリーズのタイトルが反映されてしまっている」という指摘を受けました。該当シリーズの初作品「青春ブタ野郎はバニーガール先輩の夢を見ない(電撃文庫)」は2014年の作品であり、今回の調査対象外の作品でした。申し訳ございません。元のデータが膨大なため、こうした指摘は「実践編」を行う上で非常に助かります。気づいたことがあれば教えてください。

 

まとめ

感想

ということで、ウォーミングアップはおしまい。ほとんどソフトの使い方の確認に終始してしまっていて、レーベレの網羅(現状では偏ってるし)、サンプルの精査や固有名詞の処理方法などやらなくちゃならないことが非常に多いので、「実践編」を公開できるようになるまではまだ時間がかかりそうだな……といったところ。

ま、こういうこともできるって話ですね。ここでは結論めいたことをいうつもりはひとつもありません。見ての通り、まだ議論できるような結果が出てない。

年代別、レーベル別、さらにはライトノベル以外の作品タイトルにも手を伸ばして、共起関係を比較したりすると面白くはなりそうだ。ぼくは知ることができればそれでいいと思っている人間なので、売れる・売れない論争とかそういうのはぶっちゃけどうでもいい。というか、こういう話をしたらそういう話に散々巻き込まれてきたので、もううんざりしている。

この分析は個人的にそれなりにおもしろいテーマだと思ってはいる。

ただねぇ、これ、データ整理超大変なんよ……。

しかし今回でKH Coderの使い方もだいたい把握したので、時間を見つけてゴリゴリ分析したい(願望系)。

※追記(2018.2.2): 論文のデータ捏造などが騒がれるなか、ヒューマンエラーが含まれているこの記事を公開し続けていて良いものか一瞬迷いましたが、本エントリーはあくまで計量分析のウォーミングアップという位置付けで当初より公開していることをご了承ください。(言い訳ごめん!)

本格的な分析に向けて、みなさまのご意見を聞きながらデータの精度を上げていきたいというスタンスでやっていきますので、ご指摘などあればこっそり教えてください。

 

結局ラノベって「SEO対策」をヤッてんのか?

エンタメ小説のなかでもラノベはターゲット層がはっきりしているから、訴求の強い企画を作ろうとすると、やはり統計では明らかな傾向が出てくると思う。

この分析をやっても傾向らしい傾向が見られない分野は、たぶん「未開の地(ブルーオーシャン)」かもね……!

そういう話は過去記事のコレで詳しくしています↓ あわせてどうぞ!

www.waka-macha.com

 

まあ、ブルーオーシャンっつても、魚がいないだけかもだけど……!

 

いわゆる「遠読」

今回、やったみたいな語彙の構造とかそういうのでガチガチに批評していく方法もあるらしい。

「遠読(フランコ・モレッティ)」って本にそのことが書いている感じなので、興味がある方はどうぞ。

ちなみにぼくは、共起関係を調べて「最強」が結構重要なポジションにあることから、批評対象として妥当なんじゃないかみたいなことを行ったけれど、こうした統計処理は完全に真に受けるよりも「目星をつける」くらいの信用で止めておいた方が良いとおもう。

 

募集とか

ライトノベル以外にも「こういう分析やって!」みたいなことも募集します。

ご希望などあれば、Twitterとかブコメで気軽にご連絡ください。

体力に余裕があって、気が向いたときにやります……!

 

ではでは、今日はここまで!

ありがとうございました。