Ladder参加者動向に関する解析(’09. 3.5日分)
目次
1. 概要
2. データの取得
2.1 Rによる選択
2.2 他の条件との組み合わせによる選択
2.3 データの収集の仕方
3. データ分析
3.1 R値の分布
3.2 ゲーム数の分布
3.3 ゲーム数とR値の関連性
4. 考察
5. 補足
1.概要
LadderとはWesnothの非公式レーティングシステムである.Ladderではここでプレイヤー検索を行うことができる.本稿ではLadderに登録されているプレイヤーのデータを分析することで,Ladder
playerのアクティビティなどに関する有用な情報を得ることを目的とする.本稿では2009年3月5日に取得したデータを分析した結果を用い,参加者のRやゲーム数の分布を分析した.
2.データの取得
LadderのPlayer
Searchの仕様では,09年3月5日時点においては,一度に全てのプレイヤーのデータを取得することはできない.すなわち,検索結果が250件を越える場合,アルファベットの昇順で最初の250名分しか表示されないからである.このことを回避するために,以下のような手順でデータを取得した.分析結果のみに興味がある方は,この章は読み飛ばしてもらってもかまわない.
2.1 Rによる選択
検索条件として,x以上,x以下,xと等しいという3つの条件文を用いることができる.そこでまず,Rによって参加者を分割し,少量ずつデータを抽出した.Rが2000以上,Rが1900以上,Rが1800以上・・・のように,全体の件数が250件を超えない範囲を探索し,データを取得した.
2.2 他の条件との組み合わせによる選択
Rが1500以上であるようなプレイヤーを検索すると,250件を超えることがわかる(検索後,player名をアルファベットの昇順に並び替え,末尾がzなんとかさんでないならば,250名を越えていることが確認できる).そこでRが1500以上かつ,ゲーム数がx以上であるというような検索を行い,250件を越えないような条件(すなわち,条件に当てはまるすべてのplayerを表示できているような状態にしたうえで)データを取得する.
2.3 データの収集のしかた
コピー&ペーストで表をtxtファイルにコピーする.次にエクセルなどの表計算ソフトでそのtxtファイルをスペース区切りで開く.名前にスペースが含まれている場合,名前が複数セルに分割されてしまうので,このような名前を持つplayerのデータを後に修正する必要がある(09.3.5時点のデータでは,こうしたplayerは2名だけであった)
3. データ分析
この章では得られたデータを分析する.分析対象として,全プレイヤー(1079名)の試合数,およびR値に着目する.
3.1 R値の分布
1079名のRの分布を解析した.Fig. 1にRのヒストグラムを示す.最大値は2267,最小値は1147,平均値は1501,中央値は1472であった.図からもわかるように、最頻値は1500ではなく、1400後半のプレイヤーが最も多いことがわかる。
Fig. 1 全Ladder playerのRの分布(クリックで拡大)
3.2 ゲーム数の分布
1079名のゲーム数の分布を解析した.Fig. 2にゲーム数のヒストグラムを示す.ゲーム数1~20までの部分を抜粋したものをFig. 3に示す.またFig. 4に,ゲーム数およびplayer数の対数をとったものを示す. ゲーム数の分布は,Fig. 4よりスケールフリー性を持つことが明らかとなった(巻末に補足).すなわち平均値が分布の代表値を持たない.平均ゲーム数は18.3であったが,全体の約半数(543名)がゲーム数4以下であり,少数のプレイヤーが全体の平均値を押し上げているという構造となっていた.
Fig. 2 全Ladder playerのゲーム数の分布(クリックで拡大)
Fig. 3 ゲーム数19以下のプレイヤーのゲーム数の分布(クリックで拡大)
Fig. 4 ゲーム数の対数とplayer数の対数の関係性(クリックで拡大)
3.3 ゲーム数とR値の関連性
ゲーム数とR値の関連性を明らかにするために,ゲーム数別のR値の分布を解析した.Fig. 5にゲーム数別のR値の分布を示す.図から明らかなように,ゲーム数が5より少ないと高Rや低Rを持つプレイヤーは存在しない.これはR計算の原理から自明である.またゲーム数が20を超えると,分布の平均値は1500より高くなる.これは20試合以上こなしているプレイヤーに限定すれば,R値が1500を超えるプレイヤーの割合が増加していることを示す.
Fig. 5 ゲーム数別のR値の分布(クリックで拡大)
全ての図は横軸がR値、縦軸がプレイヤー数を示す。上段左から順に、ゲーム数100以上、ゲーム数50以上100未満、ゲーム数20以上50未満 下段左から順にゲーム数10以上20未満、ゲーム数5以上10未満、ゲーム数5未満のプレイヤーのR値を示している。
4. 考察
本稿ではゲーム数とR値という観点から、Ladder playerの分布を議論した。ゲーム数が多いプレイヤーは高いR値を持つということは一見当然のように思われる。しかし、たとえばFig. 1からは、R1800程度のプレイヤーは全体の上位何%に相当する強者であるのかとか、Fig. 5からは1800以上のRを得るためには概ね20試合以上戦う必要がありそうだ、などといった知見が明らかになる。今後さらにLadder player searchが拡張され、新たな統計量が得られれば、それに応じたより有用な知見が得られるようになると考えられる。たとえば最後に行った試合がいつであるか、という情報から、Ladder参加者のアクティビティや、平均で1日に何卓ぐらいのラダーゲームが行われるかなど、プレイヤーにとって有益な知見が得られると考えられる。
5.補足 スケールフリー性について
ある分布を両対数プロットしたときに、直線性が示される時、その分布はスケールフリー性を持つというように表現される。スケールフリー性は現実世界の様々なネットワークにおいて見られる性質で、たとえばwwwのリンク数の分布などがスケールフリー性に従うことが知られている。すなわち、殆どのwebページは、リンクされる数が少ないが、稀に非常に大きなリンク数を持つページが存在する(正規分布だとそうしたページはほぼ0になるが、スケールフリー性を持つ分布では少数であるが確実にそういうページが存在する)という特徴がある。
本稿で紹介したゲーム数とプレイヤーの関係も同様に、両対数プロットをすると直線性を示した。これは、殆どのプレイヤーはゲーム数が非常に少ないが、まれに多くのゲームを行ったプレイヤーが存在し、その頻度の対数はゲーム数の対数に比例するということを示している。しかしこのことがどういった意味を持つかは不明である。