概要

オンラインゲームやチェスなどのボードゲームで使われているレーティングに関する記事です．

レーティングの算出方法は何種類かありますが，その中でSplatoon2やシャドウバースなど，様々な対戦ゲームで使われているグリコ2レーティング(Glicko-2 System)というレーティングアルゴリズムについて説明します．

「アルゴリズムの中身をはやく知りたい！」という方は，下の『本題：グリコ2レーティングのしくみ』からご覧ください．
アルゴリズムの説明には数式が登場します．「数式なんて見たくない！」という方は，この記事の前半でレーティング全般およびその歴史について書いたので，そちらでレーティングに対するイメージ・理解を深めていただければ嬉しいです．

はじめに：レーティングとは

　みなさんは「レーティング」という言葉を聞いて，どんなものが思い浮かびますか．

　国語辞書でレーティングを調べてみると，次のような意味が載っています．

１段階や等級による格付け。

２定まった数式にあてはめて算出した、競技者の実力の評定。「ヨットレースのレーティング」

３テレビ・ラジオなどの視聴率。

４証券会社や格付け機関などが行う、株式や債券などの騰落予想、信用格付け。「大手証券会社がA社のレーティングを上げた」

　レーティングの語源であるrateには，「評価する」「見積もる」のような意味があり，そこから派生して色々な意味でレーティングという言葉が使われています．

　今回の記事は，ゲームのレーティング対戦で使われるレーティングシステムに関するものです．上で言うと2番目の意味になります．

ところで，みなさんはゲームでレーティング対戦をしたことがありますか？

　レーティング対戦をご存じでない方や，あまり馴染みがない方のために簡単な説明をしておきますと，レーティングとは，プレイヤーのゲームの実力を数値化し、客観的に実力を判断する指標の1つです．2人のプレイヤーがゲームの対戦をした時，勝利したプレイヤーのレーティングは上がり，敗北したプレイヤーのレーティングは下がります．

　たとえば，ポケットモンスターサン・ムーンの通信対戦では，レート対戦とフリー対戦という2つのモードがあります．レート対戦では，各プレイヤーに「レートポイント」という数値が与えられます．レートポイントは1500から始まり，バトルに勝てば増加し，バトルに負けると減少します．このようなレーティング対戦を導入しているゲームはポケモンだけでなく，将棋・チェスなどのボードゲームや，サッカーのような2チームが対戦する形式のスポーツでも導入されることもあるようです．

　今回の記事の内容は，レーティングの計算方法についてです．現在ではさまざまなレーティングシステムがありますが，その中でGlicko-2 System(以下グリコレーティング2)というレーティングシステムについて説明します．

レーティングシステムの歴史

　いきなりグリコ2の説明に入る前に，Wikipediaの記事を参考しつつ，レーティングシステムの歴史を簡単に振り返ってみます．

　チェスなどの2人制ゲームにおいて，プレイヤーのゲームの実力を数値化する考え方は少なくとも1900年代からありました．レーティングの算出方法として，1948年にIngo systemというアルゴリズムがAnton Hoesslingerによって考えられ，その後1956年にHarkness systemが Kenneth Harknessによって考えられました．それから1960年頃，アメリカの物理学者・チェスプレイヤーのArpad Eloによって，イロレーティング (Elo rating)が提案されました．イロレーティングは非常に広く知られているレーティングシステムであり，現在でも将棋，チェスのようなボードゲームや，対戦型オンラインゲームのランキングやマッチング，サッカーのようなスポーツなど，様々なところで取り入れられています．

　その後，1995年にMark Glickmanはイロレーティングを改良したレーティングアルゴリズムとしてグリコレーティング(Glicko rating system)を発明し，2013年にこのグリコレーティングをさらに改良したグリコ2レーティング(Glicko-2 ratingSystem)を発明しました．

　イロレーティングと同様に，グリコレーティングおよびグリコ2レーティングは様々なオンラインゲームのレーティング対戦で導入されています．たとえば，シャドウバースはグリコ2レーティングに基づいてレーティングを算出しているようです．さらに，Nintendo Switch用ソフトSplatoon2でも，正式な発表はされていませんが，グリコレーティングのWikipediaや海外サイトで，ガチパワーなどのレーティングの算出にグリコ2レーティングが使われているという情報がありました．

What is "Power" anyway? ---"Power" is actually a Glicko2 rating.

oatmealdome.me

　また，イロレーティングやグリコレーティング，グリコ2レーティングは1対1のチェスを想定したレーティングシステム(グリコレーティング，グリコ2レーティングも1対1，1チーム対1チームを想定したものです)ですが，Microsoftは2007年に3人以上でプレイするゲームでも適用できるTrueSkillというレーティングアルゴリズムを開発しました．

www.microsoft.com

本題：グリコ2レーティングのしくみ

世界中のオンラインゲームで利用されているグリコ2レーティングですが，このレーティングシステムについて日本語の解説されている記事が見当たりませんでした(調査不足だったらごめんなさい...)．そこで，グリコ2レーティングについての論文Example of the Glicko-2 systemを読み，自分なりにアルゴリズムの内容を理解し，Pythonでプログラムを実装して数値計算をしてみました．今回の記事では，グリコ2レーティングの仕組みをできる限り丁寧に説明していきます．

注意：本記事では，グリコ2レーティングのアルゴリズムの説明だけにとどめました．アルゴリズムに出てくるパラメータの直感的な意味は，論文に書かれていますので，興味のある方はそちらをご覧ください(後日この記事にも追記するかも...？)．また，アルゴリズムの背後にあるレーティングシステムの数理・理論的な背景については論文にもあまり書かれていなかったのと，私自身の知識不足のため，説明を省かせていただきます．

ゲームの状況設定・表記法

1対1，あるいは1チーム対1チームの対戦ゲームを対象とします．
ゲームに参加している各プレイヤーは，レーティング(rating) ${r}$ ，レーティング偏差(ratings deviation) ${\mathrm{RD}}$ ，レーティング変動率(rating volatility) ${\sigma}$ というパラメータをもっています．
プレイヤーPのレーティングが ${r}$ ，レーティング偏差が ${\mathrm{RD}}$ ，レーティング変動率が ${\sigma}$ であったとき， ${\mathrm{P} = (r, \mathrm{RD}, \sigma)}$ と表記することにします．
プレイヤーがもつ3つのパラメータの値は，試合をするたびに更新されます．このアルゴリズムのゴールは，試合後のレーティング ${r'}$ ，レーティング偏差 ${\mathrm{RD'}}$ ，レーティング変動率 ${\sigma'}$ を計算することです．
パラメータの更新方法はグリコレーティングの方法をベースとしています．ただ，各パラメータの値のスケールがグリコレーティングとグリコ2レーティングで異なるので，スケールの変換を2回行う必要があります．

ステップ1：３つのパラメータの初期値と，定数τの値の決定

プレイヤーPのもつパラメータ ${(r, \mathrm{RD}, \sigma)}$ の初期値を設定する．

各パラメータの標準的な初期値
- レーティング ${r}$ は1500．
- レーティング偏差 ${\mathrm{RD}}$ は350．
- レーティング変動率 ${\sigma}$ は0.06(実際に使われる場面に応じて適切な値に設定しておく必要がある)．

また，定数 ${\tau}$ を，(基本的には)0.3から1.2までのどれかの値にする．

ステップ2：スケール変換

プレイヤーPのレーティング ${r}$ とレーティング偏差 ${\mathrm{RD}}$ のスケールを変換し，変換後の値 ${\mu, \phi}$ を計算する．レーティング変動率 ${\sigma}$ にはスケール変換を施さないことに注意する．

$\mu = \frac{r - 1500}{173.7178}, \ \phi = \frac{\mathrm{RD}}{173.7178}$

これ以降，プレイヤーPが ${m}$ 人の対戦相手 ${\mathrm{P}_1, \mathrm{P}_2, \cdots, \mathrm{P}_m }$ と試合をしたとし，試合後にパラメータ ${(\mu, \phi, \sigma)}$ を更新する．ここで， ${i}$ 番目( ${i = 1, 2, \cdots, m}$ )の相手 ${\mathrm{P}_i}$ のレーティング(のスケール変換後の値)を ${\mu_i}$ ，レーティング偏差(のスケール変換後の値)を ${\phi_i}$ とおく．また，プレイヤーと各対戦相手 ${\mathrm{P}_i}$ の対戦結果を ${s_i}$ とおく．ただし，プレイヤーPが対戦相手 ${\mathrm{P}_i}$ に勝利したとき ${s_i = 1}$ ，引き分けであったとき ${s_i = 0.5}$ ，敗北したとき ${s_i = 0}$ とする．

ステップ3： ${v}$ の計算

以下で表される量 ${v}$ を計算する．

$\displaystyle{ v = \Bigl[ \sum_{j=1}^{m}g({\phi_j})^2 E(\mu, \mu_j, \phi_j) \{1 - E(\mu, \mu_j, \phi_j) \} \Bigr]^{-1} }$

ただし，

$\displaystyle{ g(\phi) = \frac{1}{\sqrt{1 + 3\frac{\phi^2}{\pi^2}}} }$

$\displaystyle{ E(\mu, \mu_j, \phi_j) = \frac{1}{1 + \exp(-g(\phi_j))(\mu - \mu_j)} }$

とおいた．

ステップ4： ${\Delta}$ を計算する．

$\displaystyle{ \Delta = v \sum_{j=1}^{m} {g(\phi_j)\{s_j - E(\mu, \mu_j, \phi_j) } \} }$

ステップ5：更新後のレーティング変動率 ${\sigma'}$ を反復により求める．

① ${a}$ を ${a =\log( \sigma ^2 )}$ (ただし対数の底は ${e}$ )とし，関数 ${f(x)}$ を次のように定義する．

$\displaystyle{ f(x) = \frac{e^x(\Delta^2 - \phi^2 - v - e^x) }{2(\phi ^2 + v + e^x)^2} - \frac{(x-a)}{\tau^2} }$

また， ${\varepsilon = 0.000001}$ を非常に小さな正数とする．

② 以下のように反復アルゴリズムを設計する．

${A} = a = \log( \sigma ^2 )$ とする．
もし ${\Delta^2 > \phi^2 + v}$ ならば， ${B} = \log( \Delta^2 - \phi^2 -v )$ とする．
もし ${\Delta^2 \leq \phi^2 + v}$ ならば，次のような反復を行う．

(a) ${k=1}$ とする．

(b) もし ${f(a - k \tau ) \lt 0}$ ならば， ${k \leftarrow k + 1}$ として (b)へ．

その後， ${B = a - k \tau}$ とする．

③ ${f_A = f(A), f_B = f(B)}$ とする．

④ ${|B - A| > \varepsilon}$ のとき，次の反復を行う．

　(a) ${C = A + (A - B) \frac{f_A}{f_B - f_A}, f_C = f(C) }$ とする．

　(b) もし ${f_C f_B \lt 0}$ ならば， ${A \leftarrow B, f_A \leftarrow f_B}$ とする．

　(d) ${B \leftarrow C, f_B \leftarrow f_C}$ とする．

　(e) もし ${|B - A| \leq \varepsilon}$ ならば反復をストップして⑤へ．そうでなければ(a)へ．

⑤一度でも ${|B - A| \leq \varepsilon}$ が成り立ったならば， ${\sigma' \leftarrow e^{\frac{A}{2}}}$ とする．

ステップ6： ${\phi^*}$ の計算

次のように表される ${\phi^*}$ を計算する．

$\displaystyle{ \phi^* = \sqrt{\phi^2 + \sigma'^2} }$

ステップ7：レーティング，レーティング偏差の更新

次のようにレーティング，レーティング偏差を更新する．

$\displaystyle{ \phi' = \frac{1}{\sqrt{\frac{1}{{\phi^*}^2} + \frac{1}{v} } } }$

$\displaystyle{ \mu' = \mu + {\phi'}^2 \sum_{j=1}^{m} {g(\phi_j)\{s_j - E(\mu, \mu_j, \phi_j) } \} }$

ステップ8：元のスケールに変換し，レーティングとレーティング偏差の更新

試合後のプレイヤーのレーティング ${r'}$ とレーティング偏差 ${\mathrm{RD}'}$ を次の更新式にしたがって計算する．

$\displaystyle{ r' = 173.7178\mu' + 1500 }$

$\displaystyle{ \mathrm{RD}' = 173.7178 \phi' }$

以上より，プレイヤーPのもつ3つのパラメータ ${(r, \mathrm{RD}, \sigma)}$ を ${(r', \mathrm{RD}', \sigma')}$ に更新することができました．

数値実験

グリコ2レーティングの論文に書かれている数値実験の例を載せておきます．

プレイヤーPが，3人の対戦相手 ${\mathrm P_1, \mathrm P_2, \mathrm P_3}$ と対戦します．
試合前の各プレイヤーのパラメータを次のように設定します．
- ${\mathrm{P} = (r, \mathrm{RD}, \sigma) = (1500, 200, 0.06)}$
- ${\mathrm{P_1} = (r_1, \mathrm{RD}_1, \sigma_1) = (1400, 30, \sigma_1)}$
- ${\mathrm{P_2} = (r_2, \mathrm{RD}_2, \sigma_2) = (1550, 100, \sigma_2)}$
- ${\mathrm{P_3} = (r_3, \mathrm{RD}_3, \sigma_3) = (1700, 300, \sigma_3)}$
- (プレイヤーPの試合後のパラメータの値を知りたいので，対戦相手のレーティング変動率は不要です．)
定数 ${\tau}$ を ${\tau} = 0.5$ とします．

　グリコ2レーティングを用いて試合後のプレイヤーPのパラメータ ${(r', \mathrm{RD'}, \sigma')}$ を計算すると， ${(r', \mathrm{RD'}, \sigma') = (1464.06, 151.52, 0.05999)}$ という結果になります．アルゴリズムの各ステップの計算結果( ${v, E, \Delta, A, B, C}$ の値など)は論文の後半に詳しく書かれているので，それらの値を知りたい方はそちらをご覧ください．

　上の結果は論文に書かれていたものですが，僕がPythonで実装して数値計算をしたところ， ${(r', \mathrm{RD'}, \sigma') = (1464.05, 151.51, 0.05999)}$ になりました．2つのパラメータの小数第二位が1だけズレていますが，概ね論文通りの結果になったと言えるでしょう...．

おわりに

グリコ2レーティングのアルゴリズムの説明をしました．何度か見直しましたが，もし誤字や分かりづらい箇所があったら申し訳ありません．

次回は，このグリコ2レーティングを用いて，Splatoon2のリーグパワーの算出をしてみたり，プライベートマッチにプラベパワーというレーティングを導入してプラベ内でレート戦を再現してみた，という記事を書こうと考えています．

参考文献

Example of the Glicko-2 system(Mark E. Glickman, 2013)(http://www.glicko.net/glicko/glicko2.pdf)
Glicko rating system, Wikipedia (https://en.wikipedia.org/wiki/Glicko_rating_system)
Chess rating system, Wikipedia (https://en.wikipedia.org/wiki/Chess_rating_system)
An In-Depth Look at the Splatoon 2 Ranking System (https://oatmealdome.me/blog/an-in-depth-look-at-the-splatoon-2-ranking-system)

機械学習、たまにゲーム

情報科学に関する記事や経験談等を不定期に投稿します．

レーティングについてと，グリコ2レーティング(Glicko-2 System)におけるレーティング算出方法

概要

はじめに：レーティングとは

レーティングシステムの歴史

本題：グリコ2レーティングのしくみ

ゲームの状況設定・表記法

ステップ1：３つのパラメータの初期値と，定数τの値の決定

ステップ2：スケール変換

ステップ3： ${v}$ の計算

ステップ4： ${\Delta}$ を計算する．

ステップ5：更新後のレーティング変動率 ${\sigma'}$ を反復により求める．

ステップ6： ${\phi^*}$ の計算

ステップ7：レーティング，レーティング偏差の更新

ステップ8：元のスケールに変換し，レーティングとレーティング偏差の更新

数値実験

おわりに

参考文献

概要

はじめに：レーティングとは

レーティングシステムの歴史

本題：グリコ2レーティングのしくみ

ゲームの状況設定・表記法

ステップ1：３つのパラメータの初期値と，定数τの値の決定

ステップ2：スケール変換

ステップ3： の計算

ステップ4： を計算する．

ステップ5：更新後のレーティング変動率 を反復により求める．

ステップ6： の計算

ステップ7：レーティング，レーティング偏差の更新

ステップ8：元のスケールに変換し，レーティングとレーティング偏差の更新

数値実験

おわりに

参考文献

ステップ3： ${v}$ の計算

ステップ4： ${\Delta}$ を計算する．

ステップ5：更新後のレーティング変動率 ${\sigma'}$ を反復により求める．

ステップ6： ${\phi^*}$ の計算