
アイルランド最大のブックメーカー、パディ・パワーでは、クオンツとリスクアナリストのチームが、競馬やその他のスポーツイベントからビヨンセの胎児の名前に関する憶測まで、毎週1万2000件から1万5000件ものイベントのオッズを設定しています。これらのイベントには、6万から7万もの個別の賭け、つまり「マーケット」があります。そして、すべてのマーケットにはオッズ、つまり利用可能なデータに基づいて特定の結果が発生する確率を計算する必要があります。しかし、ブックメーカーはどのようにして良いデータと悪いデータを見分けるのでしょうか?損失を防ぐために、予測システムに安全策をどのように組み込むことができるのでしょうか?
データ時代の基本理念は、より多くのデータとより高い計算能力が、将来の結果をより明確に予測できるということです。こうした予測モデルは、より正確な天気予報、より収益性の高い(そして時にはより危険な)金融モデル、エネルギー探査の強化、より効率的な法執行など、あらゆる分野で誰かが数字を解析し、未来を予測しようとしています。
Paddy Powerのイベントの中には、競走馬の成績や血統など、予測価値の高い膨大なデータに裏付けられているものもあります。一方、ビヨンセの子供の名前のように非常にユニークなイベントもあり、驚くことに、それらに関する有用な予測データ自体が存在しないこともあります。
イベントのデータが豊富であろうと少なかろうと、賭けをする人々は依然としてパディ・パワーがオッズを作成することを期待しています。私たちは、このブックメーカーのクオンツ部門責任者であるロブ・レック氏とリスク部門責任者であるダーモット・ゴールデン氏(アイルランドのブックメーカーとしては、まだ聞いたことのない名前です)に電話し、情報バイアス、データ内のデータ、そして情報技術の予測力について話を聞きました。ここでは、毎日無数の小さなデータに基づくビジネスアップデートを生み出している二人から、データについて学んだ4つの教訓を紹介します。
データの入手先は重要
ブックメーカーとは、ある出来事の最も起こりそうな結果を予測し、その結果がどの程度起こりそうかを判断し、その確信に基づいて自分に余裕を持たせることです。データの質こそがブックメーカーの真髄であり、どの都市が最も白いクリスマスを迎えるかを予測する場合でも、次に大規模な火山噴火がどこで起こるかを予測する場合でも(パディ・パワーは両方のオッズを提供しています)、データの入手先が重要です。
「分析可能な統計データを大量に入手できれば、火山がいつ噴火するかについて誰かに意見を聞くよりもはるかに多くの情報を得ることができます」とゴールデン氏は言う。「私たち自身で数値計算をすれば、3人の気象学者によるカオス数学と解釈に基づいた3つの異なる天気予報を聞くよりもはるかに安心できます。」
これは、予測しようとしている結果の種類と、必要なデータが実際に存在するかどうかに関係します。
「自分たちのデータなら、とても満足しています」とレック氏は言う。「専門機関がデータをまとめているなら、概ね満足しています。しかし、アマチュアや、そのデータを管理することに関心があるだけの人たちに頼らざるを得ない場合もあります。そうなると、どうしても大きな信頼を寄せることができません。手元にあるのはそれだけなのに、どうしても大きな信頼を寄せることができないのです。」
これは言い換えれば、結果の質は入力の質に左右されるということです。より良いデータは自信につながります。
お金が集まるところにデータは集まり、より多くのデータを生み出す
「トレードオフがあります」とゴールデン氏は言う。「データに投資することも、分析に投資することもできますが、取引高とのバランスを取る必要があります。ラグビーワールドカップ決勝戦では数十万単位の賭け金が取引され、テレビ番組では数万単位の取引が行われます。土曜日の午後3時のサッカーの試合と、土曜日の夜8時の「Xファクター」のバランスを取る必要があります。サッカーのトレーダーは、ノベルティトレーダーよりもはるかに多く存在します。ですから、私たちはノベルティ市場よりもサッカーの分析をはるかに多く行っています。」
言い換えれば、データは、何らかの優位性があると認識されている場所から生まれる傾向があります。そして、データが既に豊富で信頼性が高い場所には、優位性、あるいは少なくとも優位性があると認識されていることがよくあります。
「何万もの市場に賭けるという本質的な部分まで突き詰めると、それはモデルとテクノロジーの組み合わせです。しかし、大きな予想は依然として、『この馬は勝つだろうか?ユナイテッドは勝てるだろうか?』と考えて座っている人たちによって下されます。」ブックメーカーの世界でも、より広い世界でも、このようなサイクルは素晴らしいものになり得ます。ヒトゲノムを考えてみましょう。ついにゲノム配列が解読され、研究者が初めて使える真のゲノムデータセットを手に入れると、イノベーションがブレイクスルーを促し、それが投資を促し、さらなる研究とデータを生み出し、それがさらなるイノベーションとブレイクスルーを促しました。このサイクルは今もなお自己増殖を続け、ゲノムデータの蓄積が進むにつれて加速しています。
しかし、これはデータの不均一な増加を引き起こす可能性もあります。人類は1日あたり2エクサバイトものデジタルデータを生成していますが、ある分野では豊富なデータ(例えばスポーツ統計)が存在する一方で、他の分野ではデータが不足しています。
データの中にデータがある
確かなデータが不足している場合、ブックメーカーは入手できるものを利用するしかありません。それは専門家のコンセンサスや主観的な意見の平均化といった場合もありますが、同時に群衆の知恵にも頼ります。例えば、パディ・パワーは「アメリカン・アイドル」のような歌唱コンテスト番組「Xファクター」の賭けを決済することでかなりの利益を上げています。この番組では、視聴者がテキストメッセージで好きなアーティストに投票します。そしてこの場合、予測モデルに供給されるデータは、賭けそのものの中に見つかることが多いのです。
「賭け金が集まり、お金がどのように流れるかを見れば、実際にこれらの候補者に投票しているのと同じ群衆だということが分かります」とゴールデン氏は言う。「賭けをしている人たちは、実際にメッセージを送るほど関心を持っている人たちと同じ人々です。だから私は反応する必要がある。群衆の知恵にアクセスする必要があるのです。」
すると別の問題が浮上します。データを提供している同じ情報源が、イベントの結果にも影響を与えているのです。しかし、パディ・パワーにとって、これは彼らが設定するオッズの結果に影響を与える二次的なデータでもあります。これは情報の中にある情報であり、確かなデータがほとんどない場合、特に地震や天候のような、より厳格でランダム、あるいは科学的な事象ではなく、主観的で流動的で人為的な事象の場合に当てはまりますが、このデータの中にあるデータは、最も有益な情報となり得るのです。
「データが弱ければ弱いほど、マージンを大きくする」とゴールデン氏は言う。「そして、お金の流れを尊重する。なぜなら、お金には情報が含まれているからだ。イベントの種類によって、その情報の価値がわかる。テレビ番組なら非常に価値がある。火山の噴火なら、それほど価値はない。サッカーなら、マージンを1桁台に設定できる。ビヨンセの赤ちゃんの名前のようなイベントは、どこに行くのか全く分からない。だから、こういうイベントでは、お金の流れを非常に注意深く見守る。ロサンゼルスのどこかに住む婦人科医がこれに賭け始めたら、私たちは非常に興味を持つだろう。」
大統領選挙のような場合にも同様です。パディ・パワーは、このような大きな転換期のイベントでは、結果をより正確に把握するために市場調査を委託しています。しかし、パディ・パワーの製品ライン自体が世論に影響を与えることもあります。ゴールデン氏は次のように述べています。
「私たちは頻繁にポジションの入れ替えをするので、多くの人が私たちを、誰かが当選する確率を示す価格ガイドとして頼りにしています。なぜなら、私たちは実際に何が起きているかをかなり正確に把握しているからです。繰り返しますが、これは群衆の知恵です。パディ・パワーが提示する価格には、情報が含まれているのです。」
「世論調査は3~5日ごとに発表されますが、パディパワーのオッズは毎日発表されます」とレック氏は言う。「多くの人、特にジャーナリストは、そのオッズを見て、個々の候補者の勝算を推測するのです。」
ジャーナリストやアナリストがパディ・パワーを参考にし、それを報道に取り入れることで、世論をパディ・パワーの予測に誘導することができるのです。そしてもちろん、人々が同じ候補者に賭け、投票するということは、「Xファクター」のファンが賭けをするだけでなく、メッセージを送るのと何ら変わりません。そのデータには、有権者の感情や政治情勢に関する有用な情報が埋め込まれており、将来の予測に役立つ可能性があります。
テクノロジーはあなたが指示したことしか実行できない
「私たちはITに多額の投資を行っています」とレック氏は語る。「ITを非常に重視するビジネスです。私たちスタッフは皆、元銀行員なので、テクノロジーに対する考え方は金融サービス業界の人たちと同じです。リアルタイム性や、それが私たちのビジネスをいかに支えるかという点においてです。テクノロジーは単なる追加機能ではなく、私たちのビジネスに不可欠な要素なのです。」
しかし、世界中のあらゆる予測アルゴリズムやスーパーコンピューターでさえ、未来を予測できるわけではありません。データはあくまでもデータであり、それを未来の結果を具体的に予測できる黄金律のようなアルゴリズムは存在しないのです。
「テクノロジーは、指示されたことしか実行できません」とゴールデン氏は言います。「本当に重要なのは、あなたのアイデアとデータの解釈であり、私たちはその点で非常に優れていると考えています。この組織はテクノロジーと非常に密接に結びついています。だからこそ、テクノロジーに多額の投資を行っており、それが私たちのやり方なのです。」
「しかし、大きな方向性を予測するプレーは依然として直感です」とレック氏は付け加える。「何万もの市場に賭けるという本質的な部分まで踏み込むと、それはモデルとテクノロジーの組み合わせになります。しかし、大きな予測は依然として、『この馬は勝つだろうか?ユナイテッドは勝てるだろうか?』と考えて座っている人たちによって行われています。大きな予測は個人によって行われています。何千、何千、何千もの小さな予測は、それをリアルタイムで実行できるアルゴリズムとテクノロジーによって行われています。特定のチームが特定の試合に勝つ可能性が市場予想よりも少し高いかどうかという大局的な見解を人が下した後、その多くは自動的に行われます。」
言い換えれば、人間の意思決定はデータの別の形態であり、最終的にはしばしば最も重要なものとなります。データをどのように解釈するのが最適か、どのように事象をモデル化するのが最適かというアイデアは、人間の入力に基づいて調整されることが多いテクノロジー自体よりも、より大きな推進力となります。アルゴリズムは瞬く間に何千もの小さな意思決定を行うことができます。しかし、まず誰かが指示を出さなければなりません。