AIはインターネットのフェイクニュース問題を解決できるか?ファクトチェッカーが調査する。 AIはインターネットのフェイクニュース問題を解決できるか?ファクトチェッカーが調査する。

AIはインターネットのフェイクニュース問題を解決できるか?ファクトチェッカーが調査する。

AIはインターネットのフェイクニュース問題を解決できるか?ファクトチェッカーが調査する。

すでにお気づきかもしれませんが、今は事実にとって奇妙な時代です。一方では、ポスト真実の世界に対する人々の嘆きにもかかわらず、事実は依然として存在します。他方では、誤情報、プロパガンダ、フェイクニュースの下水道から事実を掘り出すのが非常に難しくなっています。1 ウイルスを含んだ鎮痛剤、2016年の大統領選挙で投じられた300万票、または「My First Vape」と呼ばれる新しい子供用おもちゃなど、偽の報道がインターネットを詰まらせています。ファクトチェッカーやジャーナリストは事実を明らかにしようと全力を尽くしていますが、嘘が多すぎて、私たちの数が少なすぎます。平均的な市民がフェイクニュースにどれくらい騙されるかは不明です。しかし、フェイクニュースにさらされる機会は十分にあります。ピュー研究所は昨年、アメリカ人成人の3分の2以上がソーシャルメディアでニュースを入手しており、そこには誤情報があふれていると報告しました。私たちはまた、誤情報を探し求めています。 12月、プリンストン大学、ダートマス大学、エクセター大学の政治学者らは、2016年の選挙の前後にアメリカ人の4人に1人がフェイクニュースサイトを訪れたと報告した。そのほとんどはFacebook経由でクリックしたものだ。党派主義者、評論家、さらには政府までが、地域、性別、民族の違いを悪用するために情報を武器にしており、Facebook、Google、Twitterなどの大手IT企業は反撃を迫られている。新興企業や大手企業は、デジタルニュースのファクトチェックにアルゴリズムや人工知能を導入する試みを開始した。スマートなソフトウェアを開発すれば、真実にチャンスが与えられる、という考え方が広まっている。「昔は、不正確で狂った内容をフィルタリングするニュースメディアがありました」と、デューク大学のジャーナリズム教授で、そうした取り組みの一つであるDuke Tech & Check Cooperativeを率いるビル・アデア氏は言う。「しかし今はフィルターがありません。消費者は、何が正確で何がそうでないかを判断するための新しいツールを必要としています。」 Facebookジャーナリズムプロジェクトからの20万ドルを含む120万ドルの資金提供を受け、この協同組合はバーチャルファクトチェックツールの開発を支援している。これまでのところ、デジタルニュース記事やスピーチの書き起こしをスキャンして既知の事実のデータベースと照合するClaimBuster、政治家や評論家の主張にフラグを立てるtalking point tracker、偏見のある読者にも信憑性のある情報を受け入れやすくするTruth Gogglesなどがある。他の多くのグループも同様のツールの開発に取り組んでいる。ジャーナリストでありファクトチェッカーである私は、アルゴリズムの成功を願っている。その助けは確かに必要だ。しかし、私は懐疑的だ。ロボットが私の仕事を狙っているのが怖いからではなく、ロボットがどんな問題に直面しているかを知っているからだ。私はファクトチェックに関する本を執筆した(本当は『シカゴファクトチェックガイド2』というタイトルだ)。また、ジャーナリスト、科学者、その他のプロの真実発見者がどのように知っているかを探るポッドキャスト「Methods」のホストも務めている。これらの経験から言えるのは、真実は複雑で曖昧だということです。人間の脳は文脈とニュアンスを認識でき、どちらも情報の検証において重要な要素です。皮肉を見抜くことができます。皮肉も理解できます。基本的なメッセージはそのままでも、構文が変化する可能性があることを理解しています。それでも、時には間違えてしまうことがあります。3 機械は真実に近づくことができるのでしょうか?

メディアは、AIの取り組みが私たちを偽りの見出しから救ってくれるかもしれないという希望的な報道を次々と繰り出している。しかし、そのデジタル脳の中身は何なのだろうか?アルゴリズムはどのように機能するのだろうか?結局のところ、人工知能は厳格なルールに従っている時に最も優れたパフォーマンスを発揮する。だから、コンピューターにチェスや囲碁を教えることは確かに可能だ。しかし、事実は掴みどころがないため、『Weapons of Math Destruction: How Big Data Improves Inequality and Threatens Democracy』の著者であり、データサイエンティストのキャシー・オニール氏はAIに楽観的ではない。「ファクトチェックアルゴリズムの概念は、少なくとも一見したところでは、ある発言を既知の真実と比較することです」と彼女は言う。「真実のための人工的なアルゴリズムモデルは存在しないので、うまくいかないのです。」

つまり、コンピュータ科学者はそれを作らなければならないということです。では、彼らは一体どうやって仮想ファクトチェッカーの軍団を構築しているのでしょうか?彼らの真実のモデルとは一体何なのでしょうか?そして、私たちは彼らのアルゴリズムにフェイクニュースの選別を任せるに至っているのでしょうか?それを知るために、ポピュラーサイエンス誌の編集者たちは私に、フェイクニュースを使って自動ファクトチェッカーを試用し、そのプロセスと私のものを比較するよう依頼しました。結果はまちまちでしたが、皆さん(少なくとも私)が想像していたような理由ではないかもしれません。

チェンカイ・リー氏は、テキサス大学アーリントン校のコンピューターサイエンティストです。彼はClaimBusterの主任研究者です。ClaimBusterは、本稿​​執筆時点では唯一公開されていたAIファクトチェックツール(ただし、まだ開発中でした)でした。2014年後半から、リー氏と彼のチームは、開発中の他の自動ファクトチェッカーとほぼ同様の方法でClaimBusterを開発しました。まず、一連のルールに従って問題を解決できるアルゴリズム、つまりコンピューターコードを作成した。次に、大量の文を入力し、どの文が主張に該当し、どの文が該当しないかを指示することで、コードに「主張」を識別させるように学習させました。リー氏のチームはもともと政治的な発言を収集するためにツールを設計したため、入力した単語は過去の米国大統領選討論会約30回、合計約2万件の主張から抽出されました。「私たちは2016年の選挙をターゲットにしていました」とリー氏は言います。「大統領候補者の討論会の時にClaimBusterを使うべきだと考えていました。」次に、チームはコンピューターに、主張と既知の事実の集合を比較するコードを教えました。アルゴリズムには事実を識別するための本質的な機能がないため、人間が提供しなければなりません。私たちは、私が「真実データベース」と呼ぶものを構築することでこれを実現しました。これらのデータベースが機能するには、高品質かつ幅広い情報が含まれている必要があります。Li氏のチームは、PolitiFact、Snopes、factcheck.org、ワシントン・ポストといった評判の高いニュースサイトから数千件のファクトチェック(プロのファクトチェッカーやジャーナリストが執筆した、疑わしい主張を正すための記事やブログ投稿)を使用しました。私は、事実に疑問のある投稿を流布していることで知られるinfowars.comから、ClaimBusterがフェイクサイエンスニュースを検出できるかどうかを検証したかったのです。4 Li氏に意見を尋ねたところ、このシステムは政治ニュースで最も効果的だろうが、うまくいく可能性もあると答えました。「Infowarsのページは面白そうだ」と彼は言いました。「試してみて、何か分かったことがあれば教えてください」公平な議論をするために、編集者と私は2つのルールを決めました。1つは、私が自分でフェイクニュースを選び出さないこと、もう1つは、私がファクトチェックを終えるまでAIをテストしないことです。ポピュラーサイエンスのベテランファクトチェッカーがインフォウォーズから7つの偽の科学記事を抜き出し、その中から政治的なテーマである気候変動に関する記事を選びました。リー氏は2016年末以降、クレームバスターの真実データベースを更新する予算がなかったため、それ以前に公開された記事「気候大作:NASAの新データは極地の氷が1979年以来後退していないことを示している」(2015年5月)を選びました。

気候変動否定論者やフェイクニュースライターは、自らの主張を補強するために、実際の研究結果を歪曲することがよくあります。この報告書を確認するにあたり、私はその期間にのみ入手可能な事実に依拠しました。

簡潔にするため、Infowars記事の最初の300語を使用しました。5 実験の人間部分については、他の記事と同じように、一行ずつ確認しました。事実に基づく記述(基本的にすべての文)を特定し、気象学者や学術誌などの一次情報源から、裏付けとなる証拠や反証となる証拠を探しました。また、Infowarsの記事内のリンクをたどり、その質を評価し、主張を裏付けているかどうかを確認しました。(私のファクトチェックのサンプルはこちらです。)

例えば、記事の最初の一文を見てみよう。「NASA​​は衛星観測データの更新を行い、地球の極地氷床は観測開始となった1979年以降、大幅に後退していないことが明らかになった」。オンラインでは、「衛星観測データ」という単語にハイパーリンクが貼られていた。記事で参照されているデータを見ようとリンクをクリックすると、イリノイ大学の今は閉鎖されているウェブサイト「Cryosphere Today」にたどり着いた。行き止まりだった。そこで大学にメールを送った。すると、同大学の大気科学部長から、かつてそのサイトで研究していた研究者のメールアドレスを教えてもらった。彼は現在、アラスカにある国際北極研究センターの主任研究員を務めるジョン・ウォルシュ氏で、後に電話でインタビューする機会を得た。

ウォルシュ氏によると、「衛星データ」はNASAから直接提供されたものではないという。コロラド州ボルダーにある国立雪氷データセンターが、北極海氷に関するNASAの衛星生データを加工し、イリノイ大学がそれを分析・公開したのだ。インフォウォーズが主張するように、このデータは極地の氷床が1979年以降それほど後退していないことを示しているのかとウォルシュ氏に尋ねると、彼はこう答えた。「その記述とウェブサイトが以前示していた内容は一致しません」

ウォルシュ氏と話したことに加えて、私は Google Scholar を使って関連する科学文献を探し、アメリカ気象学会が発行する査読付きジャーナル オブ クライメートに掲載され、NASA ゴダード宇宙飛行センターの上級気候科学者クレア パーキンソン氏が執筆した世界の海氷の傾向に関する包括的な論文にたどり着いた。私はパーキンソン氏にもインタビューした。彼女は自身の研究とインフォウォーズの記事の主張をどう比較するかを説明し、インフォウォーズの記事がデータのどこを歪めているかを示した。パーキンソン氏によると、世界の海氷データの収集が 1979 年、つまり関連衛星が打ち上げられた頃に始まったのは事実だが、時が経つにつれて、測定結果は全体的に世界的に後退傾向を示しているという。インフォウォーズの記事では北極と南極の海氷のデータも混同されていた。極地の海氷の大きさは年によって異なるが、北極の海氷は一貫して縮小傾向にあり、南極の増加傾向を上回っているため、世界全体の海氷総量が大幅に減少している。 Infowarsの著者スティーブ・ワトソン氏は記事全体を通じて北極、南極、地球規模、年間、平均のデータを混同しており、自身の主張を補強するために南極の好況年のデータだけを恣意的に選んだ可能性がある。

他のケースでは、Infowarsの記事は質の低い情報源にリンクし、それを誤って引用していた。例えば、アル・ゴアが北極の氷床が2014年までに消滅する可能性があると警告したと主張する文章を考えてみよう。その文章は、一次情報源ではないデイリー・メール紙の記事にリンクしており、その記事にはゴアの2007年のノーベル賞受賞講演からの引用とされるものが含まれていた。しかし、私が講演のトランスクリプトを読み、ノーベル賞のウェブサイトでビデオを見ると、新聞社が引用を大幅に編集し、警告や文脈を削除していることがわかった。Infowarsの記事の残りの部分についても、私は同じプロセスに従った。2つの文を除いてすべて間違っていたか、誤解を招くものだった(Infowarsの広報担当者は、著者がコメントを控えたと述べた)。自分の作業が終わったので、ClaimBusterがどのように機能するかを見てみたくなった。同サイトでは、ファクトチェックを行うために2つのステップが必要だ。まず、300語の抜粋を「独自のテキストを入力」というラベルの付いたボックスにコピーして貼り付け、記事内の事実の主張を特定した。 AIは1秒以内に各行を0から1のスケールで採点しました。数値が高いほど、主張が含まれている可能性が高いことを意味します。採点範囲は0.16から0.78でした。Li氏は、さらに精査する価値のある主張の閾値として0.4を提案しました。AIは16文中12文をこのスコア以上としました。合計で12文中11文が検証に値する主張であり、それらはすべて私が特定したものでした。しかし、ClaimBusterは4つの主張を見逃しました。例えば、「気候変動は自然の影響と、はるかに少ない程度ではあるが人為的影響の組み合わせによるものと考えられている」という文に、0.16という低いスコアを与えました。この文は確かに主張であり、虚偽です。科学的コンセンサスでは、近年の気候変動の主な原因は人間にあるとされています。このような、たとえ検証に値しても検証に値しないという誤判定は、読者を嘘に騙す可能性があります。メディアや学術誌でこれほど多くの記事が書かれているにもかかわらず、ClaimBusterがこの主張を見逃すのはなぜでしょうか?リー氏によると、AIがそれを認識できなかったのは、おそらく言葉遣いが曖昧だったためだろうという。「具体的な人物や団体に言及していない」と彼は言う。文中に具体的な数字はなく、特定可能な人物や団体も引用されていないため、「定量化できるものが何もない」のだ。明確な根拠のない主張を見抜くのは人間の脳だけだ。次に、特定した11の主張をそれぞれ別のウィンドウに入力し、システムの真実データベースと照合した。理想的なケースでは、機械は主張を既存のファクトチェックと照合し、真偽を判定するはずだ。しかし実際には、ほとんど無関係な情報が吐き出された。

記事の最初の文、極地の氷床減少についての例を見てみよう。ClaimBusterは、この単語の列をデータベース内のすべての文と比較した。一致するもの、同義語、あるいは意味の類似性を検索し、ヒットした文をランク付けした。最も一致したのはPolitiFactの記事だったが、その話題は海氷や気候変動ではなく、米国とイランの核交渉に関するものだった。Li氏は、システムが話題とはあまり関係のない類似語に固執している可能性が高いと述べた。例えば、どちらの文にも「since」「has」「not」といった単語に加え、「updated」「advanced」といった類似語が含まれている。これは基本的な問題に関係している。プログラムはまだ、より重要な単語を具体的でない単語よりも重視していないのだ。例えば、イランの記事が無関係だと判断できなかったのだ。

アル・ゴアに関する文章を試してみたところ、一番上のヒットはより期待できるものでした。PolitiFactからの別のリンクは、「科学者たちは、2013年の夏には北極の氷がなくなると予測している」という記事内の文章と一致しました。ここでは一致がより明白で、「北極」などの単語や、「消滅する」「氷がなくなる」などの同義語が文中に使われていました。しかし、さらに詳しく調べてみると、PolitiFactの記事は2007年のノーベル賞受賞講演でアル・ゴアが語ったものではなく、当時上院議員だったジョン・ケリーが2009年にハフィントン・ポストに寄稿した論説記事に関するものでした。記事の残りの主張を検証しても、同様の問題に直面しました。

これらの結果をリー氏に報告したとき、彼は驚きませんでした。問題は、ClaimBusterの真実データベースに、この特定のフェイクニュースに関する報告や、それに類するものが含まれていなかったことです。忘れてはならないのは、このデータベースはPolitiFactやワシントン・ポストといった機関の人間のファクトチェッカーによる作業で構成されているということです。このシステムは人間が提供する情報に大きく依存しているため、この結果は「人間のファクトチェッカーだけでは不十分であることを示す新たな証拠」だとリー氏は言います。

だからといって、AIによるファクトチェックがすべて悪いというわけではない。プラス面としては、ClaimBusterの速さは私よりもはるかに速い。私はファクトチェックに6時間を費した。それに比べて、AIは約11分で済んだ。また、私は一日の終わりに仕事を終えることも考慮してほしい。AIは眠らない。「AIは、24時間テレビを見ていて、事実に基づく主張を見抜く鋭い目を持つ、疲れを知らないインターンのようなものです」とアデアは言う。リーのチームが新しいAIをテストして主張のスコアリングとファクトチェックを向上させるにつれて、ClaimBusterも他のAIと同様に向上していくはずだ。アデアの協同組合はまた、ケーブルテレビの評論家や政治家の主張をスキャンするためにClaimBusterを使用し、最も検証に値する発言をハイライトして、人間のファクトチェッカーに確認のためにメールで送信している。問題は、その効率に匹敵する精度を実現することだ。結局のところ、私たちが現在の苦境に陥っているのは、少なくとも部分的にはアルゴリズムのせいなのだ。 2017年末時点で、GoogleとFacebookのユーザー数はそれぞれ11億7000万人と20億7000万人だった。この膨大なユーザー数は、フェイクニュース制作者やプロパガンダを行う者たちに、アルゴリズムを操作して自分たちのコンテンツを拡散させる動機を与えている。同様に、自動ファクトチェッカーも操作できるかもしれない。そして、大手IT企業が最近AIを修正しようとした試みは、あまりうまくいっていない。例えば、2017年10月、ラスベガスで銃乱射事件が発生し、851人が負傷、58人が死亡した後、掲示板サイト4chanのユーザーは、Facebook上で銃撃犯を誤認する偽のニュースを拡散することができた。また昨秋、Google AdWordsはPolitiFactとSnopesの両方にフェイクニュースの見出しを掲載した。たとえ、誤りや不正操作の影響を受けないAIファクトチェッカーが存在したとしても、ClaimBusterや同様のプロジェクト、そしてフェイクニュース全般には、より大きな問題が生じるだろう。政治工作員や党派的な読者は、記事が意図的に間違っていようと気にしないことが多い。それが自分たちのアジェンダに合致するか、あるいは彼らをただくすくす笑わせるだけなら、彼らはそれを共有するだろう。2017年のプリンストン、ダートマス、エクセターの調査によれば、フェイクニュースを消費する人々はいわゆるハードニュースも消費しており、政治に詳しい消費者は実際にフェイクニュースを見る傾向が強かった。言い換えれば、読者がその違いを知らないわけではない。メディアは、読者がそのような魅惑的なものをクリックしたいという欲求を過小評価すべきではない。最後にもう一つ。企業がAIファクトチェッカー軍団を展開するにつれ、どちらの陣営の党派的な読者も、それを単なるスピンのもう一つの手段と見なすかもしれない。ドナルド・トランプ大統領は、ニューヨーク・タイムズやCNNのような信頼できる老舗ニュース機関を「フェイクニュース」と呼んだ。彼が賞賛するサイトであるインフォウォーズは、ワシントン・ポストを含むフェイクニュースの情報源の独自のリストを維持している。インフォウォーズはまた、スノープスやポリティファクトのようなファクトチェックサイトの活動を検閲になぞらえた。

それでも、AIファクトチェッカーはフェイクニュースを阻止する上で最良の味方となるかもしれない。追跡すべきデジタル上の悪行は山ほどある。ナイト・プロトタイプ・ファンドの支援を受け、広告業界がオンライン広告の隣に表示される可能性のあるフェイクニュースを特定できるよう支援することを目指すスタートアップ企業、Veracity.aiは最近、1,200の偽ニュースウェブサイトと約40万件の偽投稿を特定した。同社はこの数字が今後さらに増えると予想している。嘘をつくのは非常に速く安価だが、人間がそれを訂正するには非常に費用と時間がかかる。そして、読者によるクリックスルー型のファクトチェックに頼ることは決してできない。ジャーナリストがAIファクトチェッカーを雇用し、インターネット上の欺瞞を探し出し、真実データベースに情報を提供する必要があるだろう。

リー氏に、私が事実確認した記事が影響力を持つかどうか、ひょっとしたらクレームバスターの真実データベースに反映されるかどうか尋ねた。「完璧な自動ツールがあれば、あなたのデータも収集され、リポジトリの一部になるでしょう」と彼は言った。

「もちろん、現時点ではそのようなツールは存在しない」と彼は付け加えた。

脚注:

1フェイクニュースは議論の的となっている用語です。虚偽、誤解、あるいは操作された事実に基づき、政治的または経済的利益のために意図的に誤解を招くことを意図したニュースを指す言葉です。しかし、一部の党派は、評判の良い従来のメディアを中傷するためにもフェイクニュースを利用します。ここでは前者の定義を用います。

2この本は、シカゴ大学出版局発行のライティングガイドシリーズの一つです。そして、本書に記された事実はシカゴ以外にも当てはまります。

3 『ポピュラーサイエンス』のファクトチェッカーが、インテリジェンス特集号のページを検証するのに 15 時間を費やし、印刷前に 34 個の誤りを発見しました。

4 Infowars は、連邦政府が気象を制御しているという考えから、グレン・ベックが CIA 工作員であるという考えまで、陰謀論の情報センターであり、メディア帝国です。

5私たちは、記事の残りの部分がファクトチェックに影響を与えるような証拠や文脈を提供していないことを確認しました。

この記事はもともと、Popular Science 誌の 2018 年春の Intelligence 号に掲載されました