情報フロー広告サンプル(Tencent OCRチームがICDARコンテストで4つの優勝を獲得)

情報フロー広告サンプル(Tencent OCRチームがICDARコンテストで4つの優勝を獲得)

テンセントOCRチームがICDAR大会で4つの優勝を獲得

光学文字認識(OCR)の世界最高峰イベント「ICDAR 2023」において、テンセントOCRチームは独自開発のアルゴリズムに基づいて4つの優勝を果たした。同チームが同大会で優秀な成績を収めたのは、2017年、2019年、2021年に続き4年連続で、公式認定の優勝回数は計18回となり、テンセントのOCR技術が世界トップクラスであることを証明した。

ICDAR カンファレンスは、文書画像分析および認識の分野において世界的に認められた権威ある学術会議です。この大会は2年ごとに開催され、100か国以上から約8,000チームが参加しています。 ICDARコンテストは、その極めて高い技術的難易度と高い実用性で国内外でよく知られています。大会終了後の非公式ランキングとは異なり、ICDAR 認定の公式大会では最新のデータセットが使用され、参加チームの情報やスコアは大会中に発表されません。同時に、結果提出の時間と回数が制限されており、難易度の高い「ブラインドコンテスト」となっています。

今年、テンセント OCR チームは、テンセント データ プラットフォーム部門と WeChat 技術アーキテクチャ部門によって共同で結成されました。 DSText(高密度小文字ビデオテキスト認識)とSVRD(構造化情報抽出)の2つの主要プロジェクトへの参加に注力し、4つのトラックチャンピオンシップを獲得しました。

テンセントはDSTextトラックで両チャンピオンシップを獲得した

DSText (高密度小文字ビデオテキスト認識) コンテストでは、ビデオテキスト追跡とビデオテキストのエンドツーエンド認識という 2 つのタスクが設定されます。テキストは非常に密度が高く、非常に小さいため、環境干渉(カメラの揺れ、モーションブラー、照明の変化など)や後編集(マルチショット画面の切り替え、人工背景、ゲームインターフェースの切り替えなど)が加わり、ビデオフレームからテキストを正確に検出、追跡、認識するには、高度なアルゴリズムの堅牢性が必要であり、非常に困難です。ゲームビデオのいくつかのフレームを以下に示します。

ICDAR-DSText コンテストの概略フレーム

DSTextコンテストの両方のタスクにおいて、Tencent OCRチームが絶対的なリードで優勝しました。

このうち、タスク 1 は、ビデオ内のすべてのテキスト フローを追跡し、ビデオ フレーム間で同じテキスト インスタンスに属する検出ボックスを集約することを目的としています。評価指標はMOTAです。テンセントは2位に12.04%の差をつけて優勝した。

ビデオテキストトラッキング: チャンピオンの証明書

タスク 2 の目標は、ビデオテキスト認識のエンドツーエンドのパフォーマンスを評価することです。このタスクでは、各フレームでのテキストの正しい検出、ビデオ フレームでの正しい追跡、およびシーケンス レベルでの正しい認識が必要です。評価指標はOCR-MOTAです。テンセントは2位に11.93%の差をつけて優勝した。

エンドツーエンドのビデオテキスト認識: チャンピオン認定

テンセントは絶対的な優位性でSVRDトラックで2つのチャンピオンシップを獲得しました

SVRD (構造化情報抽出) コンテストには、HUST-CELL と BAIDU-FEST の 2 つのトラックがあり、合計 4 つのタスクがあります。複雑な文書エンティティ リンク抽出 (E2E 複雑なエンティティ リンク)、複雑な文書エンティティ セマンティック抽出 (E2E 複雑なエンティティ ラベリング)、ゼロ ショット構造化情報抽出 (E2E ゼロ ショット構造化テキスト抽出)、および少数ショット構造化情報抽出 (少数ショット構造化テキスト抽出) です。文書画像の複雑な形式と多様な構造、自然風景画像の非標準的な取得、複雑な背景、損傷、曲がり、変形などの問題の存在により、このコンテストは非常に困難です。以下にコンテストの写真をいくつか示します。

ICDAR-SVRD 構造化情報抽出コンテスト例

Tencent OCR チームは SVRD コンテストで 2 つの優勝を果たしました。

このうち、タスク2(E2E複合エンティティラベリング)は、タイトル、組織名、日付、金額、数字、製品名、人名などの複雑な文書画像から意味エンティティを抽出することを目的としています。このタスクでは、テンセントが大きなアドバンテージで優勝しました。

E2E 複合エンティティラベリング: チャンピオン証明書

タスク 4 (E2E 少数ショット構造化テキスト抽出) では、銀行カード、事業許可証、タクシーの請求書、買い物の領収書、交通費の請求書、定額請求書、書類など、10 種類のシナリオの画像から重要な情報を、非常に少ないトレーニング データで抽出する必要がありました。テンセントも優勝した。

E2E 少数ショット構造化テキスト抽出: チャンピオン認定

テンセントOCRチームは、OCR技術の研究開発に専念するテンセント内の専門チームであると報告されています。チームは高精度かつ高安定性のテキスト検出・認識技術を独自に開発しました。アプリケーションの面では、Tencent Advertising、WeChat、QQ、Tencent Cloud、Tencent Video、Tencent 情報フロー製品など、Tencent 内の何百ものビジネス シナリオをサポートします。

雷峰ネットワーク

<<:  情報フロー広告用語(情報フロー広告用語について何を知っていますか)

>>:  情報フロー広告の核心(情報フロー広告の核心最適化思想)

推薦する

情報フロー広告はどの業界に属するか(電子商取引業界は情報フロー広告に適しているか?投資に最適な場所はどこ?)

電子商取引業界は情報フロー広告に適しているのでしょうか?投資に最適な場所はどこですか?ソーシャルメデ...

ビールのインターネットマーケティング計画スキーム(ビールのインターネットマーケティングに関する詳細な考察)

ビールネットワークマーケティングに関する深い考察このような時代の流れの中で、ビール会社は自社の優位性...

ブランド構築の芸術: ユニークなオンライン アイデンティティの構築

今日のデジタル時代において、ブランディングは多面的な芸術へと進化しました。もはや、ロゴやキャッチーな...

国産ブランドの推進(経済日報:国内消費の勢いを生かして長期的な成功を達成する方法)

経済日報:国内消費をいかに活用して長期的な繁栄を維持するか最近、国内ブランドはDouyinでの共同マ...

データ駆動型運用の役割 (データ駆動型運用がなぜ重要なのか)

データ駆動型の運用がなぜ重要なのか?ビッグデータの真の価値は、データに基づく意思決定にあります。つま...

b2bプロジェクト推進計画(B2B推進方法と運用手順を無料公開)

無料のB2Bプロモーション手法と運用手順B2Bウェブサイトといえば、プロモーションを行う方なら誰でも...

uDesignテーマはどうですか? uDesignテーマの機能と特徴の紹介

uDesignテーマはどうですか? uDesign は、初心者から経験豊富な開発者までに適した、強力...

Gname DNS 初心者ガイド: DNS の仕組みを簡単に紹介

ウェブマスターやインターネットに多少の知識がある人であれば、ドメイン名解決について聞いたことがあるは...

医薬品ブランドのプロモーション(帝益製薬:「帝益」ブランドの宣伝とプロモーションを継続的に強化し、主力製品である芝科宝錠の拡大と強化を図る)

帝益製薬:「帝益」ブランドの宣伝・プロモーションを強化し、主力製品である智科宝錠の拡大・強化に努めま...

経営会議の内容(経営会議でのスピーチ)

経営会議におけるスピーチ***経営会議におけるスピーチ******** (ユニット名) *** (名...

データの運用・保守(自社のデータセンターの運用・保守方法をご存知ですか?)

会社のデータセンターを運用および保守する方法をご存知ですか?データセンターにとって、運用と保守の重...

データ運用フレームワーク(青島は公共データ運用を活用してデータ要素市場の発展を促進します)

青島市は公共データ運用を活用し、データ要素市場の発展を促進鳳口金融記者謝文千青島市は国家データ業務の...

運用データ機能(データ機能を向上させて「質の高いオペレーター」になる方法を学ぶ)

データ能力を向上させて「質の高いオペレーター」になる方法を学ぶ「オペレーションはデータドリブンな仕事...

コンテンツクリエイターの運用(有料コラムのコンテンツをどう運用するか?この3つのポイントをうまく活用すれば月10万元稼ぐことも可能)

有料コラムのコンテンツを操作するにはどうすればよいですか?この3つのポイントをうまく活用すれば、月に...

コンテンツプロダクト運用(コンテンツプラットフォームプロダクト運用の4つのコツ)

コンテンツプラットフォーム製品運用の4つのコツ快手とは本来どのような製品なのでしょうか?この質問につ...