ビッグデータ管理について知っておくべきことビッグデータ時代の静かな到来とともに、ビッグデータの価値が徐々に広く認識されるようになりました。ビッグデータを効果的に管理してデータ資産として蓄積し、社内でデータ資産の付加価値を実現し、社外でデータの共有と収益化を実現することは、企業の共通の要求です。 しかし、企業は基盤となるデータの管理において、さまざまな課題に直面することがよくあります。さまざまなビジネス システムが分散しており、情報の孤島が形成されています。統一されたデータ標準が確立されていない。データ処理能力が弱い。データは相互運用可能ではないため、データ共有メカニズムを確立することが困難です。 この記事では、ビッグデータ管理の 2 つの重要な概念である、データ ウェアハウスとデータ ガバナンスについて説明します。 (トップ) データ ウェアハウス |データ ウェアハウスとは何ですか? データ ウェアハウスは、データベース ベースの構築プロセスです。これは、主題指向の統合された比較的安定したデータ収集であり、歴史的変化を反映し、管理上の意思決定をサポートするために使用されます。 データ ウェアハウスを構築する前に、複数のソース テーブルをクエリして分析する必要があります。クエリが遅く、データ品質が低く、価値の高いデータ分析を実行できません。データ ウェアハウスを構築することで、複数のシステム ソース データに 1 か所ですばやくアクセスし、OLAP 分析に迅速に対応できるようになります。データの品質と一貫性を向上する。履歴データの保存を提供する。データ価値のマイニングとデータ分析にさらに役立ちます。 |データ ウェアハウスとデータベースの違い データベースはモノ向けに設計されており、ビジネス トランザクション処理 (OLTP) に重点を置いていますが、データ ウェアハウスはサブジェクト向けに設計されており、データ分析レベル (OLAP) に重点を置いています。 データベースは通常、オンライン トランザクション データを格納しますが、データ ウェアハウスは履歴情報を反映し、変更できない履歴データを保存します。 データベースは冗長性を回避しようとしますが、データ ウェアハウスは意図的に冗長性を作成し、スペースと時間を交換します。 銀行業務を例にとると、銀行で顧客が行ったすべての取引は、取引システムのデータ プラットフォームである「会計」システムとして機能するデータベースに記録する必要があります。データ ウェアハウスは分析システムのデータ プラットフォームであり、トランザクション システムからデータを取得して集約および処理し、分析による意思決定をサポートします。たとえば、支店で毎月どのくらいの取引が発生しているか、現在の預金残高はいくらかなどを把握して、ATM を追加するかどうかを決定します。 |データウェアハウスの全体的なフレームワーク データ ソース レイヤー: データベース、構造化電子ファイル、非構造化データ ファイル、動作ログなど、データ ウェアハウスがアクセスする必要があるデータ ソースをインベントリします。最終的に、データ ウェアハウスにアクセスすると、すべてのデータ タイプが、データベース テーブルと電子構造化ファイルの 2 つのデータ形式に変換されます。 データ アクセス層: さまざまな上位層アプリケーション シナリオに応じて、アクセスはリアルタイム アクセスとバッチ アクセスに分けられます。 リアルタイム アクセス: リアルタイム アクセス データの場合は、ストリーミング方式で Kafka に書き込み、後続の消費用にトピックを作成します。 バッチ アクセス: バッチ アクセス データには、主に 4 つの処理ロジックがあります。 Kafka に書き込まれたデータは Spark によって消費され、処理後に HDFS に書き込まれ、その後 Hive テーブルにロードされます。バッチ転送はFTPを使用して実行されます。 sqoop は、データベース データを HDFS または Hive にバッチで移行するために使用されます。データ共有および交換プラットフォームは、データベースまたはファイル データを抽出して保存します。 データコンピューティング層: ETL タスク開発。必要に応じて対応するファクト ディメンション テーブルまたはマート レベルのテーブルを生成します。業界では通常、データ ウェアハウスを 4 層アーキテクチャで構築します。
図: ODS から DW への統合例 データアプリケーション層: 次のような、データ ウェアハウスに基づくトップレベルのアプリケーションは多数あります。
(次へ) データガバナンス |なぜデータガバナンスが必要なのでしょうか? データガバナンスの技術手段と製品ツールを通じて、散在し多様化したコアデータを最適化し、企業内にデータ管理システムを形成し、企業の組織構造と組み合わせてデータ制御実行システムを形成します。これにより、企業内で継続的に運用され、マイニングデータの応用価値が向上します。 データ ガバナンスの最終的な目標は、次の 6 つのポイントに要約できます。
|データガバナンスをどのように実施するか? データ ガバナンスの 3 つの要素:データ標準、データ品質監査、メタデータ管理。以下でそれぞれについて詳しく説明します。 データ標準 ビジネスの観点から定義される、機器や会員データなど、異なるチャネルから取得されるが同じ意味を持つデータは、データ間で統一された標準と仕様を持つ必要があります。 技術的な観点からは、ID 情報、携帯電話番号、ID カード番号などのテーブル、フィールド、フィールド形式などを標準化する必要があります。 データ標準のソースは、国家標準、業界標準、またはビジネスベースのエンタープライズ標準です。 データ標準を定義した後、新しく構築されたデータ プラットフォームに統一されたデータ標準を採用する必要があります。既存のビジネス システムについては、オンライン操作に影響を与えることなく、データ標準を徐々に調整する必要があります。標準が実装された後は、長期的な監査と監視が必要となり、データ標準検証レポートを出力する必要があります。 図: データ標準管理サイクル データ品質監査 データ標準をデータ制御のエントリ ポイントとして使用し、データ標準に基づいてデータ品質検証ルールを決定します。データ監査には 8 種類の監査ルールがあります。最初の 6 つのタイプは単一テーブル レベルの検証であり、最後の 2 つのタイプは複数テーブル レベルの検証です。
メタデータ管理 メタデータはデータを定義するデータです。たとえば、本のタイトル、著者、出版社、出版日はすべてメタデータです。
ゴミを入れればゴミが出る。これは永遠の真実です。基礎となる基本データを適切に管理することによってのみ、上位レベルのビッグデータ アプリケーションをより効果的にサポートできます。 著者: Herman Lee パーソナルプロダクト方法論の促進 |
<<: 主要顧客製品オペレーション(顧客サービスにおける主要顧客維持と成長のための運用方法(パート 1))
>>: 天猫運営データ分析(1,606の新ブランドがトレンドトラックで1位を獲得し、天猫は「効率的な」ブルーブックセットをまとめた)
オペレーションとは何ですか?オペレーションは何を行いますか?インターネット環境においては、どのような...
インターネット時代において、独自のウェブサイトを持つことは非常に重要です。ウェブサイトを持つには、ド...
デジタル時代:ブランドはどのようにしてこの悪循環を打破できるのでしょうか? 「ブランドが水だとすると...
2023年7月の中国ソフトウェア産業の全体運営分析:累計営業収入6457億元中国ビジネス情報ネット...
Sping Boot は、Piotl チームが提供する新しいフレームワークです。新しい Sping ...
ケータリングブランドがデジタル化を進める新しい方法とは?エンターテイメント性のある注文により、ブラン...
危険を知り、チャンスをつかみ、効率を高める美的グループは1968年に設立され、1980年代に家電業界...
国内のウェブマスターが最もよく利用する海外サーバーはアメリカのサーバーです。ウェブマスターがサーバー...
中国鉄道北京工程局北京会社:強力な党建設ブランドで会社を強化し、高品質の発展を推進近年、中国鉄道北京...
11月28日、A株不動産セクターは日中上昇し、終値時点で1.84%上昇した。深セン振業Aと大歓楽城は...
新しいメディア運営委託を動機付けるにはどうすればよいでしょうか?新しいメディアプラットフォームとは何...
思考エッセイ:経営管理とは何か? 「ビジネス管理」はビジネスマンの間でよく使われる言葉です。しかし、...
Excelを使用したデータ分析データ分析は合理的な仕事であり、特定の要因が結果に影響を与えるかどう...
タオバオストアで最もよく使われる8つの運営戦略店舗が商品を申請し、それを棚で販売する場合、その店舗で...
新飲料ブランドのプロモーション戦略新飲料ブランドのプロモーション戦略新しい飲料ブランドのプロモーショ...