データ操作層(データ層設計)

データ操作層(データ層設計)

データレイヤー設計

データ操作プロセスに応じて、データモデルを、次の図に示すように、データ操作層 (ODS)、データ ウェアハウス層 (DW)、データ アプリケーション層 (APP) の 3 つの層に分割します。簡単に言えば、ODS レイヤーにはアクセスされた元のデータが保存され、DW レイヤーにはデータ ウェアハウス内のデータが保存され、APP レイヤーにはビジネスに合わせてカスタマイズされたアプリケーション データが保存されます。


運用データ ソース レイヤーまたはデータ操作レイヤーは、データ ソース内のデータに最も近いレイヤーです。データ ソース内のデータは、ETL (抽出、変換、読み込み) 後にこのレイヤーに読み込まれます。この層のデータのほとんどは、ソース業務システムの分類方法に従って分類されます。


このレイヤーはデータ ソースに最も近いため、このデータ レイヤーに対して過度なデータ クリーニング作業を行うことはお勧めしません。元のデータにそのままアクセスするだけです。データのノイズ除去、重複排除、外れ値の除去については、後続の DWD レイヤーでこれらの操作を実行できます。


データ ウェアハウス レイヤー (データ ウェアハウス) は、データ ウェアハウスを設計するときに設計する必要があるコア レイヤーです。ここでは、ODS レイヤーから取得したデータを使用して、テーマに応じたさまざまなデータ モデルを構築します。 DW 層はさらに、次の図に示すように、DWD (データ ウェアハウス詳細) 層、DWM (データ ウェアハウス中間) 層、DWS (データ ウェアハウス サービス) 層に分かれています。


1) データ詳細レイヤー(DWD)

データ ウェアハウスの詳細: このレイヤーは通常、ODS レイヤーと同じデータ粒度を維持し、一定のデータ品質保証を提供します。同時に、データ詳細レイヤーの使いやすさを向上させるために、このレイヤーでは、ディメンションをファクト テーブルに縮退し、ファクト テーブルとディメンション テーブル間の関連付けを減らすいくつかのディメンション縮退方式を採用します。

さらに、このレイヤーでは、データの可用性を向上させるために、同じトピックに関するデータを 1 つのテーブルに収集するデータ集約が行われます。


2) データ中間層 (DWM)

データ ウェアハウス中間層 (Data Warehouse Middle) は、DWD 層に基づいてデータに対して軽い集計を実行し、一連の中間テーブルを生成することで、公開指標の再利用性を向上させ、繰り返し処理を削減します。直感的に言えば、共通のコアディメンションを集約し、対応する統計指標を計算することです。


3) データサービス層 (DWS)

データ サービス層は、データ マートまたはワイド テーブル (データ ウェアハウス サービス) とも呼ばれます。トラフィック、注文、ユーザーなどのビジネス部門に応じて、より多くのフィールドを持つ幅の広いテーブルが生成され、後続のビジネスクエリ、OLAP 分析、データ配布などを提供します。

一般的に、このレイヤーには比較的少数のデータ テーブルがあり、1 つのテーブルでより多くのビジネス コンテンツをカバーします。このレイヤーのテーブルはフィールド数が多いため、一般的にワイド テーブルと呼ばれます。

実際の計算では、幅の広い表の統計指標を DWD や ODS から直接計算すると、計算量が多すぎたり次元が少なすぎたりする問題が発生します。したがって、一般的な方法は、まず DWM レイヤーで複数の小さな中間テーブルを計算し、次にそれらを DWS ワイド テーブルに結合します。広いと狭いの境界を定義するのは難しいため、DWM レイヤーを削除して DWS レイヤーのみを残し、すべてのデータを DWS に配置することもできます。


データ アプリケーション層 (アプリケーション)、またはADS (アプリケーション データ サービス)は、主にデータ製品とデータ分析を提供するために使用されます。このレイヤーのデータは通常、Redis や PostgreSql などの共同オンライン システムで使用されるシステムに保存されます。データ分析やデータマイニングのために Hive や Druid に保存される場合もあります。たとえば、レポート データは Hive に保存できます。


ディメンション レイヤー (ディメンション)。一貫性のあるデータ分析ディメンション テーブルを確立すると、データ計算能力とアルゴリズムの不一致のリスクを軽減できます。ディメンションをモデリング ドライバーとして使用し、各ディメンションのビジネス上の意味に基づいて、ディメンションとディメンションの主キーを定義し、ディメンション属性を追加し、ディメンションを関連付けて計算ロジックとスノーフレーク モデルを定義することで、属性定義プロセスが完了し、一貫性のあるデータ分析ディメンション テーブルが確立されます。同時に、ディメンションのマスターとサブディメンションの関係を定義することもできます。サブディメンションの属性はマスター ディメンションにマージされて使用されるため、ディメンションの一貫性と利便性がさらに確保されます。


ディメンション レイヤーは 2 つの部分で構成されます。

1) 高カーディナリティのディメンション データ: 一般的には、ユーザー データ テーブルや製品データ テーブルなどのデータ テーブルで、データ量は数千万から数億に及びます。

2) 低カーディナリティのディメンション データ: 一般的には、列挙値の中国語の意味などの構成テーブルや、データ量が数千から数万に及ぶ日付ディメンション テーブルなどです。

<<:  データ操作機能 (企業のデジタル変革に必要なデータはどこにありますか? 企業のデータ操作の用途は何ですか?)

>>:  データオペレーター(新職業)

推薦する

ソーシャルeコマース推進計画(プライベートソーシャルネットワーキングによる新しい小売モデルの計画と開始手順)

プライベートソーシャルメディアで新しい小売モデルを計画し開始するための手順ソーシャルニューリテールプ...

ThemeforestでShopifyテーマを購入する方法

Themefoestは、ほぼすべての業界をカバーする最大のウェブサイトテンプレートリソースライブラリ...

情報ストリーム広告市場インサイトレポート(2019年情報ストリーム広告クリックスルー率データインサイトレポート)

2019 情報ストリーム広告クリックスルー率データインサイトレポートデジタルマーケティングが株式市...

月例業務分析会議の内容(会社のこれまでの業務を振り返る良い業務分析会議の開催方法)

効果的なビジネス分析会議を開催するにはどうすればよいでしょうか?ビジネス分析会議は、会社のこれまでの...

ブランドイベントマーケティングとは(2023年注目のブランドマーケティングイベントの部分分析)

2023年に注目を集めるブランドマーケティングイベントの分析2023年を振り返ると、今年は優れた評...

コード署名証明書の申請プロセス

現代のソフトウェア開発では、コード署名証明書これは、ソフトウェアのセキュリティと信頼性を確保するため...

ブランドマーケティングに適しているかどうか(スターバックス、あなた方はコーヒーを売っているわけではないと私は疑っていますし、多くの「証拠」があります...)

スターバックス、あなたはコーヒーを売っていないのではないかと思います。そして、私にはたくさんの「証拠...

運用とデータ分析の違い(運用とデータ分析をどのように組み合わせるか)

操作とデータ分析を組み合わせるにはどうすればよいでしょうか?運用戦略とデータ分析をどのように組み合わ...

ブランド企画スペシャリスト(ブランドプランナーの告白:他の人の企画も参考にします)

ブランドプランナーの告白:他の人のプランも参考にします言い換えれば、企画業界で早く上達したいなら、「...

単一ドメイン SSL 証明書とマルチドメイン SSL 証明書の主な違いは何ですか?

通常、Web サイトで使用される SSL 証明書はドメイン名にバインドする必要があります。保護される...

企業の運営にはどのような側面が含まれますか(企業の運営モデル、ビジネスモデル、管理モデル、利益モデル、マーケティングモデル)

企業の運営モデル、ビジネスモデル、経営モデル、利益モデル、マーケティングモデル企業のオペレーティング...

ブランド プランニングとはどのようなことか (成功するブランド ストーリーを作成する方法)

成功するブランドストーリーの作り方今日の世界では、ブランドはビジネス競争における重要な鍵の一つとなっ...

オフライン展開運用業務内容(チェーン展開:展開部門は何をすればいいかわからない?この記事を読めば展開部門がわかる)

チェーン展開:展開部門は何をしたらよいか分からない?この記事は開発部門を理解するのに役立ちますある衣...

データはビジネス上の意思決定を導く(ビジネス上の意思決定における大規模ビジュアルデータスクリーンの適用と効果評価に関する研究)

企業経営意思決定における視覚データ大画面の応用と効果評価に関する研究データ視覚化画面とは、チャート、...