データレイヤー設計データ操作プロセスに応じて、データモデルを、次の図に示すように、データ操作層 (ODS)、データ ウェアハウス層 (DW)、データ アプリケーション層 (APP) の 3 つの層に分割します。簡単に言えば、ODS レイヤーにはアクセスされた元のデータが保存され、DW レイヤーにはデータ ウェアハウス内のデータが保存され、APP レイヤーにはビジネスに合わせてカスタマイズされたアプリケーション データが保存されます。 運用データ ソース レイヤーまたはデータ操作レイヤーは、データ ソース内のデータに最も近いレイヤーです。データ ソース内のデータは、ETL (抽出、変換、読み込み) 後にこのレイヤーに読み込まれます。この層のデータのほとんどは、ソース業務システムの分類方法に従って分類されます。 このレイヤーはデータ ソースに最も近いため、このデータ レイヤーに対して過度なデータ クリーニング作業を行うことはお勧めしません。元のデータにそのままアクセスするだけです。データのノイズ除去、重複排除、外れ値の除去については、後続の DWD レイヤーでこれらの操作を実行できます。 データ ウェアハウス レイヤー (データ ウェアハウス) は、データ ウェアハウスを設計するときに設計する必要があるコア レイヤーです。ここでは、ODS レイヤーから取得したデータを使用して、テーマに応じたさまざまなデータ モデルを構築します。 DW 層はさらに、次の図に示すように、DWD (データ ウェアハウス詳細) 層、DWM (データ ウェアハウス中間) 層、DWS (データ ウェアハウス サービス) 層に分かれています。 1) データ詳細レイヤー(DWD) データ ウェアハウスの詳細: このレイヤーは通常、ODS レイヤーと同じデータ粒度を維持し、一定のデータ品質保証を提供します。同時に、データ詳細レイヤーの使いやすさを向上させるために、このレイヤーでは、ディメンションをファクト テーブルに縮退し、ファクト テーブルとディメンション テーブル間の関連付けを減らすいくつかのディメンション縮退方式を採用します。 さらに、このレイヤーでは、データの可用性を向上させるために、同じトピックに関するデータを 1 つのテーブルに収集するデータ集約が行われます。 2) データ中間層 (DWM) データ ウェアハウス中間層 (Data Warehouse Middle) は、DWD 層に基づいてデータに対して軽い集計を実行し、一連の中間テーブルを生成することで、公開指標の再利用性を向上させ、繰り返し処理を削減します。直感的に言えば、共通のコアディメンションを集約し、対応する統計指標を計算することです。 3) データサービス層 (DWS) データ サービス層は、データ マートまたはワイド テーブル (データ ウェアハウス サービス) とも呼ばれます。トラフィック、注文、ユーザーなどのビジネス部門に応じて、より多くのフィールドを持つ幅の広いテーブルが生成され、後続のビジネスクエリ、OLAP 分析、データ配布などを提供します。 一般的に、このレイヤーには比較的少数のデータ テーブルがあり、1 つのテーブルでより多くのビジネス コンテンツをカバーします。このレイヤーのテーブルはフィールド数が多いため、一般的にワイド テーブルと呼ばれます。 実際の計算では、幅の広い表の統計指標を DWD や ODS から直接計算すると、計算量が多すぎたり次元が少なすぎたりする問題が発生します。したがって、一般的な方法は、まず DWM レイヤーで複数の小さな中間テーブルを計算し、次にそれらを DWS ワイド テーブルに結合します。広いと狭いの境界を定義するのは難しいため、DWM レイヤーを削除して DWS レイヤーのみを残し、すべてのデータを DWS に配置することもできます。 データ アプリケーション層 (アプリケーション)、またはADS (アプリケーション データ サービス)は、主にデータ製品とデータ分析を提供するために使用されます。このレイヤーのデータは通常、Redis や PostgreSql などの共同オンライン システムで使用されるシステムに保存されます。データ分析やデータマイニングのために Hive や Druid に保存される場合もあります。たとえば、レポート データは Hive に保存できます。 ディメンション レイヤー (ディメンション)。一貫性のあるデータ分析ディメンション テーブルを確立すると、データ計算能力とアルゴリズムの不一致のリスクを軽減できます。ディメンションをモデリング ドライバーとして使用し、各ディメンションのビジネス上の意味に基づいて、ディメンションとディメンションの主キーを定義し、ディメンション属性を追加し、ディメンションを関連付けて計算ロジックとスノーフレーク モデルを定義することで、属性定義プロセスが完了し、一貫性のあるデータ分析ディメンション テーブルが確立されます。同時に、ディメンションのマスターとサブディメンションの関係を定義することもできます。サブディメンションの属性はマスター ディメンションにマージされて使用されるため、ディメンションの一貫性と利便性がさらに確保されます。 ディメンション レイヤーは 2 つの部分で構成されます。 1) 高カーディナリティのディメンション データ: 一般的には、ユーザー データ テーブルや製品データ テーブルなどのデータ テーブルで、データ量は数千万から数億に及びます。 2) 低カーディナリティのディメンション データ: 一般的には、列挙値の中国語の意味などの構成テーブルや、データ量が数千から数万に及ぶ日付ディメンション テーブルなどです。 |
<<: データ操作機能 (企業のデジタル変革に必要なデータはどこにありますか? 企業のデータ操作の用途は何ですか?)
Ant Village の今日の回答: オンラインコミュニケーションと顧客フィードバックのフォロー...
ユーザーの成長、データ分析はどうすればいいですか?インターネット企業では、トラフィックの購入が大部分...
快手酒類業界マーケティングソリューション毎年恒例の端午節の麹造りの季節が近づいており、快手プラットフ...
グリーンウェイ文化観光研究:我が国の観光開発と運営の6つの現状私の国の観光産業は「急成長」期を経験し...
最新のニュースによると、WodPess 5.9 が形になり始めています。少し前に、Joseph Hd...
SEO ランキングツールを公開: 検索エンジンで上位を維持するのに役立つ 5 つのツールウェブサイ...
Apche Tomct は、J Selet、JSee Pges、JExpession Lnguge、...
近年、ネットワークセキュリティの問題が多発しており、ユーザーのプライバシー情報セキュリティが潜在的な...
混乱しやすい!ビジネス成長戦略を選択するためのインサートマーケティングの3つの戦略を理解しています...
新しいメディアを運営する専門学校、テンセントニューメディアはどのように新しいメディアを運営しているの...
メディアスターソフト記事プロモーション小紅書情報フロー広告代理店、広告事例共有省レベルのローカルメデ...
新しいタオバオストアを素早くオープンするには、これらの8つのプロモーション方法を知っておく必要があり...
物流知識(II):基礎データ編集者注: インターネット技術の継続的な発展に伴い、さまざまな業界もイン...
コミュニティ運営データ分析システムの構築に役立つ 5 つのステップと 3 つの重要データ (パート ...
HBOがストリーミングで収益を上げる方法:Netflixにコンテンツを販売し、マーケティングコスト...