データセンター管理ソリューション(ビッグデータ管理プラットフォーム(データセンター)構築ソリューション)

データセンター管理ソリューション(ビッグデータ管理プラットフォーム(データセンター)構築ソリューション)

ビッグデータ管理プラットフォーム(データセンター)構築計画

ビッグデータ管理ミドルプラットフォームを構築し、統一されたデータ仕様と標準システムに基づいて、統一されたデータ収集・ガバナンス・共有標準、統一された技術開発システム、統一されたインターフェースAPIを確立し、データ収集、プラットフォームガバナンス、業務アプリケーションの3層の分離を実現し、統一された標準形式で効率的なデータサポートサービスを提供することで、上位の業務アプリケーションシステムが業務とデータフローの整理と再構築に重点を置くことを確保し、データのプレッシャーを解放し、システム開発サイクルを節約し、システム構築効率を向上させ、企業と政府のきめ細かなデータガバナンス、分類された組織、正確なサービス、安全で制御可能なデータリソースシステムに対する管理目標を満たします。

ビジネスシステムがより複雑になると、ビッグデータ管理プラットフォームにおける主流のソリューションは技術的なミドルオフィスソリューションとなり、その主な目的は情報サイロを打破することです。

データセンターの構築においては、主に次の目標を掲げています。

(1)重複を排除し、建設の重複を避け、車輪や煙突スタイルの建築の再発明を避け、会社のコストを節約する。

(2)再利用:システムは迅速に再利用でき、標準化、コンポーネント化、疎結合されており、フロントエンドビジネスの迅速な反復と柔軟な革新をサポートします。

(3)能力の強化、継続的な蓄積、サービスの継続的な育成、システムの統一的な管理。

データセンターの構築には次の方法が使用されます。

(1)中間プラットフォーム構築の目標と領域を明確にする。

(2)バリューチェーンを整理し、機能ポイントを抽出する。

(3)中間プラットフォームを設計し、フロントエンド、ミドルエンド、バックエンドの関係を整理する。

意思決定支援ソリューションでは、使用するデータは品質管理と意思決定支援とともにデータ ウェアハウスに保存されます。どのような種類のデータが利用可能かを分析するというのが私たちの考えです。データ ミドル プラットフォーム ソリューションでは、データの価値に基づいてデータ駆動型のアプローチを採用し、より多くのデータを収集し、実行内容に基づいてどのようなデータを収集するかを決定します。データ運用最適化では、標準化されたデータを使用し、データアプリケーションを標準化し、中間プラットフォームを最適化し、データアプリケーションクローズドループ(データ分析クローズドループ)を形成します。

データ サイロの問題を解決し、データの価値を高めて企業に還元します。データ主導のアプローチを採用し、必要なデータに基づいて適切な方法でデータを収集します。データのソースは、複数のシステムからの実際のデータと、機器によって収集されたリアルタイム データに基づいています。

ビッグデータシステム(データミドルプラットフォーム)では、各サブシステムの静的データと収集されたリアルタイムストリーミングデータを標準化する必要があります。データ ガバナンスのプロセスでは、さまざまなデータ ソースにアクセスし、全体的なメタデータ管理機能を提供し、ディレクトリとラベルの管理を提供すると同時に、データ自体に対する権限アクセス、データ探索、品質レポートを提供して、データ ガバナンスの能力とレベルを向上させます。

展開、収集、保存、更新、識別、関連付け、マイニング、意思決定、アクション、フィードバックまでのクローズドループによってのみ、データによるビジネス推進が可能になります。データの信頼性を前提として、データ駆動型ビジネスはデータによって推進され、ビジネス上の意思決定を提供し、企業に利益をもたらします。ビッグデータ分析システム(データセンター)の構築には、以下のような課題があります。

(1)データ収集の正確性を判断することが困難である。データが一方から他方へ流れる際、変換率の問題は避けられません。非現実的で異常なデータを除外し、実際のデータを収集し、完全なデータのクローズドループを実現する方法によって、データマイニングとデータ分析を商業的価値に変えることができます。本物データの収集と異常データのフィルタリングは、ビッグデータ プラットフォームの構築における難しさの 1 つです。

(2)技術選択の難しさビジネス関係者によってデータ要件は異なります。テクノロジーを選択する際には、これらの客観的な要件と主観的な好みに基づいて、さまざまなコンピューティング フレームワークとデータ コンポーネントが選択されます。特定の業界に適したビジネスアーキテクチャと技術アーキテクチャを構築すると、企業の変革が容易になりますが、ビッグデータ分析システムの構築が難しくなります

(3)データのニーズは多様であり、業務部門にはレポート計算、可視化ダッシュボード、データ探索、データサービス、結果プッシュ、データ収集と移行、ラベリングシステム、ユーザーリーチ、データアプリケーションなど、多様なニーズがある。

(4)データ管理が複雑である。データの解釈可能性と管理可能性に対する要件はますます厳しくなってきています。さまざまな新しいストレージ アーキテクチャの追加により、メタデータ管理とデータ処理の標準化がより複雑になります。

(5)データ権限管理:権限制御はデータ対応システムにおいて重要な機能である。新しいコンピューティング アーキテクチャには、さまざまなレベルのデータ権限、組織構造、役割、権限ポリシーの自動化、権限管理を実装する必要があります。

(6)データコストは高く、定量化が難しい。データコストには、クラスターコスト、運用保守コスト、人件費、時間コストなどが含まれます。これらのコストを継続的かつ体系的に計算するには、対応する統計インターフェースをシステムアーキテクチャに追加する必要がありますが、既存のミドルプラットフォームのほとんどはこれらのインターフェースを考慮していません。

(7)データ標準を確立し調整することが困難である。データ標準化構築には、主にデータ構築仕様におけるデータセキュリティ仕様、データストレージ仕様、データモデリング仕様、データアクセス仕様が含まれます。データ消費仕様におけるデータ破棄仕様、データ呼び出し仕様、およびデータ許可仕様。

ビッグデータの難しさの分析では、主に技術的な難しさと組織的な難しさがあります。上記の問題に対して、私たちは以下の対策を提案しました。

1) ビジネス価値を一致させる。ビジネスシナリオが明確になり、優先順位が不明確になり、価値測定システムが確立される前に、大規模で包括的なデータプラットフォームを構築してすべてのデータを保存しないでください。入出力比率をもっと考慮してください。大規模で包括的なデータ プラットフォームは、しばしば厄介な状況に直面します。多くの機能は非常に便利で、すべて使用する必要があるようですが、アプリケーション シナリオが不足しています。シナリオがあっても、そのままでは使用できず、多くのカスタマイズが必要であることがわかります。

2) 小さなデータと小さなシナリオから始めます。データ ミドル プラットフォームは、テクノロジー指向ではなくシナリオ指向です。このようなビジネス インフラストラクチャは、顧客のビジネス、企業の構造、情報開発の段階と密接に関連しています。大規模で包括的な製品を購入して、それを一気に解決するのは困難です。ローコード プラットフォームの組み込みコンポーネントとシナリオを活用して 3D 視覚化インターフェイスを構築し、効率的で高品質なソフトウェア開発を実現します。同時に、データミドルプラットフォームの開発ツールを組み合わせて、ローコードプラットフォームで構築されたシナリオアプリケーションにデータを提供します。

3) 技術選択の面では、Hadoop クラスター上に構築され、データ統合、データ準備、データマイニング (フルボリュームコンピューティング)、データ分析、データ可視化 (データ出力) が循環的なプロセスを形成します。データを接続することで、分析構造をリアルタイムに得ることができます。

データミドルプラットフォームとローコードプラットフォームを組み合わせるというアイデアにより、誰もが(特にマネージャーやビジネス担当者が)小さなデータと小さなシナリオから始めてオンラインコラボレーションおよび管理ツールを開発できるようになり、組織の効率とコラボレーション機能が根本的に向上します。ローコード プラットフォームがローコード データ プラットフォームとローコード開発プラットフォームの両方の機能を備えている場合、企業のデジタル管理を効率的に進めることができます。

(1)データセンターの機能アーキテクチャ

データセンターの全体的な機能アーキテクチャを図に示します。

データツールプラットフォーム層は、データミドルプラットフォームのキャリアであり、データ収集、ストレージ、コンピューティング、データセキュリティなどのビッグデータ処理の機能テクノロジが含まれています。また、オフラインまたはリアルタイムデータR&Dツール、データ接続ツール、ラベル設計ツール、アルゴリズムプラットフォームツール、データサービスツール、セルフサービス分析ツールなど、データ構築における一連のR&Dツールも含まれます。

データ資産層は、データの中核層であり、主題ドメインモデル領域、ラベルモデル領域、アルゴリズムモデル領域に分けられます。サブジェクト ドメイン モデルはビジネス分析に向けられており、ビジネス プロセスまたはディメンションの抽象的なコレクションです。ビジネス プロセスは、切り離せない動作の事実として要約できます。ラベル モデルには通常、企業のビジネス運用プロセス内のエンティティ オブジェクトが含まれます。これらのエンティティ オブジェクトは通常、さまざまなビジネス フローに散在しています。アルゴリズム モデルはビジネス シナリオに近くなります。アルゴリズム モデルを設計する際には、モデルのコールド スタートなどの問題を含め、アルゴリズム モデルの使用シナリオを繰り返し推測する必要があります。

データ アプリケーション層では、データ ミドル プラットフォームの使命はビジネスに貢献することです。ほぼすべての企業が、データミドルプラットフォームを構築しながらデータアプリケーションを計画しています。データ アプリケーションは、使用シナリオに応じて、分析および意思決定アプリケーション、ラベリング アプリケーション、インテリジェント アプリケーションに分類できます。

(2)データセンターの技術的アーキテクチャを図に示す。

※データウェアハウスのデータソースを提供するデータソース層。この技術アーキテクチャは、構造化データ、非構造化データ、およびファイル ログをサポートします。

※データ転送層では、構造化データ同期ツールはSqoop、非構造化データ同期ツールはDataX、ログファイルはデータ収集ツールFlumeを使用します。

※データストレージ層は、基盤となるデータストレージ層としてHDFS(分散ファイルシステム)を使用します。このシステムでは、時系列データを保存し、ビジネス層にデータ サービスを提供するために HBase データベースが提供されます。このストレージ レイヤーは、Kafka でのデータの二次処理と保存をサポートします。

※ リソース管理層は、主にノードのハードウェアリソース、ノードのリソース内の CPU とメモリの管理を提供します。

※データコンピューティング層:オフラインコンピューティングとリアルタイムコンピューティングの2つのコンピューティング方法を提供し、コンピューティング結果の階層的モデリングを実行します。この技術ソリューションでは、DWD(データ詳細層)、DWS(データサービス層/データ主体層)、ADS(データアプリケーション層)が採用されています。

※ビジネスレイヤー:主にデータの計算結果を表示するために使用されます。

1. データウェアハウス階層化技術

※ ODS 層:オリジナルデータ層。オリジナルデータを保存し、オリジナルログとデータを直接読み込み、データを加工せずにオリジナル形式のまま保存します。

※ DWD レイヤー: ODS レイヤーのデータをクリーンアップ (NULL 値、ダーティデータ、制限範囲を超えるデータの削除)、次元劣化の感度低下などを行います。

※ DWSレイヤー:DWDをベースに日次ベースで軽くまとめたもの。

※ DWTレイヤー:DWSをベースにトピックごとにまとめたもの。

2. データ標準化設計技術

(1)ODSオリジナルデータ層

Ods レイヤーの名前空間 namespace=ods;

Ods レイヤー テーブルの命名方法: tablename = ソース システム名 + テーブル名;

このレイヤーのデータは、最初に Kafka からアクセスされ、次に特定の方法で解析され、最終的に対応するテーブルに 1 つずつ保存されます。

(2)DWD詳細データ層

Dwd レイヤーの名前空間 namespace=dwd;

Dwd レイヤー テーブルの命名方法: tablename = ソース システム名 + テーブル名;

Dwd レイヤーと Ods レイヤーには 1 対 1 の関係があります。 Ods レイヤー データのクリーニング (null 値、ダーティ データ、制限範囲を超えるデータの削除)、次元の劣化、感度低下などの処理が行われます。

(3)DWSサービスデータ層

Dws レイヤーの名前空間 namespace=dws;

Dws レイヤー テーブルの命名方法 tablename = カスタム テーブル名;

Dws レイヤーと Dwd レイヤーは 1 対多の関係にあり、Dwd レイヤーが基準となり、日ごとに光が集約されます。

(4)DWTデータ主体層

Dwt レイヤーの名前空間 namespace=dwt;

Dwt レイヤー テーブルの命名方法 tablename=カスタム テーブル名;

Dwt レイヤーと Dws レイヤーは 1 対多の関係を持ち、Dws レイヤーに基づいてトピックごとに要約されます。

データ ウェアハウス階層化テクノロジー。

※ 明確なデータ構造: 各データ層には範囲と責任があり、テーブルを使用するときに見つけやすく、理解しやすくなります。

※重複開発の削減:データの階層化を標準化し、共通の中間層データを開発することで、重複計算を大幅に削減します。

※ データ容量の統一:データの階層化により、統一されたデータエクスポートを提供し、外部出力のデータ容量を統一します。

※ 複雑な問題を簡素化: 複雑なタスクを複数のステップに分割し、各レイヤーで 1 つのステップのみを処理するようにすることで、よりシンプルで理解しやすくなります。データに問題が発生した場合、すべてのデータを修復する必要はなく、問題のあるステップから修復を開始するだけで済みます。

元のデータの異常を保護: ビジネスを変更した後もデータに再度アクセスする必要はありません。

<<:  データミドルプラットフォーム運用ソリューション(「データミドルプラットフォーム」)

>>:  データに基づく運用計画(デジタル運用計画)

推薦する

微信ビジネス分裂排水(雑談6:非常にシンプルな微信ビジネストラフィック分裂マーケティングモデル)

その他6: 非常にシンプルなWeChatビジネストラフィック分裂マーケティングモデルその他 6: ...

研究推進計画(本テーマ教育研究事業計画は、要点を絞って合理的に構成されており、そのまま応用できるもの)

このテーマ教育研究作業計画は重要なポイントに焦点を当てており、よく整理されており、直接適用できます。...

ユーザー操作モデル(容量向上:共通ユーザー操作モデル6つ)

キャパシティ向上: ユーザー操作でよく使われる 6 つのモデル本日は、ユーザー操作プロセスで最もよく...

ビジネス分析の内容と方法(財務ビジネス分析シリーズにおけるビジネス分析で用いられる4つの方法)

財務およびビジネス分析シリーズ: ビジネス分析で使用される 4 つの方法財務・業務分析の過程では、さ...

SEO とは何を意味しますか? (SEO とは何ですか? SEO をどのように定義しますか?)

SEO とは何ですか? SEO の意味をどのように定義しますか? SEO の略語: 検索エンジン最...

グループブランド企画会社(「白雲歯磨き」に新たな動き!広州製薬グループが世界中からブランド企画を募集)

「白雲歯磨き」に新しい技が登場!広州製薬グループがグローバルブランド計画を募集白雲歯磨き公司の上級...

情報フロー広告にはどのプラットフォームが適していますか(広告をブロックし、プライバシーを保護することに関しては、このブラウザが世界最高のはずです)

広告をブロックしプライバシーを保護するという点では、このブラウザは世界一であるはずだマイクロソフトが...

phpStudy Apache がソリューションを開始できない

PHP プログラムの初心者開発者のほとんどは、phpStudy 統合環境を使用することを選択します。...

価値の創造: CJO がコアビジネス課題を解決する方法

出典: センサーデータ顧客の期待は高まり続けており、顧客の行動は劇的に変化しています。消費者が毎日数...

広告会社のブランド企画(オンラインブランド運用・ブランド広告のやり方)

オンラインブランド運営におけるブランド広告の実施方法企業にとって、オンラインブランド運営を成功させる...

ブランドマーケティング企画事例(ブランドデザインとブランド事例の違い)

ブランドデザインとブランドケースの違いブランドデザインとブランドケースは異なる概念であり、ブランド構...

ワインプロモーションコピー(魅力的な酒類投資プロモーション記事の書き方とは?完璧なコピーの書き方を教えます!)

酒類投資促進のための魅力的なソフト記事の書き方とは?完璧なコピーの書き方を教えます!酒類投資促進のた...

Ubuntu 22.04 の Redis のインストールと設定のチュートリアル

Redis は、データベースやキャッシュなどとして使用できるオープンソースのインメモリ データ構造ス...

SEO プロモーションの費用はいくらですか (ネットワーク SEO 最適化の費用とプログラムの見積もり)

インターネット SEO 最適化のコストとプログラムの見積もりオンライン SEO 最適化とは、ランキン...