データセンター管理ソリューション(ビッグデータ管理プラットフォーム(データセンター)構築ソリューション)

データセンター管理ソリューション(ビッグデータ管理プラットフォーム(データセンター)構築ソリューション)

ビッグデータ管理プラットフォーム(データセンター)構築計画

ビッグデータ管理ミドルプラットフォームを構築し、統一されたデータ仕様と標準システムに基づいて、統一されたデータ収集・ガバナンス・共有標準、統一された技術開発システム、統一されたインターフェースAPIを確立し、データ収集、プラットフォームガバナンス、業務アプリケーションの3層の分離を実現し、統一された標準形式で効率的なデータサポートサービスを提供することで、上位の業務アプリケーションシステムが業務とデータフローの整理と再構築に重点を置くことを確保し、データのプレッシャーを解放し、システム開発サイクルを節約し、システム構築効率を向上させ、企業と政府のきめ細かなデータガバナンス、分類された組織、正確なサービス、安全で制御可能なデータリソースシステムに対する管理目標を満たします。

ビジネスシステムがより複雑になると、ビッグデータ管理プラットフォームにおける主流のソリューションは技術的なミドルオフィスソリューションとなり、その主な目的は情報サイロを打破することです。

データセンターの構築においては、主に次の目標を掲げています。

(1)重複を排除し、建設の重複を避け、車輪や煙突スタイルの建築の再発明を避け、会社のコストを節約する。

(2)再利用:システムは迅速に再利用でき、標準化、コンポーネント化、疎結合されており、フロントエンドビジネスの迅速な反復と柔軟な革新をサポートします。

(3)能力の強化、継続的な蓄積、サービスの継続的な育成、システムの統一的な管理。

データセンターの構築には次の方法が使用されます。

(1)中間プラットフォーム構築の目標と領域を明確にする。

(2)バリューチェーンを整理し、機能ポイントを抽出する。

(3)中間プラットフォームを設計し、フロントエンド、ミドルエンド、バックエンドの関係を整理する。

意思決定支援ソリューションでは、使用するデータは品質管理と意思決定支援とともにデータ ウェアハウスに保存されます。どのような種類のデータが利用可能かを分析するというのが私たちの考えです。データ ミドル プラットフォーム ソリューションでは、データの価値に基づいてデータ駆動型のアプローチを採用し、より多くのデータを収集し、実行内容に基づいてどのようなデータを収集するかを決定します。データ運用最適化では、標準化されたデータを使用し、データアプリケーションを標準化し、中間プラットフォームを最適化し、データアプリケーションクローズドループ(データ分析クローズドループ)を形成します。

データ サイロの問題を解決し、データの価値を高めて企業に還元します。データ主導のアプローチを採用し、必要なデータに基づいて適切な方法でデータを収集します。データのソースは、複数のシステムからの実際のデータと、機器によって収集されたリアルタイム データに基づいています。

ビッグデータシステム(データミドルプラットフォーム)では、各サブシステムの静的データと収集されたリアルタイムストリーミングデータを標準化する必要があります。データ ガバナンスのプロセスでは、さまざまなデータ ソースにアクセスし、全体的なメタデータ管理機能を提供し、ディレクトリとラベルの管理を提供すると同時に、データ自体に対する権限アクセス、データ探索、品質レポートを提供して、データ ガバナンスの能力とレベルを向上させます。

展開、収集、保存、更新、識別、関連付け、マイニング、意思決定、アクション、フィードバックまでのクローズドループによってのみ、データによるビジネス推進が可能になります。データの信頼性を前提として、データ駆動型ビジネスはデータによって推進され、ビジネス上の意思決定を提供し、企業に利益をもたらします。ビッグデータ分析システム(データセンター)の構築には、以下のような課題があります。

(1)データ収集の正確性を判断することが困難である。データが一方から他方へ流れる際、変換率の問題は避けられません。非現実的で異常なデータを除外し、実際のデータを収集し、完全なデータのクローズドループを実現する方法によって、データマイニングとデータ分析を商業的価値に変えることができます。本物データの収集と異常データのフィルタリングは、ビッグデータ プラットフォームの構築における難しさの 1 つです。

(2)技術選択の難しさビジネス関係者によってデータ要件は異なります。テクノロジーを選択する際には、これらの客観的な要件と主観的な好みに基づいて、さまざまなコンピューティング フレームワークとデータ コンポーネントが選択されます。特定の業界に適したビジネスアーキテクチャと技術アーキテクチャを構築すると、企業の変革が容易になりますが、ビッグデータ分析システムの構築が難しくなります

(3)データのニーズは多様であり、業務部門にはレポート計算、可視化ダッシュボード、データ探索、データサービス、結果プッシュ、データ収集と移行、ラベリングシステム、ユーザーリーチ、データアプリケーションなど、多様なニーズがある。

(4)データ管理が複雑である。データの解釈可能性と管理可能性に対する要件はますます厳しくなってきています。さまざまな新しいストレージ アーキテクチャの追加により、メタデータ管理とデータ処理の標準化がより複雑になります。

(5)データ権限管理:権限制御はデータ対応システムにおいて重要な機能である。新しいコンピューティング アーキテクチャには、さまざまなレベルのデータ権限、組織構造、役割、権限ポリシーの自動化、権限管理を実装する必要があります。

(6)データコストは高く、定量化が難しい。データコストには、クラスターコスト、運用保守コスト、人件費、時間コストなどが含まれます。これらのコストを継続的かつ体系的に計算するには、対応する統計インターフェースをシステムアーキテクチャに追加する必要がありますが、既存のミドルプラットフォームのほとんどはこれらのインターフェースを考慮していません。

(7)データ標準を確立し調整することが困難である。データ標準化構築には、主にデータ構築仕様におけるデータセキュリティ仕様、データストレージ仕様、データモデリング仕様、データアクセス仕様が含まれます。データ消費仕様におけるデータ破棄仕様、データ呼び出し仕様、およびデータ許可仕様。

ビッグデータの難しさの分析では、主に技術的な難しさと組織的な難しさがあります。上記の問題に対して、私たちは以下の対策を提案しました。

1) ビジネス価値を一致させる。ビジネスシナリオが明確になり、優先順位が不明確になり、価値測定システムが確立される前に、大規模で包括的なデータプラットフォームを構築してすべてのデータを保存しないでください。入出力比率をもっと考慮してください。大規模で包括的なデータ プラットフォームは、しばしば厄介な状況に直面します。多くの機能は非常に便利で、すべて使用する必要があるようですが、アプリケーション シナリオが不足しています。シナリオがあっても、そのままでは使用できず、多くのカスタマイズが必要であることがわかります。

2) 小さなデータと小さなシナリオから始めます。データ ミドル プラットフォームは、テクノロジー指向ではなくシナリオ指向です。このようなビジネス インフラストラクチャは、顧客のビジネス、企業の構造、情報開発の段階と密接に関連しています。大規模で包括的な製品を購入して、それを一気に解決するのは困難です。ローコード プラットフォームの組み込みコンポーネントとシナリオを活用して 3D 視覚化インターフェイスを構築し、効率的で高品質なソフトウェア開発を実現します。同時に、データミドルプラットフォームの開発ツールを組み合わせて、ローコードプラットフォームで構築されたシナリオアプリケーションにデータを提供します。

3) 技術選択の面では、Hadoop クラスター上に構築され、データ統合、データ準備、データマイニング (フルボリュームコンピューティング)、データ分析、データ可視化 (データ出力) が循環的なプロセスを形成します。データを接続することで、分析構造をリアルタイムに得ることができます。

データミドルプラットフォームとローコードプラットフォームを組み合わせるというアイデアにより、誰もが(特にマネージャーやビジネス担当者が)小さなデータと小さなシナリオから始めてオンラインコラボレーションおよび管理ツールを開発できるようになり、組織の効率とコラボレーション機能が根本的に向上します。ローコード プラットフォームがローコード データ プラットフォームとローコード開発プラットフォームの両方の機能を備えている場合、企業のデジタル管理を効率的に進めることができます。

(1)データセンターの機能アーキテクチャ

データセンターの全体的な機能アーキテクチャを図に示します。

データツールプラットフォーム層は、データミドルプラットフォームのキャリアであり、データ収集、ストレージ、コンピューティング、データセキュリティなどのビッグデータ処理の機能テクノロジが含まれています。また、オフラインまたはリアルタイムデータR&Dツール、データ接続ツール、ラベル設計ツール、アルゴリズムプラットフォームツール、データサービスツール、セルフサービス分析ツールなど、データ構築における一連のR&Dツールも含まれます。

データ資産層は、データの中核層であり、主題ドメインモデル領域、ラベルモデル領域、アルゴリズムモデル領域に分けられます。サブジェクト ドメイン モデルはビジネス分析に向けられており、ビジネス プロセスまたはディメンションの抽象的なコレクションです。ビジネス プロセスは、切り離せない動作の事実として要約できます。ラベル モデルには通常、企業のビジネス運用プロセス内のエンティティ オブジェクトが含まれます。これらのエンティティ オブジェクトは通常、さまざまなビジネス フローに散在しています。アルゴリズム モデルはビジネス シナリオに近くなります。アルゴリズム モデルを設計する際には、モデルのコールド スタートなどの問題を含め、アルゴリズム モデルの使用シナリオを繰り返し推測する必要があります。

データ アプリケーション層では、データ ミドル プラットフォームの使命はビジネスに貢献することです。ほぼすべての企業が、データミドルプラットフォームを構築しながらデータアプリケーションを計画しています。データ アプリケーションは、使用シナリオに応じて、分析および意思決定アプリケーション、ラベリング アプリケーション、インテリジェント アプリケーションに分類できます。

(2)データセンターの技術的アーキテクチャを図に示す。

※データウェアハウスのデータソースを提供するデータソース層。この技術アーキテクチャは、構造化データ、非構造化データ、およびファイル ログをサポートします。

※データ転送層では、構造化データ同期ツールはSqoop、非構造化データ同期ツールはDataX、ログファイルはデータ収集ツールFlumeを使用します。

※データストレージ層は、基盤となるデータストレージ層としてHDFS(分散ファイルシステム)を使用します。このシステムでは、時系列データを保存し、ビジネス層にデータ サービスを提供するために HBase データベースが提供されます。このストレージ レイヤーは、Kafka でのデータの二次処理と保存をサポートします。

※ リソース管理層は、主にノードのハードウェアリソース、ノードのリソース内の CPU とメモリの管理を提供します。

※データコンピューティング層:オフラインコンピューティングとリアルタイムコンピューティングの2つのコンピューティング方法を提供し、コンピューティング結果の階層的モデリングを実行します。この技術ソリューションでは、DWD(データ詳細層)、DWS(データサービス層/データ主体層)、ADS(データアプリケーション層)が採用されています。

※ビジネスレイヤー:主にデータの計算結果を表示するために使用されます。

1. データウェアハウス階層化技術

※ ODS 層:オリジナルデータ層。オリジナルデータを保存し、オリジナルログとデータを直接読み込み、データを加工せずにオリジナル形式のまま保存します。

※ DWD レイヤー: ODS レイヤーのデータをクリーンアップ (NULL 値、ダーティデータ、制限範囲を超えるデータの削除)、次元劣化の感度低下などを行います。

※ DWSレイヤー:DWDをベースに日次ベースで軽くまとめたもの。

※ DWTレイヤー:DWSをベースにトピックごとにまとめたもの。

2. データ標準化設計技術

(1)ODSオリジナルデータ層

Ods レイヤーの名前空間 namespace=ods;

Ods レイヤー テーブルの命名方法: tablename = ソース システム名 + テーブル名;

このレイヤーのデータは、最初に Kafka からアクセスされ、次に特定の方法で解析され、最終的に対応するテーブルに 1 つずつ保存されます。

(2)DWD詳細データ層

Dwd レイヤーの名前空間 namespace=dwd;

Dwd レイヤー テーブルの命名方法: tablename = ソース システム名 + テーブル名;

Dwd レイヤーと Ods レイヤーには 1 対 1 の関係があります。 Ods レイヤー データのクリーニング (null 値、ダーティ データ、制限範囲を超えるデータの削除)、次元の劣化、感度低下などの処理が行われます。

(3)DWSサービスデータ層

Dws レイヤーの名前空間 namespace=dws;

Dws レイヤー テーブルの命名方法 tablename = カスタム テーブル名;

Dws レイヤーと Dwd レイヤーは 1 対多の関係にあり、Dwd レイヤーが基準となり、日ごとに光が集約されます。

(4)DWTデータ主体層

Dwt レイヤーの名前空間 namespace=dwt;

Dwt レイヤー テーブルの命名方法 tablename=カスタム テーブル名;

Dwt レイヤーと Dws レイヤーは 1 対多の関係を持ち、Dws レイヤーに基づいてトピックごとに要約されます。

データ ウェアハウス階層化テクノロジー。

※ 明確なデータ構造: 各データ層には範囲と責任があり、テーブルを使用するときに見つけやすく、理解しやすくなります。

※重複開発の削減:データの階層化を標準化し、共通の中間層データを開発することで、重複計算を大幅に削減します。

※ データ容量の統一:データの階層化により、統一されたデータエクスポートを提供し、外部出力のデータ容量を統一します。

※ 複雑な問題を簡素化: 複雑なタスクを複数のステップに分割し、各レイヤーで 1 つのステップのみを処理するようにすることで、よりシンプルで理解しやすくなります。データに問題が発生した場合、すべてのデータを修復する必要はなく、問題のあるステップから修復を開始するだけで済みます。

元のデータの異常を保護: ビジネスを変更した後もデータに再度アクセスする必要はありません。

<<:  データミドルプラットフォーム運用ソリューション(「データミドルプラットフォーム」)

>>:  データに基づく運用計画(デジタル運用計画)

推薦する

コンテンツ品質運用業務内容(コンテンツ品質向上に向けた動画アカウント運用の新戦略)

コンテンツの質を向上させるための動画アカウント運用の新戦略ビデオ アカウントの人気が高まるにつれ、ビ...

株価は10年近く横ばいだったが、なぜ上海電気は突然ヒットしたのか?

11月7日の午前の取引で、上海電気は再び一日の制限値を突破した。終値時点で株価は1株当たり11.18...

SSL 証明書申請時に提出した情報が間違っている、または変更が必要な場合はどうすればよいですか?

ウェブサイトのセキュリティは SSL 証明書と切り離せません。SSL 証明書を導入したウェブサイトは...

インターネット ブランド マーケティング (FAQ とヒント: インターネットが急速に発展しているときにブランド マーケティングを行うには?)

FAQ とヒント: インターネットは急速に発展していますが、ブランド マーケティングをどのように行...

資本運用内容(資本運用)

資本運用#金融##考える##お金を稼ぐ#ある日、長い間会っていなかった友人と話をしていたところ、彼が...

高級品のマーケティング(上海の欧州企業 | ノルウェーの飲料水VOSS:新たな消費シナリオを打破、コスト管理は優先事項ではない)

上海の欧州企業 |ノルウェー飲料水VOSS:新たな消費シナリオを打ち破る、コスト管理は優先事項ではな...

コンテンツ運用とは具体的に何をするのか(プラットフォームサポート、業界全体で短編ドラマに注目 2024年のキーワード:コンテンツの洗練)

プラットフォーム支援、業界全体で短編ドラマに注目 2024年 キーワード:高品質コンテンツ2023年...

Linuxシステムでよく使われるファイル管理コマンドの概要

Linux では、ほとんどの操作はファイルに対して実行されます。関連するコマンドを実行することで、こ...

BigCommerce チュートリアル: 忘れたユーザー パスワードをリセットする方法

BigCommeceとは何ですか? BigCommeceはSSを基盤とした専門的な越境電子商取引独立...

ブランド統合マーケティング_ブランドマーケティング(ブランド統合マーケティング、企業のエンパワーメントと市場競争力の強化)

ブランド統合マーケティングは企業に力を与え、市場競争力を高めます今日の競争の激しいビジネス環境におい...

情報フロー広告フィード(コンテンツの時代が到来、フィードフローがまだ分からないとは言わないで)

コンテンツの時代が到来しました。フィードフローをまだ理解していないとは言わないで近年はインターネット...

ホームファニシングブランドのプロモーション(家具ブランドを宣伝するには?)

家具ブランドを宣伝するにはどうすればいいですか?家具ブランドを宣伝する方法について私の考えをお話しし...

データ運用スペシャリストの職務内容(南京採用 | Didi Chuxing 採用(事務員/段階的昇給/屋内オフィス))

南京採用 | Didi Chuxing 採用(事務員/段階昇給/屋内オフィス) Didi Chuxi...

情報フロー広告最適化とは(第2類電子商取引|情報フロー広告最適化とは、何を最適化するのか?)

2 次電子商取引 |情報フロー広告最適化とは、具体的に何が最適化されるのでしょうか?次のシナリオは...

工業塩製造販売(中国塩青海昆侖アルカリ工業有限公司)

中国国家塩業青海昆侖アルカリ工業株式会社中国国家塩業青海昆侖アルカリ工業株式会社(略称「崑崙アルカリ...