データ分析でよく使われる 5 つの統計概念のうち、いくつ知っていますか?データ分析を始めるのに必要なスキルは何かという質問に答えるとき、私はよく統計の知識について言及します。統計学は、数学理論を使用してデータ分析を実行する手法です。統計を通じて、より情報主導で的を絞った方法でデータを操作できるようになります。 データ分析業務では、統計を使用することで、データがどのように正確に整理されているかをより深く注意深く観察し、この整理構造に基づいてデータ分析方法を決定することで、より多くの情報を得ることができます。 今日は、データ分析でよく使われる 5 つの基本的な統計概念を紹介します。 機能統計 特徴統計は、おそらくデータ サイエンスで最も一般的に使用される統計概念です。 これは、偏差、分散、平均、中央値、パーセンタイルなど、データセットを調査するときによく使用される統計手法の集合です。 機能の統計を理解し、コードに実装するのは非常に簡単です。次の図をご覧ください。 上の図では、中央の直線がデータの中央値を表しています。中央値は外れ値に対してより堅牢であるため、平均値よりも使用されます。 最初の四分位数は基本的に 25 パーセンタイルであり、データの 25% がこの値を下回ることを意味します。第 3 四分位数は 75 パーセンタイルであり、データの 75% がこの値を下回ることを意味します。最大値と最小値は、データ範囲の上限と下限を表します。 ボックス プロットは、基本的な統計的特徴の役割をわかりやすく示しています。
確率分布 確率は、何らかの出来事が起こる可能性をパーセンテージで表したものと定義できます。 データ サイエンスでは、これは 0 から 1 のスケールで定量化されることが多く、 0 はイベントが確実に発生しないことを意味し、1 はイベントが確実に発生することを意味します。 確率分布は、すべての可能な値が発生する確率を表す関数です。次の図をご覧ください。 一般的な確率分布、一様分布(上)、正規分布(中央)、ポアソン分布(下): 均等配分 一様分布は最も基本的な確率分布です。特定の範囲内でのみ現れる値を持ち、その範囲外の値はすべて 0 になります。0 または別の値の 2 つのカテゴリを持つ変数と考えることもできます。カテゴリ変数は0以外の複数の値を持つ場合がありますが、それでも複数の均一に分布する区分関数として視覚化できます。 正規分布 正規分布はガウス分布とも呼ばれ、平均と標準偏差によって定義されます。平均は空間全体に分布し、標準偏差はそれがどの程度広がっているかを制御します。他の分布との主な違いは、標準偏差がすべての方向で同じであることです。したがって、ガウス分布を使用すると、データ セットの平均だけでなく、データの広がり、つまり、データが広い範囲に広がっているか、主にいくつかの値に集中しているかがわかります。 ポアソン分布 ポアソン分布は正規分布に似ていますが、多少の歪みがあります。正規分布と同様に、ポアソン分布は歪度値が低い場合、すべての方向に比較的均一に広がります。ただし、歪度の値が非常に大きい場合、さまざまな方向へのデータの広がりは異なります。一方の方向ではデータの拡散が非常に大きく、もう一方の方向では拡散が非常に小さくなります。 ガウス分布に遭遇した場合、ガウス分布に対してデフォルトで適切に機能するアルゴリズムが多数あることがわかっているので、まずそれらのアルゴリズムを見つける必要があります。ポアソン分布の場合、空間拡張の変化に対して堅牢なアルゴリズムを選択するように特に注意する必要があります。 次元削減 次元削減という用語は、データセットの次元を削減するという意味として直感的に理解されます。データ サイエンスでは、これは特徴変数の数です。次の図をご覧ください。 上の画像の立方体は、3 次元で合計 1000 個のポイントを持つデータセットを表しています。 現在の計算能力では、1,000 ポイントを計算するのは簡単ですが、規模が大きくなると問題が発生します。 ただし、立方体の側面など、2 次元の観点からのみデータを見ると、すべての色を簡単に分離できることがわかります。 次元を削減することで、3D データを 2D 平面上に表示し、計算に必要なポイントの数を実質的に 100 に削減し、計算量を大幅に節約します。 もう 1 つの方法は、特徴量の削減によって次元を削減することです。このアプローチを使用すると、分析にとって重要ではないと思われる機能をすべて削除できます。 たとえば、データセットを調べた結果、10 個の特徴のうち 7 個は出力と高い相関関係があり、残りの 3 個は相関関係が非常に低いことが判明する場合があります。 まあ、これら 3 つの関連性の低い特徴は計算する価値がない可能性があり、出力に影響を与えずに分析から単に削除できる可能性があります。 次元削減のための最も一般的な統計手法は PCA であり、基本的には、出力に対する重要性、つまり関連性を示す特徴のベクトル表現を作成します。 PCA は上記の 2 次元削減操作を実行するために使用できます。 オーバーサンプリングとアンダーサンプリング オーバーサンプリングとアンダーサンプリングは、分類問題で使用される手法です。たとえば、1 つのクラスの例は 2000 個ありますが、2 番目のクラスの例は 200 個しかありません。 これにより、データをモデル化して予測を行うために使用する多くの機械学習技術が台無しになります。さて、オーバーサンプリングとアンダーサンプリングでこの状況に対処できます。 次の図をご覧ください。 上図の左側と右側では、青いクラスの方がオレンジ色のクラスよりもサンプル数が多くなっています。この場合、機械学習モデルのトレーニングに役立つ 2 つの前処理の選択肢があります。 アンダーサンプリングとは、サンプル数の多いカテゴリから一部のデータのみを選択し、サンプル数の少ないカテゴリからはできるだけ多くのサンプルを使用することを意味します。この選択は、分類の確率分布を維持するために行う必要があります。サンプル数を減らすことで、データセットのバランスをより良くするだけです。 オーバーサンプリングとは、少数クラスのコピーを作成して、多数クラスと同じ数の例を作成することを意味します。少数派層の分布を維持するためにレプリカが作られるでしょう。より多くのデータを取得することなく、データセットをよりバランスの取れたものにしました。 ベイズ統計 ベイズ統計を使用する理由を完全に理解するには、まず頻度主義統計がどこで失敗するかを理解する必要があります。頻度主義統計は、「確率」という言葉を聞いたときにほとんどの人が最初に思い浮かべる統計の種類です。 これは、イベントの発生確率を分析するために何らかの数学理論を適用することを含み、具体的には、計算するデータは事前データのみです。 サイコロを一つ渡して、6 が出る確率はどれくらいかと尋ねたら、ほとんどの人は 6 分の 1 と答えるでしょう。 しかし、誰かがあなたに、常に 6 が出る特定のサイコロを渡したらどうでしょうか?頻度分析では過去のデータのみが考慮されるため、不正なサイコロが与えられたという事実は考慮されません。 ベイズ統計ではこの点が考慮されており、ベイズの定理を使ってこれを説明することができます。 式中の確率 P(H) は、本質的には、イベント発生の確率に関する過去のデータに基づく頻度分析です。式中の P(E|H) は可能性と呼ばれ、本質的には周波数分析から得られた情報に基づいて現象が正しい確率です。 たとえば、サイコロを 10,000 回振って、最初の 1,000 回ですべて 6 が出た場合、サイコロが不正行為をしているとほぼ確信できます。頻度分析が非常に適切に行われていれば、6 ポイントの推測が正しいと確信できます。同時に、サイコロの不正行為が実際にあるかどうか、独自の事前確率と頻度分析に基づいて、不正行為の要素も考慮します。 式からわかるように、ベイズ統計ではすべてが考慮に入れられます。 過去のデータが将来のデータや結果を適切に表していないと思われる場合は、ベイズ統計手法を使用する必要があります。 |
<<: オペレーション データ スペシャリストの仕事内容 (Meituan テイクアウト オペレーション試験の受験方法、受験要件、キャリア開発の見通しは良好か)
>>: 運用管理には何が含まれますか? (セキュリティ運用管理:受動的な防御から能動的な監視へ)
新飲料ブランドのプロモーション戦略新飲料ブランドのプロモーション戦略新しい飲料ブランドのプロモーショ...
個人のセルフメディアは、ショートビデオをうまく運用するにはどうすればいいでしょうか? #秋のライフチ...
張朝陽の「分割睡眠法」はお勧めですか?専門家:これは個別のケースであり、盲目的に推進すべきではないS...
RT-Martはコピーライティングを巧みに使ってショッピングフェスティバルの雰囲気を高めている今年...
嘉義ブランドのCEO徐張業氏は、ハイエンドブランド研究所のシンクタンク専門家として活躍している。最近...
後浪は中国各地で輝き、「後浪」の商標も様々な産業に根付いている少し前に数日間ホットな検索に上がってい...
良いビジネスを運営するには、これらの6つのメカニズムが不可欠です多くの企業は、創業段階から製品や販...
DigiCetは現在、世界最大のデジタル認証局であり、信頼できるSSL証明書ブランドであり、費用対効...
グロースハッカーが運用データ分析を行うための 29 のプロジェクト、68 の手法、3 つの表新規ユー...
情報の流れを促進する方法昇進について語る方法は多すぎます。重要なのは、自分がどの分野にいるのかを見極...
電子商取引事業者として、質の高い週報を書くにはどうすればよいでしょうか? # 週報#日付: [日付範...
MLM 関係者から見た「聖書」『民間資本白書』の解釈みなさんこんにちは。Tiantian Anti...
NoKVM の無料 KVM ホスト管理システム コントロール パネルが正常にインストールされたら、ブ...
通信マーケティング推進プログラム通信マーケティングプロモーション計画 - ターゲット市場分析。 1....
彼女は軽食を売るために屋台を出しました。このトリックのおかげで彼女は月に数万元多く稼ぐことができた。...