Skip to content

Ковариация. Матрица ковариаций

Ковариация: простое объяснение с формулами

Ковариация — это статистическая мера, которая показывает, как две случайные величины изменяются относительно друг друга. Она помогает понять, есть ли взаимосвязь между изменениями этих величин. Давайте рассмотрим это на простом примере и приведём необходимые формулы.

Пример с ростом и весом

Представьте, что мы исследуем рост и вес группы людей. У нас есть данные о росте и весе каждого человека в этой группе. Мы хотим понять, есть ли какая-то взаимосвязь между ростом и весом: например, если человек выше, будет ли он обычно тяжелее?

Расчёт ковариации

Чтобы рассчитать ковариацию, нам нужно выполнить следующие шаги:

  1. Вычислить среднее значение для каждой величины (роста и веса): \(\bar{x} = \dfrac{1}{n} \sum_{i=1}^{n} x_i\) \(\bar{y} = \dfrac{1}{n} \sum_{i=1}^{n} y_i\) где \(\bar{x}\) — средний рост, \(\bar{y}\) — средний вес, \(n\) — количество пар данных.

  2. Найти отклонения каждой величины от их средних значений: \(x_i' = x_i - \bar{x}\) \(y_i' = y_i - \bar{y}\) где \(x_i'\) — отклонение каждого значения роста от среднего роста, \(y_i'\) — отклонение каждого значения веса от среднего веса.

  3. Умножить отклонения соответствующих величин для каждой пары данных: \(x_i' \cdot y_i'\)

  4. Вычислить среднее значение произведений отклонений: \(\text{cov}(X, Y) = \dfrac{1}{n} \sum_{i=1}^{n} (x_i' \cdot y_i') = \dfrac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\)

Пример расчёта

Допустим, у нас есть данные о росте и весе пяти человек:

Человек Рост (см) Вес (кг)
1 170 70
2 160 60
3 180 80
4 175 75
5 165 65
  1. Вычисляем средние значения: \(\bar{x} = \dfrac{170 + 160 + 180 + 175 + 165}{5} = 170 \, \text{см}\) \(\bar{y} = \dfrac{70 + 60 + 80 + 75 + 65}{5} = 70 \, \text{кг}\)

  2. Находим отклонения: \(x_i' = \{0, -10, 10, 5, -5\}\) \(y_i' = \{0, -10, 10, 5, -5\}\)

  3. Умножаем отклонения: \(x_i' \cdot y_i' = \{0 \cdot 0, (-10) \cdot (-10), 10 \cdot 10, 5 \cdot 5, (-5) \cdot (-5)\} = \{0, 100, 100, 25, 25\}\)

  4. Вычисляем среднее значение произведений отклонений: \(\text{cov}(X, Y) = \dfrac{1}{5} (0 + 100 + 100 + 25 + 25) = \dfrac{250}{5} = 50\)

Интерпретация

  • Положительная ковариация (в данном примере 50): Когда одна величина увеличивается, другая также склонна увеличиваться. В нашем случае, если рост человека больше среднего, его вес тоже больше среднего, и наоборот.
  • Отрицательная ковариация: Когда одна величина увеличивается, другая склонна уменьшаться. Например, если бы у нас были данные о количестве времени, проведённого за учёбой, и количестве свободного времени.
  • Нулевая ковариация: Нет явной взаимосвязи между изменениями двух величин. Например, рост и количество яблок, съедаемых в год, скорее всего, не связаны.

Матрица ковариаций

Матрица ковариаций — это квадратная матрица, которая описывает ковариации между множеством случайных величин. Она используется для анализа и визуализации взаимосвязей между несколькими переменными одновременно. Элементы на главной диагонали матрицы ковариаций представляют дисперсии отдельных случайных величин, а остальные элементы — ковариации между парами величин.

Определение матрицы ковариаций

Для набора случайных величин \(X = (X_1, X_2, \ldots, X_n)\), матрица ковариаций $ \Sigma $ определяется следующим образом:

\(\Sigma = \begin{pmatrix} \text{cov}(X_1, X_1) & \text{cov}(X_1, X_2) & \cdots & \text{cov}(X_1, X_n) \\\text{cov}(X_2, X_1) & \text{cov}(X_2, X_2) & \cdots & \text{cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{cov}(X_n, X_1) & \text{cov}(X_n, X_2) & \cdots & \text{cov}(X_n, X_n) \\\end{pmatrix}\)

Где \(\text{cov}(X_i, X_j)\) обозначает ковариацию между \(X_i\) и \(X_j\).

Пример матрицы ковариаций

Рассмотрим пример с тремя случайными величинами: ростом (\(X_1\)), весом (\(X_2\)) и возрастом (\(X_3\)) группы людей.

Допустим, у нас есть данные для \(n\) человек. Обозначим их \(X_1, X_2, X_3\) как векторы данных, представляющие рост, вес и возраст соответственно.

  1. Вычислим средние значения: \(\bar{X_1} = \dfrac{1}{n} \sum_{i=1}^n x_{1i}, \quad \bar{X_2} = \dfrac{1}{n} \sum_{i=1}^n x_{2i}, \quad \bar{X_3} = \dfrac{1}{n} \sum_{i=1}^n x_{3i}\)

  2. Вычислим ковариации: \(\text{cov}(X_1, X_1) = \dfrac{1}{n} \sum_{i=1}^n (x_{1i} - \bar{X_1})^2\) \(\text{cov}(X_2, X_2) = \dfrac{1}{n} \sum_{i=1}^n (x_{2i} - \bar{X_2})^2\) \(\text{cov}(X_3, X_3) = \dfrac{1}{n} \sum_{i=1}^n (x_{3i} - \bar{X_3})^2\) \(\text{cov}(X_1, X_2) = \dfrac{1}{n} \sum_{i=1}^n (x_{1i} - \bar{X_1})(x_{2i} - \bar{X_2})\) \(\text{cov}(X_1, X_3) = \dfrac{1}{n} \sum_{i=1}^n (x_{1i} - \bar{X_1})(x_{3i} - \bar{X_3})\) \(\text{cov}(X_2, X_3) = \dfrac{1}{n} \sum_{i=1}^n (x_{2i} - \bar{X_2})(x_{3i} - \bar{X_3})\)

  3. Составим матрицу ковариаций:

\(\Sigma = \begin{pmatrix} \text{cov}(X_1, X_1) & \text{cov}(X_1, X_2) & \text{cov}(X_1, X_3) \\\text{cov}(X_2, X_1) & \text{cov}(X_2, X_2) & \text{cov}(X_2, X_3) \\\text{cov}(X_3, X_1) & \text{cov}(X_3, X_2) & \text{cov}(X_3, X_3)\end{pmatrix}\)

Интерпретация матрицы ковариаций

  • Главная диагональ матрицы ковариаций ($ \Sigma $) содержит дисперсии каждой случайной величины: \(\Sigma_{ii} = \text{cov}(X_i, X_i) = \text{Var}(X_i)\)
  • Вне диагональные элементы матрицы ковариаций показывают ковариации между различными парами случайных величин: \(\Sigma_{ij} = \text{cov}(X_i, X_j)\) Эти элементы помогают понять, насколько изменения одной случайной величины связаны с изменениями другой.

Пример данных и вычислений

Допустим, у нас есть данные для пяти человек:

Человек Рост (см) Вес (кг) Возраст (лет)
1 170 70 30
2 160 60 25
3 180 80 35
4 175 75 28
5 165 65 32
  1. Средние значения: \(\bar{X_1} = \dfrac{170 + 160 + 180 + 175 + 165}{5} = 170 \, \text{см}\) \(\bar{X_2} = \dfrac{70 + 60 + 80 + 75 + 65}{5} = 70 \, \text{кг}\) \(\bar{X_3} = \dfrac{30 + 25 + 35 + 28 + 32}{5} = 30 \, \text{лет}\)

  2. Ковариации: \(\text{cov}(X_1, X_1) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{1i} - 170)^2 = 50\) \(\text{cov}(X_2, X_2) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{2i} - 70)^2 = 50\) \(\text{cov}(X_3, X_3) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{3i} - 30)^2 = 14.8\) \(\text{cov}(X_1, X_2) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{1i} - 170)(x_{2i} - 70) = 50\) \(\text{cov}(X_1, X_3) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{1i} - 170)(x_{3i} - 30) = 11\) \(\text{cov}(X_2, X_3) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{2i} - 70)(x_{3i} - 30) = 11\)

  3. Матрица ковариаций:

\(\Sigma = \begin{pmatrix}50 & 50 & 11 \\50 & 50 & 11 \\11 & 11 & 14.8\end{pmatrix}\)

Заключение

Матрица ковариаций является важным инструментом в статистике и анализе данных, так как она позволяет одновременно оценивать взаимосвязи между несколькими случайными величинами. В реальной жизни матрицы ковариаций используются в финансовом анализе, машинном обучении, обработке сигналов и многих других областях.