Ковариация. Матрица ковариаций
Ковариация: простое объяснение с формулами¶
Ковариация — это статистическая мера, которая показывает, как две случайные величины изменяются относительно друг друга. Она помогает понять, есть ли взаимосвязь между изменениями этих величин. Давайте рассмотрим это на простом примере и приведём необходимые формулы.
Пример с ростом и весом¶
Представьте, что мы исследуем рост и вес группы людей. У нас есть данные о росте и весе каждого человека в этой группе. Мы хотим понять, есть ли какая-то взаимосвязь между ростом и весом: например, если человек выше, будет ли он обычно тяжелее?
Расчёт ковариации¶
Чтобы рассчитать ковариацию, нам нужно выполнить следующие шаги:
-
Вычислить среднее значение для каждой величины (роста и веса): \(\bar{x} = \dfrac{1}{n} \sum_{i=1}^{n} x_i\) \(\bar{y} = \dfrac{1}{n} \sum_{i=1}^{n} y_i\) где \(\bar{x}\) — средний рост, \(\bar{y}\) — средний вес, \(n\) — количество пар данных.
-
Найти отклонения каждой величины от их средних значений: \(x_i' = x_i - \bar{x}\) \(y_i' = y_i - \bar{y}\) где \(x_i'\) — отклонение каждого значения роста от среднего роста, \(y_i'\) — отклонение каждого значения веса от среднего веса.
-
Умножить отклонения соответствующих величин для каждой пары данных: \(x_i' \cdot y_i'\)
-
Вычислить среднее значение произведений отклонений: \(\text{cov}(X, Y) = \dfrac{1}{n} \sum_{i=1}^{n} (x_i' \cdot y_i') = \dfrac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\)
Пример расчёта¶
Допустим, у нас есть данные о росте и весе пяти человек:
Человек | Рост (см) | Вес (кг) |
---|---|---|
1 | 170 | 70 |
2 | 160 | 60 |
3 | 180 | 80 |
4 | 175 | 75 |
5 | 165 | 65 |
-
Вычисляем средние значения: \(\bar{x} = \dfrac{170 + 160 + 180 + 175 + 165}{5} = 170 \, \text{см}\) \(\bar{y} = \dfrac{70 + 60 + 80 + 75 + 65}{5} = 70 \, \text{кг}\)
-
Находим отклонения: \(x_i' = \{0, -10, 10, 5, -5\}\) \(y_i' = \{0, -10, 10, 5, -5\}\)
-
Умножаем отклонения: \(x_i' \cdot y_i' = \{0 \cdot 0, (-10) \cdot (-10), 10 \cdot 10, 5 \cdot 5, (-5) \cdot (-5)\} = \{0, 100, 100, 25, 25\}\)
-
Вычисляем среднее значение произведений отклонений: \(\text{cov}(X, Y) = \dfrac{1}{5} (0 + 100 + 100 + 25 + 25) = \dfrac{250}{5} = 50\)
Интерпретация¶
- Положительная ковариация (в данном примере 50): Когда одна величина увеличивается, другая также склонна увеличиваться. В нашем случае, если рост человека больше среднего, его вес тоже больше среднего, и наоборот.
- Отрицательная ковариация: Когда одна величина увеличивается, другая склонна уменьшаться. Например, если бы у нас были данные о количестве времени, проведённого за учёбой, и количестве свободного времени.
- Нулевая ковариация: Нет явной взаимосвязи между изменениями двух величин. Например, рост и количество яблок, съедаемых в год, скорее всего, не связаны.
Матрица ковариаций¶
Матрица ковариаций — это квадратная матрица, которая описывает ковариации между множеством случайных величин. Она используется для анализа и визуализации взаимосвязей между несколькими переменными одновременно. Элементы на главной диагонали матрицы ковариаций представляют дисперсии отдельных случайных величин, а остальные элементы — ковариации между парами величин.
Определение матрицы ковариаций¶
Для набора случайных величин \(X = (X_1, X_2, \ldots, X_n)\), матрица ковариаций $ \Sigma $ определяется следующим образом:
\(\Sigma = \begin{pmatrix} \text{cov}(X_1, X_1) & \text{cov}(X_1, X_2) & \cdots & \text{cov}(X_1, X_n) \\\text{cov}(X_2, X_1) & \text{cov}(X_2, X_2) & \cdots & \text{cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{cov}(X_n, X_1) & \text{cov}(X_n, X_2) & \cdots & \text{cov}(X_n, X_n) \\\end{pmatrix}\)
Где \(\text{cov}(X_i, X_j)\) обозначает ковариацию между \(X_i\) и \(X_j\).
Пример матрицы ковариаций¶
Рассмотрим пример с тремя случайными величинами: ростом (\(X_1\)), весом (\(X_2\)) и возрастом (\(X_3\)) группы людей.
Допустим, у нас есть данные для \(n\) человек. Обозначим их \(X_1, X_2, X_3\) как векторы данных, представляющие рост, вес и возраст соответственно.
-
Вычислим средние значения: \(\bar{X_1} = \dfrac{1}{n} \sum_{i=1}^n x_{1i}, \quad \bar{X_2} = \dfrac{1}{n} \sum_{i=1}^n x_{2i}, \quad \bar{X_3} = \dfrac{1}{n} \sum_{i=1}^n x_{3i}\)
-
Вычислим ковариации: \(\text{cov}(X_1, X_1) = \dfrac{1}{n} \sum_{i=1}^n (x_{1i} - \bar{X_1})^2\) \(\text{cov}(X_2, X_2) = \dfrac{1}{n} \sum_{i=1}^n (x_{2i} - \bar{X_2})^2\) \(\text{cov}(X_3, X_3) = \dfrac{1}{n} \sum_{i=1}^n (x_{3i} - \bar{X_3})^2\) \(\text{cov}(X_1, X_2) = \dfrac{1}{n} \sum_{i=1}^n (x_{1i} - \bar{X_1})(x_{2i} - \bar{X_2})\) \(\text{cov}(X_1, X_3) = \dfrac{1}{n} \sum_{i=1}^n (x_{1i} - \bar{X_1})(x_{3i} - \bar{X_3})\) \(\text{cov}(X_2, X_3) = \dfrac{1}{n} \sum_{i=1}^n (x_{2i} - \bar{X_2})(x_{3i} - \bar{X_3})\)
-
Составим матрицу ковариаций:
\(\Sigma = \begin{pmatrix} \text{cov}(X_1, X_1) & \text{cov}(X_1, X_2) & \text{cov}(X_1, X_3) \\\text{cov}(X_2, X_1) & \text{cov}(X_2, X_2) & \text{cov}(X_2, X_3) \\\text{cov}(X_3, X_1) & \text{cov}(X_3, X_2) & \text{cov}(X_3, X_3)\end{pmatrix}\)
Интерпретация матрицы ковариаций¶
- Главная диагональ матрицы ковариаций ($ \Sigma $) содержит дисперсии каждой случайной величины: \(\Sigma_{ii} = \text{cov}(X_i, X_i) = \text{Var}(X_i)\)
- Вне диагональные элементы матрицы ковариаций показывают ковариации между различными парами случайных величин: \(\Sigma_{ij} = \text{cov}(X_i, X_j)\) Эти элементы помогают понять, насколько изменения одной случайной величины связаны с изменениями другой.
Пример данных и вычислений¶
Допустим, у нас есть данные для пяти человек:
Человек | Рост (см) | Вес (кг) | Возраст (лет) |
---|---|---|---|
1 | 170 | 70 | 30 |
2 | 160 | 60 | 25 |
3 | 180 | 80 | 35 |
4 | 175 | 75 | 28 |
5 | 165 | 65 | 32 |
-
Средние значения: \(\bar{X_1} = \dfrac{170 + 160 + 180 + 175 + 165}{5} = 170 \, \text{см}\) \(\bar{X_2} = \dfrac{70 + 60 + 80 + 75 + 65}{5} = 70 \, \text{кг}\) \(\bar{X_3} = \dfrac{30 + 25 + 35 + 28 + 32}{5} = 30 \, \text{лет}\)
-
Ковариации: \(\text{cov}(X_1, X_1) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{1i} - 170)^2 = 50\) \(\text{cov}(X_2, X_2) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{2i} - 70)^2 = 50\) \(\text{cov}(X_3, X_3) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{3i} - 30)^2 = 14.8\) \(\text{cov}(X_1, X_2) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{1i} - 170)(x_{2i} - 70) = 50\) \(\text{cov}(X_1, X_3) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{1i} - 170)(x_{3i} - 30) = 11\) \(\text{cov}(X_2, X_3) = \dfrac{1}{5} \sum_{i=1}^{5} (x_{2i} - 70)(x_{3i} - 30) = 11\)
-
Матрица ковариаций:
\(\Sigma = \begin{pmatrix}50 & 50 & 11 \\50 & 50 & 11 \\11 & 11 & 14.8\end{pmatrix}\)
Заключение¶
Матрица ковариаций является важным инструментом в статистике и анализе данных, так как она позволяет одновременно оценивать взаимосвязи между несколькими случайными величинами. В реальной жизни матрицы ковариаций используются в финансовом анализе, машинном обучении, обработке сигналов и многих других областях.