Статистика: практический урок

Jul 4, 2024

Статистика: практический урок

Начало

  • Приветствие и введение в тему лекции
  • Тематика: практическая часть статистики на примере датасета с характеристиками красного вина

Подготовка

  • Импорт необходимых библиотек:
    • pandas для обработки данных
    • numpy для работы с массивами
    • matplotlib и seaborn для визуализации
  • Загрузка данных: датасет с характеристиками красного вина
  • Предварительный анализ данных: все данные числовые, пропусков нет

Описательная статистика

  • Использование функции describe для получения основных статистических характеристик:
    • Среднее арифметическое (mean)
    • Медиана (median)
    • Квантили (quantile)
    • Минимум и максимум (min, max)
    • Стандартное отклонение (std)
  • Проверка правильности расчетов средних арифметических и медианы
  • Построение гистограммы для визуализации распределения данных
    • Центральная тенденция (мода, медиана, среднее)
    • Пример кода для построения гистограммы в pandas

Графики и визуализация

  • Построение box plot для анализа распределения данных и выявления выбросов
  • Использование параметра bins для изменения интервалов гистограммы
  • Пример кода для построения box plot в matplotlib

Дисперсия и стандартное отклонение

  • Основные понятия:
    • Дисперсия для генеральной совокупности и выборки
    • Стандартное отклонение
  • Использование функции var для расчета дисперсии
  • Использование функции std для расчета стандартного отклонения
  • Пример кода с использованием numpy и pandas

Проверка гипотез

  • Понятие нулевой и альтернативной гипотезы
  • Критерий Шапиро-Уилка для проверки нормальности распределения
    • Импорт библиотеки scipy
    • Пример кода для применения критерия
  • Интерпретация p-value

Тест Стьюдента

  • Пример применения t-теста для двух выборок
    • Формулировка нулевой и альтернативной гипотезы
    • Пример кода с использованием scipy
  • Визуализация результатов с помощью гистограмм

Корреляция

  • Использование функции corr для вычисления корреляций между фичами
  • Построение графиков корреляции и heatmap для визуализации
    • Пример кода для построения heatmap в seaborn

Заключение

  • Обратная связь и призыв к активности на канале
  • Важные моменты лекции: функции для описательной статистики, дисперсии, стандарного отклонения, проверки гипотез, t-теста, и корреляции