🌲 使用Azure实现决策树分类算法

Jul 16, 2024

实现使用决策树的分类算法

概述

  • 目标:在 Microsoft Azure ML Studio Classic 中使用决策树实现分类算法。
  • 理论概要:假设已具备决策树的基础知识。
  • 使用工具:Microsoft Azure ML Studio Classic — 在任何机器上都可以运行。

开始使用 Microsoft Azure ML Studio Classic

  1. 登录到 Studio:导航到 studio.azureml.net 并登录。
  2. 创建新实验:点击 +New,然后选择 Blank Experiment

设置实验

  1. 导航到已保存的数据集:使用左侧面板找到 Samples 下的 Saved Datasets
  2. 选择数据集:将以下数据集拖动到工作区:
    • Airport Codes 数据集(列表中的第二个)
    • Flight On-time Performance 数据集

数据理解

  1. 航班准点表现数据集的详细信息
    • 列数:18
    • 行数:54,000
    • 内容:2011年的航班表现数据
    • 变量包括年份、季度、日期、承运人、起点/终点机场ID、和与航班时间(起飞、到达、延误)相关的时间。
    • 特别关注指示延误的列(起飞和到达)以及延误是否超过15分钟。

处理列

重要列的信息

  • 起飞延误:延误或提前的分钟数(负值表示提前)。
  • 到达延误:类似于起飞延误,但用于到达。
  • 起飞延误15(DepDel15):如果起飞延误超过15分钟,则为二进制标志(如果为真则为1,否则为0)。
  • 到达延误15(ArrDel15):如果到达延误超过15分钟,则为二进制标志(如果为真则为1,否则为0)。
  • 分类详细信息:与日期相关的列、运营商代码、哪个机场等。

任务:合并数据集

  1. 需求:将 Airport Codes 与主数据集结合以映射机场ID为有意义的名称和位置。
  2. 步骤
    • Airport Codes 数据集使用 Edit Metadata 并适当重新命名列以便合并。
    • 基于 origin_airport_iddest_airport_id 列执行 join 操作合并数据集。
    • 添加新的列以获取起点和终点的详细信息(城市、州、机场名称),以便于理解和查询。

数据转换和准备

  1. 需要移除的列:移除不需要分析的列,例如 origin_airport_iddest_airport_idcancelleddiverted
  2. 隔离:使用 Edit Metadata 隔离分类特征和数字特征。
  3. 处理缺失值:对分类和数字列分别使用 Clean Missing Data
  4. 标准化数据:对数字列(departure_delayarrival_delay)应用 Normalize Data 以确保一致的缩放。

分割数据

  1. 初步分割:使用 Split Data 组件将数据分割为 训练集(95%)测试集(5%)
  2. 进一步分割:使用另一个 Split Data 将训练数据进一步分为 训练集(81%)验证集(14%)

设置决策树模型

  1. 算法选择:使用 Two-Class Boosted Decision Tree 进行分类。
  2. 超参数调整
    • 使用 Tune Model Hyperparameters 模块找到分类算法的最佳配置。
    • 指定评估指标(例如,对于不平衡数据集的分类任务,使用F-score)。

评估和模型打分

  1. 链接模块
    • Tune Model Hyperparameters 中的 best 模型与 Train Model 连接,并使用训练数据集。
    • 使用 Score Model 测试使用验证集和/或测试集训练好的模型。
  2. 评估模型:使用 Evaluate Model 获得准确性、F1得分、精准度、召回率等指标。

结束说明及进一步任务

  • 部署:建模后的步骤包括设置实时预测的Web服务部署。
  • 探索性数据分析(EDA):使用 PowerBI 或 KNIME 等工具进行可视化分析,回答与客户流失和相关指标相关的问题。PowerBI的步骤包括导入数据集、创建可视化、在 Azure 进行填补处理,并使用 PowerBI 进行最终的可视化和解释。
  • 任务:特别涉及使用 Azure 和其他工具分析电信数据集以预测流失和其他财务预测指标。

常见问题

  1. 如何处理缺失值和标准化的具体细节。
  2. 部署和实时测试模型的详细步骤。
  3. 如何使用 PowerBI 和其他 EDA 工具的具体方法。
  4. 在 PowerBI 中创建可视化和箱线图的步骤。
  5. 关于数据类型的澄清 - 分类和数字处理方法。