SQL和Python中的特征工程：一种混合方法

小编:啊南 237阅读 2020.11.30

在了解Pandas之前，我很早就了解SQL，Pandas忠实地模拟SQL的方式使我很感兴趣。通常，SQL是供分析人员使用的，他们将数据压缩为内容丰富的报告，而Python供数据科学家使用的数据来构建（和过度拟合）模型。尽管它们在功能上几乎是等效的，但我认为这两种工具对于数据科学家有效地工作都是必不可少的。从我在熊猫的经历中，我注意到了以下几点：

当探索不同的功能时，我最终得到许多CSV文件。
当我聚合一个大DataFrame时，Jupyter内核就会死掉。
我的内核中有多个数据框，名称混乱（且太长）。
我的特征工程代码看起来很丑陋，散布在许多单元中。

当我直接开始使用SQL进行功能设计时，这些问题自然就会解决。因此，在这篇文章中，我将通过处理实战挑战数据集来分享一些我最喜欢的技巧。如果您了解一点SQL，那么现在就可以充分利用它了。

安装MySQL

首先，您需要一个SQL Server。我在这篇文章中使用MySQL。您可以通过安装本地桌面服务器之一（例如MAMP，WAMP或XAMPP）来获得MySQL服务器。在线上有许多教程，值得一试。

设置服务器后，请确保准备好三个项目：用户名，密码，端口号。通过输入以下命令通过终端登录（此处我们的用户名为“ root”，密码为1234567）。

然后在MySQL控制台中创建一个名为“ Shutterfly”的数据库（您可以随意命名）。这两个表将被加载到该数据库中。

安装sqlalchemy

您需要Pandas和sqlalchemy才能在Python中使用SQL。你可能已经有Pandas了。然后通过激活所需的环境以启动Jupyter Notebook来安装sqlalchemy，然后输入：

sqlalchemy模块还需要 MySQLdb 和 mysqlclient 模块。根据您的操作系统，可以使用不同的命令进行安装。

将数据集加载到MySQL服务器

在此示例中，我们将从两个CSV文件加载数据，并直接在MySQL中设计工程师功能。要加载数据集，我们需要使用用户名，密码，端口号和数据库名称实例化引擎对象。将创建两个表： Online 和 Order。将在每个表上创建一个自然索引。

在MySQL控制台中，您可以验证是否已创建表。

分割数据集

由于我们尚未构建任何特征，因此这似乎违反直觉。但这实际上非常整洁，因为我们要做的就是按索引拆分 数据集。通过设计，我还包括了我们尝试预测的标签。加载要素时，我们只需将索引与要素表连接。

在MySQL控制台中，您可以验证是否已创建训练和测试集。

特征工程

这是繁重的部分。我直接在Sublime Text中编写SQL代码，然后将其粘贴到MySQL控制台中来调试代码。因为此数据集是一个事件日志，所以我们必须避免将来的信息泄漏到每个数据点中。可以想象，每个功能都需要在历史记录中汇总！

连接表是最慢的操作，因此我们希望从每个连接中获得尽可能多的功能。在此数据集中，我实现了四种类型的联接，从而产生了四组要素。详细信息并不重要，但是您可以在此处找到我的所有SQL代码段。每个代码段都会创建一个表格。 该索引将保留，并且必须与训练集和测试集中的响应变量正确匹配。 每个代码段的结构如下：