特征工程

特征决定了机器学习的上限,而算法只不过是在逼近这个上限而已。

足见特征的重要性,以房子举个栗子:特征是机器学习的地基,而算法是在地基上的房子,地基不稳,也不会得到健壮的房子。

在机器学习和数据挖掘的书籍中都会提到特征工程,他们阐述了特征工程的类别,主要为特征提取和特征选择,并说明了他们的作用,但是好像也都没有详细的讲述如何做特征工程,其实原因也很简单,那些书籍重在讲述算法,所以他们尽量选择合适/简单的数据和特征,以便能讲清楚算法原理,所以,当你按照书上的那些例子跑实验,自然也能得到理想的结果,潜移默化的让你认为算法比特征工程重要,因为,你从来没有做过特征工程。

此文,拟打算探索一下特征工程,后续在动手撸实验,求是一下。

这是一个特征工程的思维导图:时光机

机器学习被成为你一门艺术,一门黑艺术。

实践出真知。

参考资料