特征工程
特征决定了机器学习的上限,而算法只不过是在逼近这个上限而已。
足见特征的重要性,以房子举个栗子:特征是机器学习的地基,而算法是在地基上的房子,地基不稳,也不会得到健壮的房子。
在机器学习和数据挖掘的书籍中都会提到特征工程,他们阐述了特征工程的类别,主要为特征提取和特征选择,并说明了他们的作用,但是好像也都没有详细的讲述如何做特征工程,其实原因也很简单,那些书籍重在讲述算法,所以他们尽量选择合适/简单的数据和特征,以便能讲清楚算法原理,所以,当你按照书上的那些例子跑实验,自然也能得到理想的结果,潜移默化的让你认为算法比特征工程重要,因为,你从来没有做过特征工程。
此文,拟打算探索一下特征工程,后续在动手撸实验,求是一下。
这是一个特征工程的思维导图:时光机。
机器学习被成为你一门艺术,一门黑艺术。
实践出真知。
参考资料
- 博客-极力推荐-许多文章都参考了这篇文章-另外可以关注该博主的邮件列表:http://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/
- 知乎-特征工程:https://www.zhihu.com/question/29316149
- 知乎-特征选择:https://www.zhihu.com/question/28641663/answer/41653367