暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

初识Kaggle

好奇驱动技术 2019-07-07
539

转载一篇关于Kaggle的入门文章,技术体系上涉及全面,值得一读。文章来源:公众号 一点半克



前言

分享小组良好的执行了一年多些,但因为特定原因也消停沉寂了一段时间,能够重新再起航,是一种不错的感觉,希望后续我们能够保持的更好,更聚焦的更系统的做一些技术和生活感悟上的分享,希望能有更多的人的支持和加入!

什么是Kaggle

Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。它吸引了大量数据科学家、机器学习开发者的参与,为各类现实中的商业难题开发基于数据的算法解决方案。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。

Kaggle社区在圈内极受欢迎:用户基数大、粘性强。Kaggle是当今最大的数据科学家、机器学习开发者社区,其行业地位独一无二。github之于程序员,就如Kaggle之于数据科学家。

打开Kaggle的网站注册成功后,映入眼帘的是如下的首页:风格必然是典型欧美风。多少会让我这种新手不知所措,所以,接下来我们要讲讲,零基础的人如何上手Kaggle。

零基础的人如何上手Kaggle?

一般来讲,参赛者最好具有统计、计算机或数学相关背景,有一定的coding技能,对机器学习和深度学习有基本的了解。Kaggle任务虽然不限制编程语言,但绝大多数队伍会选用Python和R,所以你应该至少熟悉其中一种。> 如果从未独立做过一个项目,会更建议从练习赛开始熟悉,感兴趣的同学先去独立做一下入门题目和playground的训练赛。> 此外,如果基础为0的同学,是可以从learning开始。有很多迷你课程,方便普及和快速了解多方面知识

学习Kaggle有什么意义?
  • 更好的提升自己知识体系的方式?没有比做题目和其他人一起竞赛更能挖掘自己的潜力,提升自己的战斗力了。

  • 证明自己的机会?排名靠前的都是大神,如果你感觉自己是一个天赋异禀的孩子,那就该让自己冲到最前面?

  • 找工作的好背书,kaggle在数据科学领域享有盛名,所有,数据工程师或者数据科学家自然会非常看重kaggle的排名和分数。

  • 纯粹是有趣,你总要找点乐子,不是吗?

对于新人,如何在Kaggle中提升排位?
  • 选择合适的队友--->最好有大神带路

  • 选择合适的题目--->数据量较小的题目

  • 选择恰当的工具--->从学习Machine Learning中常用的模型开始

新手课程演示

基本上每一个课程主题都是先讲解,然后是习题课,根据讲解的函数使用方法来线上执行,分析执行的结果。这有点是各种版本的hello-world,但都非常实用。

如何使用python中非常强大的Pandas

红框是你自己要输入的代码,左侧三角形是运行按钮,下面的是输出结果。可以实时看到,语法错误也会得到相应提示。

关于pandas和scikit-learn

有一个micro learning就是专门介绍Pandas,作为python机器学习最重要的几个数据处理库,非常重要和关键。sklearn是一个机器学习库,把一些常用的传统机器学习实现封装到了库中,方便直接使用。

Pandas是Python第三方库,提供高性能易用数据类型和分析工具,Pandas基于NumPy实现,常与NumPy和Matplotlib一同使用。共有两个数据类型:Series,DataFrame

机器学习的思维导

sklearn库的汇总


sklearn库的结构

可以看到库的算法主要有四类:分类,回归,聚类,降维

  • 常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees

  • 常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees

  • 常用聚类:k均值(K-means)、层次聚类(Hierarchical clustering)、DBSCAN

  • 常用降维:LinearDiscriminantAnalysis、PCA

解决问题的流程
  • 链接场景和目标

  • 链接评估准则

  • 认识数据,熟悉场景

  • 数据预处理(清洗、调权)借助python语言特性可以尽量优化简化这里的时间耗费

  • 特征工程,找到了一个不错的思维导图(下方)

  • 模型调参

  • 型状态分析

  • 模型融合

最后的最后

作为一个新手,整理这些Kaggle的介绍,也让我更加沉迷这个平台和工具,就像是github提供了我们无穷尽的思路和技巧,我相信如果想试着去学习好机器学习,做一个不错的数据科学家,那么kaggle就是最棒的导师,一起努力!


文章转载自好奇驱动技术,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论