十一城

跬步千里,小流江海。

Home Linux ML Python Java Thoughts KmKg BookCan Links About

2018-02-04
机器学习-基础-数据挖掘

• 分类: ml • 标签:

数据挖掘、机器学习与深度学习

数据挖掘是一个很宽泛的概念, 只要能从已知数据得中到未知有益的信息都属于数据挖掘, 而机器学习属于数据挖掘的一种方法,深度学习(神经网络算法的新近发展,是随着机器学习概念被广知的)只是机器学习的一个子类。

大数据与机器学习

大数据(Spark/Hadoop)应该主要是处理大量数据(TB级)使用的技术,而机器学习主要是通过大量样本数据来进行学习从而对未知样本进行决策的方法,大数据重点在“大”,机器学习强调学习的过程。

要求

做到精通数据挖掘与机器学习算法,需要算法基础好,对算法原理实现优化应用有较深入了解

数据挖掘中的常见任务

  • 分类。是对新的数据推广已知的结构的任务。例如,一个电子邮件程序可能试图将一个电子邮件分类为“合法的”或“垃圾邮件”。
  • 回归。试图找到能够以最小误差对该数据建模的函数。
  • 聚类。是在未知数据的结构下,发现数据的类别与结构。
  • 异常检测(异常/变化/偏差检测)。识别不寻常的数据记录,错误数据需要进一步调查。
  • 关联规则学习(依赖建模)– 搜索变量之间的关系。例如,一个超市可能会收集顾客购买习惯的数据。运用关联规则学习,超市可以确定哪些产品经常一起买,并利用这些信息帮助营销。这有时被称为市场购物篮分析。
  • 汇总。提供了一个更紧凑的数据集表示,包括生成可视化和报表。

知乎对于机器学习的应用

  • 用户画像
  • 内容分析
  • 排序
  • 推荐
  • 商业化
  • 社区管理

参考

  1. https://zhuanlan.zhihu.com/p/26266371?utm_source=qq&utm_medium=social

dzzxjl

Home Linux ML Python Java Thoughts KmKg BookCan Links About