数据分析系统是人机共同体:

  • 机器负责收集数据
  • 机器负责对数据进行预处理
  • 机器将工作结果以人类可以方便识别的方式展示出来
  • 人类在机器工作的基础上,对数据做出结论

所以,数据分析工作如果看作是一个管道的话,至少氛围两段:

  • 机器段:最终输出是人类可以处理1的图表。
  • 人类段:最终输出的是对数据的结论

综上,对程序员来说,数据分析的主要任务,就是让数据可视化。2

  1. 人类可以处理,并不是人类可以识别,毕竟数百TB的数据都是文本内容,人类都是可以识别的,但是数据量已经超过人类的处理能力,所以虽然人类可识别,但是人类不可处理。要人类可处理的数据,必须是进行概括,数据形式人类可识别,数据量不要太大。鉴于人类在图像识别上的巨大优势,所以将数据概括成图像的方式可以实现信息量的最大表达。 

  2. 这大概就是R语言之所以显得重要的一个原因吧。