Система анализа данных — это человеко-машинное сообщество:

  • Машина отвечает за сбор данных
  • Машина отвечает за предварительную обработку данных
  • Машина выводит результаты своей работы в формате, который человеку удобно воспринимать
  • Человек, опираясь на работу машины, делает выводы по данным

Поэтому, если рассматривать работу по анализу данных как «конвейер», то как минимум там есть две стадии:

  • Машинная стадия:конечный результат — графики1, с которыми человеку под силу работать
  • Человеческая стадия:конечный результат — выводы по данным

Итого, для программиста основная задача анализа данных — обеспечить визуализацию данных2

  1. «Человеку под силу» не означает «человеку под силу распознавать». Ведь сотни TB данных — это по большей части текст. Человек способен распознавать, но объём уже превышает его возможности обработки. Поэтому распознавать можно, а обрабатывать — нет. Чтобы данные стали под силу человеку, их нужно обобщать: представление должно быть распознаваемым человеком, а объём — не слишком большим. Учитывая колоссальные преимущества человека в распознавании изображений, перевод данных в графический формат позволяет добиться максимальной плотности представления информации. 

  2. Похоже, одна из причин, почему язык R кажется столь важным.