Система анализа данных — это человеко-машинное сообщество:
- Машина отвечает за сбор данных
- Машина отвечает за предварительную обработку данных
- Машина выводит результаты своей работы в формате, который человеку удобно воспринимать
- Человек, опираясь на работу машины, делает выводы по данным
Поэтому, если рассматривать работу по анализу данных как «конвейер», то как минимум там есть две стадии:
- Машинная стадия:конечный результат — графики1, с которыми человеку под силу работать
- Человеческая стадия:конечный результат — выводы по данным
Итого, для программиста основная задача анализа данных — обеспечить визуализацию данных2。
-
«Человеку под силу» не означает «человеку под силу распознавать». Ведь сотни TB данных — это по большей части текст. Человек способен распознавать, но объём уже превышает его возможности обработки. Поэтому распознавать можно, а обрабатывать — нет. Чтобы данные стали под силу человеку, их нужно обобщать: представление должно быть распознаваемым человеком, а объём — не слишком большим. Учитывая колоссальные преимущества человека в распознавании изображений, перевод данных в графический формат позволяет добиться максимальной плотности представления информации. ↩
-
Похоже, одна из причин, почему язык R кажется столь важным. ↩