سیستم تحلیل داده، یک جامعهٔ مشترکِ انسان و ماشین است:
- ماشین مسئول جمعآوری دادههاست
- ماشین مسئول پیشپردازش دادههاست
- ماشین نتیجهٔ کار خود را به شکلی نمایش میدهد که انسان بتواند بهراحتی آن را تشخیص دهد
- انسان بر پایهٔ کاری که ماشین انجام داده، از دادهها نتیجهگیری میکند
بنابراین، اگر کار تحلیل داده را مثل یک «لوله/مسیر» در نظر بگیریم، دستکم دو بخش داریم:
- بخشِ ماشین:خروجی نهایی نمودارهایی است که انسان میتواند با آنها کار کند1
- بخشِ انسان:خروجی نهایی، نتیجهگیری دربارهٔ دادههاست
در مجموع، برای برنامهنویسها وظیفهٔ اصلی تحلیل داده این است که داده را «قابل مشاهده» کند2。
-
اینکه انسان بتواند با داده «کار کند» به معنی این نیست که انسان «قابل تشخیص» است. چون صدها ترابایت داده عمدتاً محتوای متنی است و انسان اصولاً میتواند آن را تشخیص بدهد، اما حجم داده از توان پردازشِ انسان بسیار فراتر است. پس هرچند انسان میتواند تشخیص دهد، اما نمیتواند پردازش کند. برای اینکه داده برای انسان قابلکار باشد، باید داده را خلاصه کرد؛ شکل داده برای انسان قابل تشخیص باشد و حجم آن هم خیلی بزرگ نباشد. با توجه به برتری بزرگ انسان در تشخیص تصویر، تبدیل دادهها به شکل تصویر راهی است برای بیشینهسازی بیان اطلاعات. ↩
-
احتمالاً همین هم یکی از دلایلی است که زبان R را مهم جلوه میدهد. ↩