ဒေတာကြီးမားသော ခွဲခြမ်းစိတ်ဖြာမှုသည် လူ-စက် ပူးပေါင်းအသိုက်အဝန်း ဖြစ်သည်

ဒေတာခွဲခြမ်းစိတ်ဖြာရေး စနစ်သည် လူ-စက် ပူးပေါင်းအသိုက်အဝန်း ဖြစ်သည်：

စက်များသည် ဒေတာကို စုဆောင်းရန် တာဝန်ယူသည်
စက်များသည် ဒေတာကို ကြိုတင် ပြင်ဆင်ခြင်း (pre-processing) လုပ်ရန် တာဝန်ယူသည်
စက်များသည် လုပ်ငန်းရလဒ်ကို လူသားက အလွယ်တကူ ခွဲခြား နားလည်နိုင်သည့် ပုံစံဖြင့် ပြသပေးသည်
လူသားသည် စက်များအလုပ်လုပ်ထားသည့် အခြေခံပေါ်မူတည်ပြီး ဒေတာမှ နိဂုံးချုပ်ချက်များကို ချမှတ်သည်

ထို့ကြောင့် ဒေတာခွဲခြမ်းစိတ်ဖြာမှုလုပ်ငန်းကို “ပိုက်လိုင်း” တစ်ခုလို သဘောထားမည်ဆိုလျှင် အနည်းဆုံး အပိုင်းနှစ်ပိုင်း ရှိသည်ဟု ဆိုနိုင်သည်：

စက်အပိုင်း：နောက်ဆုံးထွက်ရှိလာမည့်အရာမှာ လူသားက ကိုင်တွယ်နိုင်သည့်¹ ဇယား/ဂရပ်များ ဖြစ်သည်
လူသားအပိုင်း：နောက်ဆုံးထွက်ရှိလာမည့်အရာမှာ ဒေတာနှင့်ပတ်သက်သည့် နိဂုံးချုပ်ချက် ဖြစ်သည်

အကျဉ်းချုပ်ပြောရလျှင် ပရိုဂရမ်မာများအတွက် ဒေတာခွဲခြမ်းစိတ်ဖြာမှု၏ အဓိကလုပ်ငန်းမှာ ဒေတာကို မြင်သာအောင် ပြသနိုင်စေရန် ဖြစ်သည်²။

လူသားက ကိုင်တွယ်နိုင်သည်ဆိုတာက “လူသားက ခွဲခြားမြင်နိုင်သည်” ဆိုတာနဲ့ မတူပါဘူး။ ဒေတာ hundreds TB ဆိုရင် စာသားအကြောင်းအရာတွေပဲ အများဆုံးဖြစ်လို့ လူသားတွေက လုံးဝမမြင်နိုင်ဘူးလို့တော့ မဟုတ်ပါ။ ဒါပေမယ့် ဒေတာပမာဏက လူသားရဲ့ ကိုင်တွယ်နိုင်စွမ်းထက်ကျော်လွန်နေပြီမို့ “ခွဲခြားမြင်နိုင်” လေောက်ပဲ မလုံလောက်ဘဲ “ကိုင်တွယ်နိုင်” ရန် မဖြစ်နိုင်တော့တာပါ။ လူသားကို ကိုင်တွယ်နိုင်စေဖို့ ဒေတာကို စုစည်းနိဂုံးချုပ်ပြီး လူသားက ခွဲခြားမြင်နိုင်သည့် ပုံစံဖြစ်အောင် ပြောင်းပြီး ဒေတာပမာဏ မကြီးအောင် ထိန်းရပါတယ်။ လူသားများရဲ့ အမြင်အာရုံမှ ဇယားပုံစံများကို မှတ်မိနားလည်နိုင်သည့် အားသာချက်ကို ထည့်သွင်းစဉ်းစားမယ်ဆိုရင် ဒေတာကို ပုံရိပ်(ပုံ) အဖြစ် စုစည်းဖော်ပြတာက သတင်းအချက်အလက်ပမာဏကို အများဆုံးဖော်ပြနိုင်စေပါတယ်။ ↩
ဒါဟာ R language က အရေးကြီးတယ်လို့ ထင်ရတဲ့ အကြောင်းရင်းတစ်ခုလည်း ဖြစ်နိုင်ပါတယ်။ ↩