ဒေတာခွဲခြမ်းစိတ်ဖြာရေး စနစ်သည် လူ-စက် ပူးပေါင်းအသိုက်အဝန်း ဖြစ်သည်:
- စက်များသည် ဒေတာကို စုဆောင်းရန် တာဝန်ယူသည်
- စက်များသည် ဒေတာကို ကြိုတင် ပြင်ဆင်ခြင်း (pre-processing) လုပ်ရန် တာဝန်ယူသည်
- စက်များသည် လုပ်ငန်းရလဒ်ကို လူသားက အလွယ်တကူ ခွဲခြား နားလည်နိုင်သည့် ပုံစံဖြင့် ပြသပေးသည်
- လူသားသည် စက်များအလုပ်လုပ်ထားသည့် အခြေခံပေါ်မူတည်ပြီး ဒေတာမှ နိဂုံးချုပ်ချက်များကို ချမှတ်သည်
ထို့ကြောင့် ဒေတာခွဲခြမ်းစိတ်ဖြာမှုလုပ်ငန်းကို “ပိုက်လိုင်း” တစ်ခုလို သဘောထားမည်ဆိုလျှင် အနည်းဆုံး အပိုင်းနှစ်ပိုင်း ရှိသည်ဟု ဆိုနိုင်သည်:
- စက်အပိုင်း:နောက်ဆုံးထွက်ရှိလာမည့်အရာမှာ လူသားက ကိုင်တွယ်နိုင်သည့်1 ဇယား/ဂရပ်များ ဖြစ်သည်
- လူသားအပိုင်း:နောက်ဆုံးထွက်ရှိလာမည့်အရာမှာ ဒေတာနှင့်ပတ်သက်သည့် နိဂုံးချုပ်ချက် ဖြစ်သည်
အကျဉ်းချုပ်ပြောရလျှင် ပရိုဂရမ်မာများအတွက် ဒေတာခွဲခြမ်းစိတ်ဖြာမှု၏ အဓိကလုပ်ငန်းမှာ ဒေတာကို မြင်သာအောင် ပြသနိုင်စေရန် ဖြစ်သည်2။
-
လူသားက ကိုင်တွယ်နိုင်သည်ဆိုတာက “လူသားက ခွဲခြားမြင်နိုင်သည်” ဆိုတာနဲ့ မတူပါဘူး။ ဒေတာ hundreds TB ဆိုရင် စာသားအကြောင်းအရာတွေပဲ အများဆုံးဖြစ်လို့ လူသားတွေက လုံးဝမမြင်နိုင်ဘူးလို့တော့ မဟုတ်ပါ။ ဒါပေမယ့် ဒေတာပမာဏက လူသားရဲ့ ကိုင်တွယ်နိုင်စွမ်းထက်ကျော်လွန်နေပြီမို့ “ခွဲခြားမြင်နိုင်” လေောက်ပဲ မလုံလောက်ဘဲ “ကိုင်တွယ်နိုင်” ရန် မဖြစ်နိုင်တော့တာပါ။ လူသားကို ကိုင်တွယ်နိုင်စေဖို့ ဒေတာကို စုစည်းနိဂုံးချုပ်ပြီး လူသားက ခွဲခြားမြင်နိုင်သည့် ပုံစံဖြစ်အောင် ပြောင်းပြီး ဒေတာပမာဏ မကြီးအောင် ထိန်းရပါတယ်။ လူသားများရဲ့ အမြင်အာရုံမှ ဇယားပုံစံများကို မှတ်မိနားလည်နိုင်သည့် အားသာချက်ကို ထည့်သွင်းစဉ်းစားမယ်ဆိုရင် ဒေတာကို ပုံရိပ်(ပုံ) အဖြစ် စုစည်းဖော်ပြတာက သတင်းအချက်အလက်ပမာဏကို အများဆုံးဖော်ပြနိုင်စေပါတယ်။ ↩
-
ဒါဟာ R language က အရေးကြီးတယ်လို့ ထင်ရတဲ့ အကြောင်းရင်းတစ်ခုလည်း ဖြစ်နိုင်ပါတယ်။ ↩