နီဇော်သစ်

ပြီးခဲ့သည့်  ရက်ပိုင်းအတွင်းက    မိတ်ဆွေတစ်ယောက်နှင့်     လက်ဖက်ရည်ဆိုင်ထိုင်ရင်း အေအိုင် ဆောင်းပါးများရေးနေကြောင်း ပြောဖြစ်ရာမှ စက်ကတွေးတတ်သလားဆိုသည့် ခေါင်းစဉ်ဘက်သို့ ရောက်သွားသည်။ လူတော်တော်များများက အေအိုင်ကို ကိုယ်တိုင်တွေးတတ်သည်ဟု မထင်ဘဲ လူကပြောခိုင်းထားသည့်အတိုင်း ပြန်ပြောနေသည်ဟုသာ ယူဆထားကြကြောင်း  သူကဆိုသည်။ သူပြောသည်မှာ လုံးဝအမှန်ချည်းမဟုတ်သလို လုံးဝအမှားချည်းပဲလည်းမဟုတ်။ ဖက်ဇီလော့ဂျစ် ဆန်သည်။ လက်ရှိ သိပ္ပံပညာရှင်များနှင့် အင်ဂျင်နီယာများသည် စက်ကို‌ တွေးတတ်အောင် သင်ပေးကြသည်။ သို့သော် အချို့ကိစ္စများတွင် အကန့်အသတ်ထားရှိပြီး သူတို့ တွေးစေချင်သလို သာတွေးခိုင်းသည်။  ထိုသို့လုပ်ရသည်မှာလည်း အကြောင်းရှိသည်။  ထိုအကြောင်းများကို ဖြည်းဖြည်းချင်း ဆွေးနွေးပါမည်။

စက်က တွေးတတ်ပြီလားဆိုသည့်  မေးခွန်းအတွက် နှိုင်းယှဉ်ပြစရာတစ်ခုရှိသည်။ စက်၏ လေ့လာသင်ယူမှုနှင့်   နက်နက်ရှိုင်းရှိုင်း  လေ့လာသင်ယူမှုအကြောင်းဖြစ်သည်။ ၂၀၀၀ ပြည့်နှစ် ဒိဂျူနီယာက အပြည်ပြည်ဆိုင်ရာ စစ်တုရင် ကမ္ဘာ့ချန်ပီယံဂယ်ရီကက်စပါးရော့ကို နိုင်လိုက်ရာတွင် ထိုကွန်ပျူတာသည် စက်၏လေ့လာသင်ယူမှုစနစ်ကို သုံးထားခြင်းဖြစ်သည်။ ဆိုလိုသည်မှာ သန်းနှင့် ချီသော စစ်တုရင်အကွက်များကို မှတ်ထားသည်။ ထိုအကွက်များထဲမှ မည်သည့်အကွက်ကို ရွေးမလဲဆိုသည်ကိုသာ စက်က  ဆုံးဖြတ်ချက်ချသည်။ နက်နက်ရှိုင်းရှိုင်း လေ့လာသင်ယူမှုမှာမူ ထိုပုံစံမျိုးမဟုတ်။

နက်နက်ရှိုင်းရှိုင်း လေ့လာသင်ယူမှုအကြောင်းပြောဖို့  ကျွန်တော့်တွင် ကိုယ်ပိုင်အတွေ့အကြုံမရှိသည်ကို ဝန်ခံပါသည်။   စာထဲတွင်    ဖတ်ထားသလောက်သာ     ပြန်လည်မျှဝေရမည်ဖြစ်သည်။ ကျွန်တော် ဖတ်ဖူးသမျှထဲတွင်တော့ ထိုအကြောင်းကို   သေသေချာချာရေးပြနိုင်သည်မှာ   လက်ရှိ မိုက်ခရိုဆော့ဖ် စီအီးအို မူစတာဖာ ဆူလီမန်ဖြစ်ပြီး သူက သူပထမဆုံးတည်ထောင်ခဲ့သည့် ဒိမိုင်းဒ်ကုမ္ပဏီတွင်  နက်နက်ရှိုင်းရှိုင်း လေ့လာသင်ယူမှုတစ်ခု ဘယ်လိုစလုပ်ခဲ့သလဲဆိုသည်ကို ရှင်းပြထားသည်မှာ တော်တော်လေးကောင်းသည်။ သူတို့အဖွဲ့က စက်ကို နက်နက်ရှိုင်းရှိုင်း လေ့လာ သင်ယူစေဖို့ ဒီကျူအင်န် (DQN)ဟု ခေါ်သော   အယ်လ်ဂိုရစ်သမ်တစ်ခုကို တည်ဆောက်သည်။ Deep Q-Network ၏ အတိုကောက်ဖြစ်သည်။  သူတို့လုပ်သည်မှာ စက်ကို ဂိမ်းကစားတတ်အောင်   လေ့ကျင့်ပေးခြင်းသာ။ လေ့ကျင့်ပေးသည်ဆိုရာ၌ အဆင်အကွက်များ ဘယ်လိုရှိလဲ၊  ဘယ်လို စည်းမျဉ်းဖြင့်   ကစားရလဲဆိုသည်ကိုသာ ပြောထားပြီး ကစားစေခြင်းဖြစ်သည်။ ဆိုရလျှင် ကလေးတစ်ယောက် တစ်ခါမျှမကစားဖူးသည့် ဂိမ်းအသစ်တစ်ခုကို စကစားကြည့်သလိုမျိုး။ လူသား၏ အားသာချက်မှာ ဘာမှပြောပြနေစရာမလို ဝင်ကစားနေရင်း အကုန်လုံးသင်ယူသည်။ စက်ကိုတော့  အခြေခံအချက်များ ပြောပြထားရသည်။ ထိုအကြောင်းနှင့်ပတ်သက်၍ ဆူလီမန်ရေးပြထားသည့်အတိုင်း ဖောက်သည်ချပါရစေ။

ထို့နောက်  ထူးထူးခြားခြားတစ်စုံတစ်ရာဖြစ်လာသည်။ ဒီကျူအင်န်သည် အလွန်တော်သော ဗျူဟာတစ်ရပ်ကို  တွေ့ရှိသွား၏။ အတုံးများကို တစ်တန်းချင်း ရိုးရိုးရှင်းရှင်းဖြိုနေရာမှ အတုံးများကို ဒေါင်လိုက်စဖြိုသည်။ ရလဒ်အားဖြင့် အတုံးများ၏ အနောက်ဘက်သို့ပေါက်သည့် လမ်းကြောင်းတစ်ကြောင်းရသွားတော့သည်။ ဒီကျူအင်န်သည် ထိပ်ဆုံးသို့ရောက်သည်အထိ   လိုဏ်ခေါင်းဖောက် လိုက်ပြီးနောက် ဘောလုံးကို နောက်ခံနံရံနှင့် အတုံးများအကြား  ခုန်နေအောင်  လမ်းကြောင်း လုပ်နိုင်ခဲ့သည်။ ယင်းမှာ အနည်းဆုံးအားထုတ်မှုနှင့် အမှတ်အများဆုံးရသည့်နည်းလမ်းဖြစ်သည်။ ယင်းမှာ မယုံနိုင်စရာဗျူဟာတစ်ခုဖြစ်သည်။ ဂိမ်းသမားများ မသိသည့်နည်းလမ်းတော့မဟုတ်။ သို့သော် မြင်ဖို့ခက်သည်။ ကျွန်တော်တို့သည် အယ်လ်ဂိုရစ်သမ်က သူ့ဘာသာသူ အသစ်တစ်ခု သင်ယူသွားသည်ကို မြင်တွေ့လိုက်ရခြင်းဖြစ်သည်။  ကျွန်တော်  အံ့အားသင့်သွား၏။

ထိုမျှလောက်  ဖတ်ရလျှင် နက်နက်ရှိုင်းရှိုင်း သင်ယူမှုသည် လူသားတို့ပြောထားသည့်အတိုင်း စက်က လိုက်လုပ်ရုံမျှမဟုတ်သည်ကို တွေ့နိုင်လိမ့်မည်။ ရှေ့တွင်ပြောခဲ့သည့် နျူရယ်ကွန်ရက်အတွင်း ဝိတ်များကို ကိုယ်တိုင်ပြန်ချိန်ကာ အကောင်းဆုံးနည်းလမ်းကို စက်ကိုယ်တိုင်က ရှာဖွေခြင်းဖြစ်သည်။ ဂိမ်းကစားခိုင်းရာတွင် ရသည့်အမှတ်က အဖြေဖြစ်သည်။ ထိုအမှတ်ကိုကြည့်ပြီး စက်က ချိန်ဆရင်း အကောင်းဆုံးနည်းလမ်းတစ်ခုကို ရှာဖွေတွေ့ရှိသွားသည်။ ယင်းမှာ စက်၏ တွေးပုံ တွေးနည်းပင်ဖြစ်သည်။

အယ်လ်ဖာဂိုးကို ၂၀၁၅ ခုနှစ်တွင် စတင်သည်။ ၂၀၁၆ ခုနှစ်တွင် တောင်ကိုရီးယားနိုင်ငံ ဆိုးလ်မြို့၌ လက်ရှိ တရုတ်ကျားကမ္ဘာ့ချန်ပီယံ လီဆယ်ဒေါကို စိန်ခေါ်ပြီး လေးပွဲ-တစ်ပွဲဖြင့် အနိုင်ယူလိုက်သည်။ ဘာကြောင့် ထိုမျှ မြန်မြန်ဆန်ဆန် တိုးတက်ခဲ့ပါသလဲ။ ဆူလီမန်တို့အဖွဲ့က အယ်လ်ဖာဂိုးကို လူသားတို့ ကစားထားသည့် ပွဲပေါင်းတစ်သိန်းခွဲကို လေ့လာစေသည်။ ထို့နောက် အယ်လ်ဖာဂိုးပေါင်း များစွာ မိတ္တူပွားကာ အချင်းချင်း ပြန်ကစားစေသည်။ ထိုနည်းဖြင့် အဆိုပါ အယ်လ်ဂိုရစ်သမ်သည် ကစားပွဲ အသစ်ပေါင်း သန်းနှင့်ချီ၍ ကစားခဲ့ရသည်။ ဒီကျူအင်န်တွင် တွေ့ခဲ့ရသလိုပင် သူတို့လေ့လာထားခြင်းမရှိသည့်  အကွက်သစ်များကိုပါ   ချဲ့ထွင်ကစားနိုင်လာသည်။  ထို့နောက်တွင်မှ  လူသားချန်ပီယံကိုစိန်ခေါ်ပြီး အနိုင်ယူခဲ့ခြင်းဖြစ်သည်။

ဆူလီမန်တို့အဖွဲ့သည် ထိုမျှနှင့်ရပ်မသွား။ အယ်လ်ဖာဂိုး အောင်မြင်ပြီးနောက် အယ်လ်ဖာဇီးရိုး အယ်လ်ဂိုရစ်သမ်ကို ဆက်လုပ်သည်။ အယ်လ်ဖာ ဇီးရိုးကိုမူ အယ်လ်ဖာဂိုးတုန်းကလို လူသားတို့၏ ပွဲများကို မလေ့လာခိုင်းတော့။ ကစားနည်းကိုသာ ပြောပြပြီး အချင်းချင်းကစားစေခဲ့သည်။ အယ်လ်ဖာ ဇီးရိုးပေါင်းများစွာပွားပြီး   အချင်းချင်းပြန်ကစားစေခဲ့ပြီး   နောက်ဆုံးတွင်   အယ်လ်ဖာဇီးရိုးသည် အယ်လ်ဖာဂိုးကိုပင် ‘ကျွဲနိုင် နွားနိုင်’ နိုင်လေတော့သည်။ ယင်းမှာ အမတ်ကြီး  ဦးပေါ်ဦး ပြောသလို နိုင်နည်းမျိုးမဟုတ်။ အမှန်တကယ်နိုင်ခြင်းဖြစ်သည်။

စက်၏ လေ့လာသင်ယူမှုဟုဆိုနိုင်သော Machine Learning အထိ လူသားတို့၏ပါဝင်မှုက မြင့်မားခဲ့သည်။ နောက်ဆုံး ဆုံးဖြတ်ချက်များကို လူသားတို့က ကြိုတင်ချမှတ်ပေးထားပြီး စက်က ထိုဆုံးဖြတ်ချက်များထဲမှ  ဘယ်ဆုံးဖြတ်ချက်က အကောင်းဆုံးလဲဆိုသည်ကို ရွေးချယ်ရခြင်းသာ ရှိသည်။ နက်နက်နဲနဲ လေ့လာသင်ယူမှုဟု ဆိုနိုင်သော Deep Learning တွင်မူ လူသားတို့၏ ပါဝင်မှုသည် အယ်လ်ဂိုရစ်သမ်နှင့် အပြန်ပြန်အထပ်ထပ် လေ့ကျင့်ပေးမှုလောက်သာရှိတော့သည်။ စက်က ဆုံးဖြတ်ချက်များကို ကိုယ်တိုင်ချမှတ်ပြီး ကိုယ်တိုင်ရွေးချယ်ရခြင်းဖြစ်သည်။ အကန့်အသတ်မှ အယ်လ်ဂိုရစ်သမ်က ချပေးထားသော မူဘောင်အတွင်းတွင်သာ လုပ်နိုင်ခြင်းဖြစ်သည်။ မည်သို့ပင် ဖြစ်စေ ယင်းမှာ စက်ကို တွေးတတ်အောင် သင်ပေးသည့် ပထမဆုံးခြေလှမ်းမဟုတ်ပါလား။       ။