နီဇော်သစ်
ပြီးခဲ့သည့် ရက်ပိုင်းအတွင်းက မိတ်ဆွေတစ်ယောက်နှင့် လက်ဖက်ရည်ဆိုင်ထိုင်ရင်း အေအိုင် ဆောင်းပါးများရေးနေကြောင်း ပြောဖြစ်ရာမှ စက်ကတွေးတတ်သလားဆိုသည့် ခေါင်းစဉ်ဘက်သို့ ရောက်သွားသည်။ လူတော်တော်များများက အေအိုင်ကို ကိုယ်တိုင်တွေးတတ်သည်ဟု မထင်ဘဲ လူကပြောခိုင်းထားသည့်အတိုင်း ပြန်ပြောနေသည်ဟုသာ ယူဆထားကြကြောင်း သူကဆိုသည်။ သူပြောသည်မှာ လုံးဝအမှန်ချည်းမဟုတ်သလို လုံးဝအမှားချည်းပဲလည်းမဟုတ်။ ဖက်ဇီလော့ဂျစ် ဆန်သည်။ လက်ရှိ သိပ္ပံပညာရှင်များနှင့် အင်ဂျင်နီယာများသည် စက်ကို တွေးတတ်အောင် သင်ပေးကြသည်။ သို့သော် အချို့ကိစ္စများတွင် အကန့်အသတ်ထားရှိပြီး သူတို့ တွေးစေချင်သလို သာတွေးခိုင်းသည်။ ထိုသို့လုပ်ရသည်မှာလည်း အကြောင်းရှိသည်။ ထိုအကြောင်းများကို ဖြည်းဖြည်းချင်း ဆွေးနွေးပါမည်။
စက်က တွေးတတ်ပြီလားဆိုသည့် မေးခွန်းအတွက် နှိုင်းယှဉ်ပြစရာတစ်ခုရှိသည်။ စက်၏ လေ့လာသင်ယူမှုနှင့် နက်နက်ရှိုင်းရှိုင်း လေ့လာသင်ယူမှုအကြောင်းဖြစ်သည်။ ၂၀၀၀ ပြည့်နှစ် ဒိဂျူနီယာက အပြည်ပြည်ဆိုင်ရာ စစ်တုရင် ကမ္ဘာ့ချန်ပီယံဂယ်ရီကက်စပါးရော့ကို နိုင်လိုက်ရာတွင် ထိုကွန်ပျူတာသည် စက်၏လေ့လာသင်ယူမှုစနစ်ကို သုံးထားခြင်းဖြစ်သည်။ ဆိုလိုသည်မှာ သန်းနှင့် ချီသော စစ်တုရင်အကွက်များကို မှတ်ထားသည်။ ထိုအကွက်များထဲမှ မည်သည့်အကွက်ကို ရွေးမလဲဆိုသည်ကိုသာ စက်က ဆုံးဖြတ်ချက်ချသည်။ နက်နက်ရှိုင်းရှိုင်း လေ့လာသင်ယူမှုမှာမူ ထိုပုံစံမျိုးမဟုတ်။
နက်နက်ရှိုင်းရှိုင်း လေ့လာသင်ယူမှုအကြောင်းပြောဖို့ ကျွန်တော့်တွင် ကိုယ်ပိုင်အတွေ့အကြုံမရှိသည်ကို ဝန်ခံပါသည်။ စာထဲတွင် ဖတ်ထားသလောက်သာ ပြန်လည်မျှဝေရမည်ဖြစ်သည်။ ကျွန်တော် ဖတ်ဖူးသမျှထဲတွင်တော့ ထိုအကြောင်းကို သေသေချာချာရေးပြနိုင်သည်မှာ လက်ရှိ မိုက်ခရိုဆော့ဖ် စီအီးအို မူစတာဖာ ဆူလီမန်ဖြစ်ပြီး သူက သူပထမဆုံးတည်ထောင်ခဲ့သည့် ဒိမိုင်းဒ်ကုမ္ပဏီတွင် နက်နက်ရှိုင်းရှိုင်း လေ့လာသင်ယူမှုတစ်ခု ဘယ်လိုစလုပ်ခဲ့သလဲဆိုသည်ကို ရှင်းပြထားသည်မှာ တော်တော်လေးကောင်းသည်။ သူတို့အဖွဲ့က စက်ကို နက်နက်ရှိုင်းရှိုင်း လေ့လာ သင်ယူစေဖို့ ဒီကျူအင်န် (DQN)ဟု ခေါ်သော အယ်လ်ဂိုရစ်သမ်တစ်ခုကို တည်ဆောက်သည်။ Deep Q-Network ၏ အတိုကောက်ဖြစ်သည်။ သူတို့လုပ်သည်မှာ စက်ကို ဂိမ်းကစားတတ်အောင် လေ့ကျင့်ပေးခြင်းသာ။ လေ့ကျင့်ပေးသည်ဆိုရာ၌ အဆင်အကွက်များ ဘယ်လိုရှိလဲ၊ ဘယ်လို စည်းမျဉ်းဖြင့် ကစားရလဲဆိုသည်ကိုသာ ပြောထားပြီး ကစားစေခြင်းဖြစ်သည်။ ဆိုရလျှင် ကလေးတစ်ယောက် တစ်ခါမျှမကစားဖူးသည့် ဂိမ်းအသစ်တစ်ခုကို စကစားကြည့်သလိုမျိုး။ လူသား၏ အားသာချက်မှာ ဘာမှပြောပြနေစရာမလို ဝင်ကစားနေရင်း အကုန်လုံးသင်ယူသည်။ စက်ကိုတော့ အခြေခံအချက်များ ပြောပြထားရသည်။ ထိုအကြောင်းနှင့်ပတ်သက်၍ ဆူလီမန်ရေးပြထားသည့်အတိုင်း ဖောက်သည်ချပါရစေ။
ထို့နောက် ထူးထူးခြားခြားတစ်စုံတစ်ရာဖြစ်လာသည်။ ဒီကျူအင်န်သည် အလွန်တော်သော ဗျူဟာတစ်ရပ်ကို တွေ့ရှိသွား၏။ အတုံးများကို တစ်တန်းချင်း ရိုးရိုးရှင်းရှင်းဖြိုနေရာမှ အတုံးများကို ဒေါင်လိုက်စဖြိုသည်။ ရလဒ်အားဖြင့် အတုံးများ၏ အနောက်ဘက်သို့ပေါက်သည့် လမ်းကြောင်းတစ်ကြောင်းရသွားတော့သည်။ ဒီကျူအင်န်သည် ထိပ်ဆုံးသို့ရောက်သည်အထိ လိုဏ်ခေါင်းဖောက် လိုက်ပြီးနောက် ဘောလုံးကို နောက်ခံနံရံနှင့် အတုံးများအကြား ခုန်နေအောင် လမ်းကြောင်း လုပ်နိုင်ခဲ့သည်။ ယင်းမှာ အနည်းဆုံးအားထုတ်မှုနှင့် အမှတ်အများဆုံးရသည့်နည်းလမ်းဖြစ်သည်။ ယင်းမှာ မယုံနိုင်စရာဗျူဟာတစ်ခုဖြစ်သည်။ ဂိမ်းသမားများ မသိသည့်နည်းလမ်းတော့မဟုတ်။ သို့သော် မြင်ဖို့ခက်သည်။ ကျွန်တော်တို့သည် အယ်လ်ဂိုရစ်သမ်က သူ့ဘာသာသူ အသစ်တစ်ခု သင်ယူသွားသည်ကို မြင်တွေ့လိုက်ရခြင်းဖြစ်သည်။ ကျွန်တော် အံ့အားသင့်သွား၏။
ထိုမျှလောက် ဖတ်ရလျှင် နက်နက်ရှိုင်းရှိုင်း သင်ယူမှုသည် လူသားတို့ပြောထားသည့်အတိုင်း စက်က လိုက်လုပ်ရုံမျှမဟုတ်သည်ကို တွေ့နိုင်လိမ့်မည်။ ရှေ့တွင်ပြောခဲ့သည့် နျူရယ်ကွန်ရက်အတွင်း ဝိတ်များကို ကိုယ်တိုင်ပြန်ချိန်ကာ အကောင်းဆုံးနည်းလမ်းကို စက်ကိုယ်တိုင်က ရှာဖွေခြင်းဖြစ်သည်။ ဂိမ်းကစားခိုင်းရာတွင် ရသည့်အမှတ်က အဖြေဖြစ်သည်။ ထိုအမှတ်ကိုကြည့်ပြီး စက်က ချိန်ဆရင်း အကောင်းဆုံးနည်းလမ်းတစ်ခုကို ရှာဖွေတွေ့ရှိသွားသည်။ ယင်းမှာ စက်၏ တွေးပုံ တွေးနည်းပင်ဖြစ်သည်။
အယ်လ်ဖာဂိုးကို ၂၀၁၅ ခုနှစ်တွင် စတင်သည်။ ၂၀၁၆ ခုနှစ်တွင် တောင်ကိုရီးယားနိုင်ငံ ဆိုးလ်မြို့၌ လက်ရှိ တရုတ်ကျားကမ္ဘာ့ချန်ပီယံ လီဆယ်ဒေါကို စိန်ခေါ်ပြီး လေးပွဲ-တစ်ပွဲဖြင့် အနိုင်ယူလိုက်သည်။ ဘာကြောင့် ထိုမျှ မြန်မြန်ဆန်ဆန် တိုးတက်ခဲ့ပါသလဲ။ ဆူလီမန်တို့အဖွဲ့က အယ်လ်ဖာဂိုးကို လူသားတို့ ကစားထားသည့် ပွဲပေါင်းတစ်သိန်းခွဲကို လေ့လာစေသည်။ ထို့နောက် အယ်လ်ဖာဂိုးပေါင်း များစွာ မိတ္တူပွားကာ အချင်းချင်း ပြန်ကစားစေသည်။ ထိုနည်းဖြင့် အဆိုပါ အယ်လ်ဂိုရစ်သမ်သည် ကစားပွဲ အသစ်ပေါင်း သန်းနှင့်ချီ၍ ကစားခဲ့ရသည်။ ဒီကျူအင်န်တွင် တွေ့ခဲ့ရသလိုပင် သူတို့လေ့လာထားခြင်းမရှိသည့် အကွက်သစ်များကိုပါ ချဲ့ထွင်ကစားနိုင်လာသည်။ ထို့နောက်တွင်မှ လူသားချန်ပီယံကိုစိန်ခေါ်ပြီး အနိုင်ယူခဲ့ခြင်းဖြစ်သည်။
ဆူလီမန်တို့အဖွဲ့သည် ထိုမျှနှင့်ရပ်မသွား။ အယ်လ်ဖာဂိုး အောင်မြင်ပြီးနောက် အယ်လ်ဖာဇီးရိုး အယ်လ်ဂိုရစ်သမ်ကို ဆက်လုပ်သည်။ အယ်လ်ဖာ ဇီးရိုးကိုမူ အယ်လ်ဖာဂိုးတုန်းကလို လူသားတို့၏ ပွဲများကို မလေ့လာခိုင်းတော့။ ကစားနည်းကိုသာ ပြောပြပြီး အချင်းချင်းကစားစေခဲ့သည်။ အယ်လ်ဖာ ဇီးရိုးပေါင်းများစွာပွားပြီး အချင်းချင်းပြန်ကစားစေခဲ့ပြီး နောက်ဆုံးတွင် အယ်လ်ဖာဇီးရိုးသည် အယ်လ်ဖာဂိုးကိုပင် ‘ကျွဲနိုင် နွားနိုင်’ နိုင်လေတော့သည်။ ယင်းမှာ အမတ်ကြီး ဦးပေါ်ဦး ပြောသလို နိုင်နည်းမျိုးမဟုတ်။ အမှန်တကယ်နိုင်ခြင်းဖြစ်သည်။
စက်၏ လေ့လာသင်ယူမှုဟုဆိုနိုင်သော Machine Learning အထိ လူသားတို့၏ပါဝင်မှုက မြင့်မားခဲ့သည်။ နောက်ဆုံး ဆုံးဖြတ်ချက်များကို လူသားတို့က ကြိုတင်ချမှတ်ပေးထားပြီး စက်က ထိုဆုံးဖြတ်ချက်များထဲမှ ဘယ်ဆုံးဖြတ်ချက်က အကောင်းဆုံးလဲဆိုသည်ကို ရွေးချယ်ရခြင်းသာ ရှိသည်။ နက်နက်နဲနဲ လေ့လာသင်ယူမှုဟု ဆိုနိုင်သော Deep Learning တွင်မူ လူသားတို့၏ ပါဝင်မှုသည် အယ်လ်ဂိုရစ်သမ်နှင့် အပြန်ပြန်အထပ်ထပ် လေ့ကျင့်ပေးမှုလောက်သာရှိတော့သည်။ စက်က ဆုံးဖြတ်ချက်များကို ကိုယ်တိုင်ချမှတ်ပြီး ကိုယ်တိုင်ရွေးချယ်ရခြင်းဖြစ်သည်။ အကန့်အသတ်မှ အယ်လ်ဂိုရစ်သမ်က ချပေးထားသော မူဘောင်အတွင်းတွင်သာ လုပ်နိုင်ခြင်းဖြစ်သည်။ မည်သို့ပင် ဖြစ်စေ ယင်းမှာ စက်ကို တွေးတတ်အောင် သင်ပေးသည့် ပထမဆုံးခြေလှမ်းမဟုတ်ပါလား။ ။


