မြန်မာ ယူနီကုဒ်: တည်းဖြတ်မှု မူကွဲများ

No edit summary
စာတွဲများ: မိုဘိုင်းလ် တည်းဖြတ် မိုဘိုင်းလ် ဝက်ဘ် တည်းဖြတ်
အရေးမကြီးNo edit summary
စာကြောင်း ၁ -
မြန်မာအက္ခရာတစ်လုံးချင်းစီအတွက် သီးခြားသတ်မှတ်ပေးထားသော တိကျသည့် ဘုံသုံးစနစ် (U 1000 မှ U 109F အတွင်းရှိ အက္ခရာများ)
 
[[ယူနီကုဒ်]] (Unicode) ဆိုသည်မှာ နိုင်ငံတိုင်းတွင် အသုံးပြုလျက်ရှိသော အက္ခရာစာလုံးများအတွက်
 
* မည်သည့် [[Platform]] တွင် ဖြစ်စေ
* မည်သည့် [[Program]] တွင် ဖြစ်စေ
* မည်သည့် စကား language တွင် ဖြစ်စေ
 
သီးခြားသတ်မှတ်ပေးထားသည့် နံပါတ်များဖြစ်သည်။ ယူနီကုဒ် ဆိုသည်မှာ ကမ္ဘာသုံးစကား အားလုံးမှ အက္ခရာစာလုံး တစ်လုံးတိုင်းအတွက် တိကျသော နံပါတ် တစ်လုံးတည်းသာ သတ်မှတ်ပေးသော ဘုံသုံးစနစ်ဟူ၍လည်း ခေါ်ဆိုကြသည်။
 
ယူနီကုဒ်ဖြင့် စကားပေါင်း များစွာကို [[ComputerFont]] တစ်ခုတည်းတွင် ထည့်သွင်းနိုင်ပြီး မည်သည့် ကွန်ပျူတာစနစ်တွင်မဆို အသုံးပြုနိုင်ရမည်ဖြစ်သည်။ [[ကွန်ပျူတာ]] ဆိုသည်က ကိန်းဂဏန်းများကိုသာ သိသည်ဟု ယေဘုယျအားဖြင့် ပြောနိုင်သည်။ ကွန်ပျူတာတွင် ဖတ်မှတ်ခြင်း၊ သိမ်းဆည်းခြင်းများကို ကိန်းဂဏန်းများဖြင့်သာ ပြုလုပ်နိုင်သည်။ ယူနီကုဒ်ကို မတီထွင်မီက ကိန်းဂဏန်းတစ်ခုကို သိရှိနိုင်ရန်အတွက် လျှို့ဝှက်ကိန်းစနစ်များစွာကို အသုံးပြုကြရသည်။ စကား တစ်ခုအတွက် ပြည့်စုံလုံလောက်သော [[encoding]] စနစ်များ မရှိပေ။
----
Unicode => Universal Character Encoding
 
ယူနီကုဒ်စနစ်တွင် မြန်မာအက္ခရာတစ်လုံးချင်းစီအတွက် U 1000 မှ U 109F အတွင်းတွင် သီးခြားသတ်မှတ်ပေးထားသည်။ မြန်မာယူနီကုဒ်တွင် မွန်၊ ကရင်၊ ကယား၊ ရှမ်း နှင့် ပလောင်ဘာသာစကားများအတွက် ပါဝင်ပြီး ပါဠိနှင့် သက္ကရိုက်ဘာသာစကားကိုလည်း အသုံးပြုနိုင်သည်။
Unicode Consotium ခေါ် NGO အဖွဲ့အစည်းမှ တစ်ကမ္ဘာလုံးရှိ စကားများကို သိမ်းဆည်းနိုင်ရန်/ စာသားများဖလှယ်နိုင်ရန် တီထွင်ထားသော 16 bit character code set standard ဖြစ်သည်။ ISO (International Organization for Standardization) က ယင်းကို [[ISO-10646]] ဟု သတ်မှတ်ပေးသည်။
 
{{မြန်မာယူနီကုဒ်ဇယား}}
----
 
Unicode ဖြင့် စကားပေါင်း များစွာကို [[Font]] တခုတည်းတွင် ထည့်သွင်းနိုင်ပြီး မည်သည့် ကွန်ပျူတာစနစ်တွင်မဆို အသုံးပြုနိုင်ရမည်ဖြစ်သည်။
[[Computer]] ဆိုသည်က ကိန်းဂဏန်းများကိုသာ သိသည်ဟု ယေဘုယျအားဖြင့် ပြောနိုင်သည်။ ကွန်ပျူတာတွင် ဖတ်မှတ်ခြင်း၊ သိမ်းဆည်းခြင်းများကို ကိန်းဂဏန်းများဖြင့်သာ ပြုလုပ်နိုင်သည်။ ယူနီကုဒ်ကို မတီထွင်မီက ကိန်းဂဏန်းတစ်ခုကို သိရှိနိုင်ရန်အတွက် လျှို့ဝှက်ကိန်းစနစ်များစွာကို အသုံးပြုကြရသည်။ စကား တစ်ခုအတွက် ပြည့်စုံလုံလောက်သော [[encoding]] စနစ်များ မရှိပေ။
 
== မြန်မာယူနီကုဒ် သမိုင်း==
 
ASCII code ပေါ်တွင် မြန်မာစာကို encode လုပ်၍ အသုံးပြုခဲ့ကြသည်။ [[အင်္ဂလိပ်]] Character set ယာယီ ငှားသုံးခဲ့ကြခြင်းဖြစ်သည်။ ဥပမာ- မြန်မာစာ “က” သည် အင်္ဂလိပ်အက္ခရာ U (ASCII code point 117) ပေါ်တွင် encode လုပ်ထားခြင်းဖြစ်သည်။ သို့သော် ယူနီကုဒ်တွင် “က” နှင့် "u" သည် အက္ခရာတစ်ခုစီ ကွဲပြားနေသည်။ [[ကွန်ပျူတာ]]က စံတစ်ခုကို သိလာမှသာ တစ်ကမ္ဘာလုံး မည်သည့်ကွန်ပျူတာကမဆို မြန်မာစာကို နားလည်လာပါမည်။ ကွန်ပျူတာက လက်ခံနိုင်သည့် စံ ဆိုသည်မှာ ကကြီးကို U+1000 နှင့် ခခွေးကို U + 1001 အဖြစ် ကုဒ်အနေဖြင့် ပုံသေ သတ်မှတ်ပေးရပါလိမ့်မည်။ သတ်မှတ်ရုံသာမက တစ်ကမ္ဘာလုံးရှိ Software Developer များ သိစေရန်နှင့် တပြေးညီအသုံးပြုနိုင်စေရန် သတ်မှတ်ပြီး ကြေညာထားကြရပါလိမ့်မည်။ ထိုသို့ သတ်မှတ်ကြေညာမှုကို [[ISO]] က စံထားပြီးသတ်မှတ်ပေးသည်။
 
ယူနီကုဒ် ၁.ဝ တွင် ယခုလက်ရှိသုံးနေသော မြန်မာယူနီကုဒ်သည် တိဘက်စကားအောက်တွင် ရှိခဲဲ့သည်။ရှိခဲ့သည်။ ယူနီကုဒ် ၁.၁ တွင် ယူနီကုဒ်တွင် မြန်မာစာကိုဖယ်ထုတ်ခဲဲ့ပီးမြန်မာစာကို ဖယ်ထုတ်ခဲ့ပီး ၂.ဝ တွင် အခြား ကုဒ်နံပါတ်များအောက်တွင် ပြန်လည်ထည့်သွင်းခဲ့သည်။
 
၁၉၉၅ မတ်လ ၁၂ ရက်တွင် မိုက်ကယ်အီဗာဆင်မှ ယူနီကုဒ် WG2 တွင် Title: Names of Burmese characters: comment on Unicode Technical Report #1 အမည်ဖြင့်စာတမ်းတစ်စောင် စတင်တင်သွင်းခဲ့သည်။ [<ref>http://www.myanmarnlp.net.mm/doc/19950312_unicode%20iso1167.html]</ref>
 
၁၉၉၆ တွင် [[မိုက်ကယ်အီဗာဆင်]]မှ proposal စတင်တင်သွင်းခဲ့သည်။ [<ref>http://www.myanmarnlp.net.mm/doc/1996_myanmar_Unicode_chart_by_michael_everson.jpg]</ref>
 
၁၉၉၈ တွင် မိုက်ကယ်အီဗာဆင်မှပင် ammendment တင်သွင်းခဲ့သည်။ [<ref>http://www.myanmarnlp.net.mm/doc/19980318_unicode3_n1729.pdf]</ref>
 
၁၉၉၈ ဇူလိုင် ၂၄ တွင် ကိုဇော်ထွဋ်မှ Response to Myanmar Proposal N1729 (Expert Contribution to Unicode Consortium) ကိုရေးသားခဲ့သည်။<ref>http://www.myanmarnlp.net.mm/doc/19980724_zunicode3.pdf</ref>
[http://www.myanmarnlp.net.mm/doc/19980724_zunicode3.pdf]
 
၁၉၉၈ အောက်တိုဘာတွင် UK London ၌ ကျင်းပသော WG 2 meeting 35 သို့ မြန်မာနိုင်ငံမှ ဒေါက်တာအောင်မော် (CE) ၊ ဦးခင်မောင်လွင် (ကွန်ပျူတာပညာရှင်အသင်း)၊ ဒေါက်တာကျော်သိန်း (ကွန်ပျူတာတက္ကသိ်ုလ်ကွန်ပျူတာတက္ကသိုလ်)၊ ဦးသောင်းတင် (KMD) နှင့် ဦးသိန်းထွဋ် (Geocomp) တို့သည် လေ့လာသူအဖြစ်တက်ရောက်ကာ မြန်မာစာအကြောင်းကို ပြည့်စုံစွာတင်ပြခဲ့ပြီး မြန်မာယူနီကုဒ်ကို မြန်မာလူမျိုးပညာရှင်များလက်သို့ စတင် မျိုးစေ့ချပေးခဲ့သည်။ [<ref>http://std.dkuug.dk/JTC1/SC2/WG2/docs/n1904r.doc]</ref>
 
ဤဆွေးနွေးပွဲတွင် မြန်မာပညာရှင်များကိုယ်တိုင် တက်ရောက်ဆွေးနွေးခဲ့ခြင်း မပြုနိုင်ပါက ယခုအချိန်တွင် မြန်မာလူမျိုးများသည် မြန်မာစာကို ပြင်ပမှသာလေ့လာတတ်မြောက်ထားသော နိုင်ငံခြားပညာရှင်များ၏ proposal ဖြင့် ပေါ်ထွက်လာမည့် မြန်မာယူနီကုဒ်ကိုသာ အသုံးပြုကြရမည်ဟု ယူဆနိုင်သည်။
Line ၄၈ ⟶ ၃၈:
2002 ခုနှစ်တွင် မြန်မာနိုင်ငံ၌ အတည်မပြုနိုင်သေးသည့် ယူနီကုဒ်စနစ်ကို မြန်မာနိုင်ငံ ကွန်ပျူတာအသင်းချုပ်မှ တာဝန်ယူ လုပ်ဆောင်ကြရန် ဝိုင်းဝန်း တိုက်တွန်းကြပါသည်။ ယူနီကုဒ်စနစ်ကို နိုင်ငံတော်စံတစ်ခုအနေဖြင့် အသုံးပြုနိုင်ရေးအတွက် လုပ်ငန်းစတင်ရန် ဘဏ္ဍာရေးအထောက်အပံ့များ စတင်ရှာဖွေခဲ့ကြသည်။ နိုင်ငံတော်အကြီးအကဲများသည် မြန်မာ့စံယူနီကုဒ်ဖြစ်မြောက်ရေးအတွက် ကျပ်သိန်း ၅၀ ကို စတင်ထောက်ပံ့ပေးခဲ့ပါသည်။ ဤသို့ဖြင့် [[ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့]] Myanmar Unicode and NLP Research Centre သည် မြန်မာနိုင်ငံ ကွန်ပျူတာ သင်းချုပ်ကြီး၏ အစီအမံဖြင့် ဖွဲ့စည်းနိုင်ခဲ့သည်။ [[ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့|NLP]] အဖွဲ့ကြီးသည် 2002 ခုနှစ်မှစပြီး နိုင်ငံတော်အတွက် ယူနီကုဒ်တာဝန်များကို အချိန်ပြည့် စတင်တာဝန်ယူ လုပ်ဆောင်ခဲ့သည် ဟု ဆိုနိုင်သည်။
 
== ကွန်ပျူတာသုံး မြန်မာစာစနစ် အကောင်အထည်ဖော်ခြင်းအဖွဲ့ (Myanmar Unicode and NLP Research Centre)==
မြန်မာစာစနစ်အကောင်အထည်ဖော်ခြင်းအဖွဲ့ကိုမြန်မာစာစနစ်အကောင်အထည်ဖော်ခြင်းအဖွဲ့ (Myanmar Unicode and NLP Research Centre) ကို NLP ဟုလည်း ခေါ်ကြသည်။ NLP ဆိုသည်မှာ Natural Language Processing ကို ခေါ်ဆိုခြင်းဖြစ်သည်။ NLP အဖွဲ့ကြီးသည် NGO (non-government organization) တစ်ခု ဖြစ်သလို NPO (non-profit organization) အဖွဲ့လည်း ဖြစ်သည်။ ကိုယ်ကျိုးမဖက် အများအကျိုးသက်သက် သို့မဟုတ် နိုင်ငံတော်အကျိုးအတွက် သက်သက် ဆောင်ရွက်နေသည့် အဖွဲ့ကြီးဟူ၍လည်း ဆိုနိုင်သည်။
 
မြန်မာစာစနစ်အကောင်အထည်ဖော်ခြင်းအဖွဲ့ကို NLP ဟုလည်း ခေါ်ကြသည်။ NLP ဆိုသည်မှာ Natural Language Processing ကို ခေါ်ဆိုခြင်းဖြစ်သည်။ NLP အဖွဲ့ကြီးသည် NGO (non-government organization) တစ်ခု ဖြစ်သလို NPO (non-profit organization) အဖွဲ့လည်း ဖြစ်သည်။ ကိုယ်ကျိုးမဖက် အများအကျိုးသက်သက် သို့မဟုတ် နိုင်ငံတော်အကျိုးအတွက် သက်သက် ဆောင်ရွက်နေသည့် အဖွဲ့ကြီးဟူ၍လည်း ဆိုနိုင်သည်။
 
NLP ကို 2003 ခုနှစ်၊ နိုဝင်ဘာလ 27 ရက်နေ့တွင် စတင်ဖွဲ့စည်းနိုင်ခဲ့ပြီး အဖွဲ့ဝင် (၁၇) ဦးဖြင့် အကောင်အထည်ဖော်နိုင်ခဲ့သည်။ 2003 ခုနှစ် နိုဝင်ဘာလမှစပြီး [[Pentium IV Server]] ကွန်ပျူတာတစ်လုံးတပ်ဆင်ကာ မြန်မာနိုင်ငံ ကွန်ပျူတာအသင်းချုပ်ရှိ Incubation Centre တွင် မြန်မာယူနီကုဒ်စနစ်ကို စတင်လုပ်ဆောင်ခဲ့ကြသည်။
Line ၅၆ ⟶ ၄၅:
NLP အဖွဲ့တွင် မြန်မာစာစနစ်ကို အကောင်အထည်ဖော်နိုင်ရန်အတွက် အဖွဲ့၏ကြီးကြပ်မှုအောက်တွင် အချိန်ပြည့် ပရိုဂရမ်မာ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာဘွဲ့ရ (၃) ဦး၊ မြန်မာစာ မဟာဝိဇ္ဇာတန်းတက်ရောက်နေသူ (၂)ဦးတို့နှင့် ခန့်ထားပြီး စတင်လုပ်ဆောင်ခဲ့ကြသည်။
 
မြန်မာတစ်မျိုးသားလုံးအသုံးပြုရန် စံအဖြစ်လုပ်ဆောင်ကြရသည်ဖြစ်သောကြောင့် မြန်မာယူနီကုဒ်ဖြစ်မြောက်ရေးအဖွဲ့တွင် နည်းပညာအရရော၊ မြန်မာစာစနစ်ဆိုင်ရာအတွက်ပါ မြန်မာစာအဖွဲ့မှ တတ်ကျွမ်းသူ ပညာရှင်များနှင့် ဖွဲ့စည်းထားခဲ့ပါသည်။ မြန်မာစာအဖွဲ့မှ ညွှန်ကြားရေးမှူးချုပ် ဦးစံလွင်၊ မြန်မာစာအဖွဲ့ဝင် ဦးထွန်းတင့် ၊ သမိုင်းအဖွဲ့ဝင် ဦးသော်ကောင်းတို့ ပါဝင်ကြသည်။ ကွန်ပျူတာနည်းပညာအတွက် ပညာရှင်များဖြစ်သော ဦးသိန်းထွဋ်၊ ဦးဇော်ထွဋ်၊ ဦးငွေထွန်း၊ ဦးဝေလင်းကျော် တို့က စိတ်ရောကိုယ်ပါ ယနေ့တိုင် အကူအညီပေး ဆောင်ရွက်လျက် ရှိကြသည်။ အတွင်းရေးမှူမှာအတွင်းရေးမှူးမှာ ဒေါက်တာ ဒေါ်မြင့်မြင့်သန်း ဖြစ်သည်။
 
== ကိုးကား ==
[[Category:Myanmar NLP]]
[[Category:မြန်မာဘာသာစကား]]
[[Category:အက္ခရာ]]