Sunday, October 18, 2009

Sinhala Unicode වල අල වලට විසඳුම්

බොහෝමයක් බ්ලොග් සටහන්වල යුනිකේත වලට විවේචන, ඒවයේ තියෙන අඩුපාඩුකම් කතා වෙනව නිතරම. බ්ලොග් සටහනක් ලියන්න තරම් ඉස්පාසුවක් නැති වුනත්, මේක ‍නොලියා ඉන්න එක නොකර බැරි නිසා අත්‍යාවශ්‍ය කරුණු කෙටියෙන් සටහන් කරන්නම්.

මුලින්ම කියන්නට ඕනා සිංහල යුනිකේත වල කිසිම ආකාරයක වරදක් නැති බව. වරදක් තියේනම් ඒ සිංහල යුනිකේත භාවිතා කරන මෘදුකාංගයේ හෝ භාවිතා කරන පුද්ගලයාගේ යි. යුනිකේත ගැන අදහසක් නැතිනම් සිංහල යුනිකේත සැකසී ඇති ආකාරය ගැන ලියැවුනු මේ ලිපිය කියවන්න කියලා ආරධනා කරනවා. නමුත් වැඩැක් කරන්න ගියාම ඒක කරන්න බැරිනම් සිංහල යුනිකේත වල වරදක් නෑ කියන කතාවේ තේරුමක් තියනවද? දැනට මූලික ව‍ශයෙන් පවතින ගැටලු ටික මතක් වෙන හැටියට කෙටියෙන් කියනවනම්,

1. යතුරු ලියනයේ ගැටලු
මැසිවිලි,
  1. විජේසේකර යතුරු පොවරුව පුහුණු වීම අපහසුයි.
  2. අකුරු හරියට යතුරු කරන්න බෑ එහාට මෙහාට පනිනවා.
  3. XP SP3 වල යතුරු පොවරුව ස්ථාපනය ගැටලු පැන නැගීම.
  4. වින්ඩොස් සෙවන්/විස්ටා වල යතුරු ලියන ගැටලු.
2. වෙබ් අඩවි වලට සිංහල යුනිකේත භාවිතා කළ විට යුනිකේත ස්ථාපනය නොකරන ලද පරිගණකවල දී සිංහල නිවැරදිව නොපෙනීම හෝ කොටු පමණක් පෙනීම.

3. ෆොටෝෂොප්/ඉලස්ට්‍රේටර්කොර්ල්ඩ්‍රෝ ආදි ග්‍රැෆික් මෘදුකාංග වල සිංහල යුනිකේත භාවිතා කිරීමට ඇති ‍නොහැකියාව.

දැන් උත්තර,

1. යතුරු ලියනය අපසුනම් ෆොනටිකල් ආකාරයේ යතුරු පොවරුවක් භාවිතා කිරීම වැරැද්දක් නොවේ. නමුත් අමාරුවෙන් හරි විජේසේකර යතුරු පොවරුවට පුරුදුවෙනවා නම් ඉතාමත් වටිනවා. අඩුම යතුරු පහර ගණනකින් වේගයෙන් යතුරුලියට නම් ඉතින් විජේසේකර යතුරු පොවරුව තමයි. ආධුනිකයන්ට තියෙන ප්‍රධානම ගැටලුව සිංහල අකුරු පිහිටා ඇති තැන් අඳුරාගනීමේ අපහසුව. හොඳම ක්‍රමය තමයි සිංහල යතුරු මුද්‍රණය කරල තියෙන යතුරු පොවරුවක් මිලදී ගැනීම. නැතින්ම් සිංහල අක්ෂර සහිත ස්ටිකරයක් යතුරු පොවරුවේ අලවාගැනීම.(ICTA මගින් මෙවැනි ස්ටිකර් බෙදාදීමේ ව්‍යපෘතියක් ක්‍රියාත්මක වන බව අසන්නට ලැබුනා.)

දැනට සෑම වින්ඩොස් පද්ධතියකටම වගේ සිංහල යතුරු ලියන සඳහා IME(Input method editor) එකක සහය ලබාගැනීමට සිදුවීම කනගාටුවට කරුනක්. වින්ඩෝස් සෙවන් වලදී මේ තත්වය වෙනස් වන බවට ‍ඉඟි පල‍වෙතත් ඒ පිලිබඳ විශ්වාසක් නෑ. සමහර අවස්තාවලදි Windows XP SP3 පද්ධතියේ දෝෂ නිසා සියබස් අඩවිය විසින් ලබාදෙන IME එක නිවැරදිව ක්‍රියාත්මක නොවන අවස්ථා අප දැක තියෙනවා. මා විසින් keyTouch නමින් IME එකක් නිර්මාණය කර ඇති අතර එම මෘදුකාංගය නොමිලේම නුදුර අනාගතයේ නිකුත් කිරීමට මා අදහස් කරනවා. ඕනෑම වින්ඩෝස් පද්ධතියක ස්ථාපනය කළ හැකිවීමත් තමන්ට කැමති ආකාරයට යතුරු පොවරුව සකස් කරගැනිමට හැකි විමත්(විජේසේකර/ෆොනටික්/සිංහල/දෙමළ/හින්දි ඕනෑම යුනිකේත භාවිතා කරන භාෂාවක් සඳහා භාවිතා කළ හැකියි.) මෙහි විශේෂත්වක්.

2. අලුතින් නිකුත් වන පද්ධති සියල්ලම වගේ යුනිකේත දර්ශණය හොඳින් කරනවා. නමුත් සමහර පැරණි පද්ධති(Windows XP) යුනිකේත ස්ථාපය නොකර පරිගණකයන් වෙබ් අඩවියට පැමිණි විට යනිකේත ස්ථාපනය කරන්න යොමු වෙනවා. සාමාන්‍ය තාක්ෂණ පිලිබඳ දැනුමක් ‍අඩු අයමේ නිසා වෙබ් අඩවිය නැරඹීම අධෛර්‍යය කරවන බව සමහර ලාභ පරමාර්ථ කර ගත් වෙබ් අඩවි නිර්මාණකරුවන් නිතර කියන කතාවක්. මේක වැරදියි කියන්න බෑ. නමුත් මේසඳහා විසඳුමක් නැත්ද? මේ පිලිබඳව පොඩි පරීක්ෂණ කීපයක් කරලා විසඳුමක් හොයාගත්තා. මේ වැඩේට කරගෙන යද්දී මලින්තත් සහය දුන්නා. නමුත් මේ ක්‍රමයේ තවමත් ගැටලු කීපයක් තියෙනවා.
1. Firefox 3.5, Safari, Opera 10 and IE6 (chrome officially not yet) හෝ ඉහල සංස්කරනයන් හී පමණක් ක්‍රියා කිරීම.
2. පද්ධතියේ රෙන්ඩරින් සහය නැති විට කොම්බුව නිවැරදිව දර්ශණය නොවීම.(මේ සඳහා විඳුමක් සොයමින් සිටී)
පරික්‍ෂා කිරීමට ඇවැසිනම් http://www.cplus.lk/font-embedding/ අඩවියට යන්න. සාමානයෙන් css3 ක්‍රමයේ @font-face භාවිතයෙන් තමයි මේක කලේ. නමුත් මෙ‍හිදි මම කපුටා ෆොන්ටයට අලුතින් රූල්ස් කීපයක් ඇතුලත් කළා. ඒ නිස යුනිකේත රෙන්ඩරින් සහය නැති පද්ධතියකදී වුවත් බොහෝමයක් අක්‍ෂර නිවැරදිව පේනවා. අවාසනාවකට කොම්බුව සහිත අක්‍ෂර තාමත් නිවැරදිව ක්‍රියා කරන්නෑ. මේ සඳහා විසඳුමක් ලැබේවි කියලා හිතනවා. මේය සිදු කරන ආකරය ගැන සම්පූර්ණ විස්තරයක් කාලවේලාව ලැබෙන හැටියට ඉදිරියේදි ලියන්න බලාපොරොත්තු වෙනවා.

3. Adobe CS4 වලදී හොඳින් යුනිකේත ෆොන්ටයේ අභ්‍යන්තර රූපක සහ රූල්ස් වෙනස් කිරීම මගින් නිවැරදිව දර්ශනයවෙන තත්වයට සකස් කරන්න පුලුවන්.



ඉහත දැක්වෙන්නේ ඒ ආකරයට වෙනස් කරන ලද කපුටා ෆොන්ටයකින් යුනිකේත දර්ශනය වෙන ආකාරය, රේපය වැරදියට දර්ශනය වීම රූල්ස් මගින් නැවැරදි කළ හැකි තත්වයක්. නමුත් ‍වේලාව ගැටලුවක් නිසා තවම සම්පූර්ණ කරන්න ලැබුනේ නෑ. ‍ICTA එක මගින් පවත්වනු ලැබූ ෆෝන්ටයන් පිලිබඳ සම්මන්ත්‍රණයේදී බොහෝ දෙනා නව යුනිකේත ෆොන්ටයන් නිර්මාණය කරණු ලැබුවා. අනාගතයේදී ඒවාද නිකුත්වේවි. (මේ සඳහා ICTA, UCSC හා දේශන මගින් දැනුවත් කිරීම් කරන ලද ආචාර්ය වරු අතුලු සියලු දෙනාට ‍මාගේ ස්තූතිය.) මේ ආකරයට ග්‍රැෆික් සඳහා භාවිතා කළ හැකි ආකාරයට ඒවා සකස් කිරීමට ඉදිරියේදි බලාපොරොත්තු වෙනවා. කොරල් X4 ඕපන්ටයිප් සඳහා සහය දක්වන බව වෙබ් අඩවියේ සඳහන් කර තිබුනිසා බොහෝ දුරට එහිද මේ ආකාරයට සකස් කරන ලද යුනිකේත අක්ෂර නිවැරදිව දර්ශනය වේවීයැයි බලාපොරොත්තු වෙන්න පුලුවන්. නමුත් අත්හදා බලා නොමැත.

21 comments:

පහන් said...

අපරාදෙ මම සම්මන්ත්‍රණයට ඉල්ලුම් කලේ ටිකක් ප්‍රමාද වෙලා. මේල් එකක් දැම්මට උත්තරයක් නෑ. :(.
අලුත් යුනිකෝඩ් ෆොන්ට් එන එක නම් ලොකු දෙයක්.
කරන වැඩ ටික සාර්ථක වේවා කියල ප්‍රාර්ථනා කරනවා. :)

malee_msg said...

මම පාවිච්චි කරන්නේ විජේසේකර යතුරු පුවරුව ඒක පුරුදු වෙන්න කියලයි මම හැමෝගෙන්ම ඉල්ලන්නේ මොකද ඒක අමාරු නැහැ.
ඒත් මට ලොකු ගැටළුවක් තියනවා ඒ තමයි සමහර සංඥක අකුරු ද ග වගේ ඒවායේ ඉස්සරහට ‍යෙදන කෑල්ල අර සදමඩල වගේ ලියනකොට. අන්න ඒක යොදන්නේ කොහොමද දන්නේ නැහැ. කියා දෙන්න පුළුවන් නම් ලොකු උදව්වක්

පහන් said...

@මලී
දකුණු පැත්තෙ alt එකත් එක්ක 'ද'(key board එකේ o අකුර) යන්න ටයිප් කරන්න. ඟ යන්ටත් එහෙම තමා. alt+. (ග අකුර)

සුසිත රවින්ද සෙනරත් | Susitha Ravinda Senarath said...

"අකුරු හරියට යතුරු කරන්න බෑ එහාට මෙහාට පනිනවා" මොකද්ද ඒ ජිල් බිරිස් එක මම නම් දැකල නෑ අකුරු පනිනවා. මම ලිනක්ස් පාවිච්චි කරන නිසාද දන්නෙ නෑ. මොකද ඕක වින්ඩෝස් වල විතරක් තියන අලයක්ද දන්න නෑනෙ.

@මලී
පහන් අයියා කිව්ව වගේ.
alt Gr+ද=ඳ වෙනවා.
ඔතන alt Gr කිව්වෙ දකුණු alt key එක.

Dasun Sameera - දසුන් සමීර said...

@සුසිත රවින්ද සෙනරත්

මේක වෙන්නේ IME නිවැරදිව ස්ථාපන කරේ නැතිවුනාම. කොම්බුව සහිත අකුරු ඇ ඕ වගේ ව්‍යාංජන අක්ෂර IME එක නැතුව ටයිප් කරන්න අමාරුයි.

Thejan said...

මටත් පුංචි ගැටලුවක් තියෙනවා. ඒ බැදි අකුරු ගහන්නේ කොහොමද කියලයි. GUIDE එකේ තියෙන දේ පැහැදිලි නෑ.

තේජාන්

Dasun Sameera - දසුන් සමීර said...

@තේජාන්,
‍බැඳි කරලිවීමට අවශ්‍ය අකුරු දෙක අතරට \ කී එක ඔබන්න ඕනා උදාරහනයක් විදියට ක්‍ෂ යතුරු ලියන කිරීමට, ඉංග්‍රිසි යතුරු පොවරුව අනුව l | I කියන යතුරු පිලිවලට ඔබන්න ඕන.

බැඳි අකුරු පෙනීම හෝ නොපෙනීම එක් එක් ෆොන්ටය අනුව වෙනස් වෙන්න පුලුවන්. බෙහෝ ෆොන්ටයන්හී ක්‍ෂ වැනි බැඳි අකුරු ඇතුලත් වුනත් සියලු බැඳි අකුරු නෑ. භාෂිත ෆොන්ටයේ බොහෝ බැඳි අකුරු ප්‍රමාණයක් ඇතුලත් කරලා තියනවා. බැඳි අකරු ගැන වැඩි විස්තර සඳහා මේ පුරු බලන්න.http://docs.google.com/View?id=dc7cz2j9_10zk2f2vd5

Dasun Sameera - දසුන් සමීර said...

@තේජාන්
පොඩි වැරදීමක් වුනා. ක්‍ෂ සඳහා ඉංග්‍රිසි යතුරු පොවරුව අනුව l \ I කියන යතුරු පිලිවෙලට ඔබන්න ඕන.

\ යතුර ඇති තැනට හල් අක්ෂරය සහ zero width joiner යුනිකේත අක්ෂර ඇතුලත් කරල තියනවා.

මහේන් said...

මෙහිදි යුනිකොඩ් define ක‍ර ඇති ආකාරය දෙස බලන විට, මගේ දැනිමේ හැටියට, Text to Speach, Speach Recognizion system, Neural Networks වැනි සංකිර්ණ මෘදුකාංග සමග නිර්මාණ්යේදි ප්ර්ශන ඇති විය හැක, මුලිකම හේතුව ZWJ modifier එක නිසාය.. මෙයද xp වල කොම්බුව පිලිබද පර්ශ්නයද, ඇතුලු Rendering ප‍්රශ්න සියල්ලටම හෙතුව ZWJ විම නිසාය.
මෙය නැතුව, එක අකුරකට එක බැගින් define කලානම් හොදයැයි (මට සිතෙන හැටියට වැඩ කිරිම සහ ප‍්රශ්න අඩු යැයි) සිතේ... ZWJ යොදාගැනිමේ වාසි (Advantages) මොනවදැයි පුලුවන්නම් ලිපියකින් justify කරන්න.

malee_msg said...

පහන් - හරේ හුරේ.... ජයවේවා.. දැන් හරියට මට ඳ ඟ ටයිප් කරන්න පුළුවන්.. පිං සිද්ද වෙච්චාවේ පහන් ළමයටයි සුසිත ළමයටයි. :D ආ.. තව මේ ලිපිය දාපු බ්ලොග් එකේ අයිතිකාරයටයි. :D

Dasun Sameera - දසුන් සමීර said...

@malee_msg

:P

@මහේන්

කොම්බුව සහ ZWJ(zero width joiner) එක සමග කිසිම සම්බන්ධ තාවක් නෑ. ඇත්තටම ZWJ කරන්නේ වැඩ පහසු කිරීමක්. උදාහරණයක් කිව්වොත් ඔබ ගූගල් එකේ සර්ත් එකක්කරනවා සක්යා කියලා. තව කෙනෙක් සක්‍යා ක කියල සර්ච් කරනවා. මේ වචන දෙකේ වෙනස මැද zwj එකක් තිබීම විතරයි. ගූගල් සපයිඩර් එක මගින් zwj එක හලලා තමයි සර්ච් කරන්නේ. ඒවිට සක්‍යා සහ සක්යා ලෙස ලියා ඇති අඩවි සියල්ල හමුවෙනවා. zwj එක නෝමලයිස් කිරීම සඳහා ලොකු සහයක් ලබාදෙනවා. zwj භාවිතාවෙන්නේ බැඳි අකුරු සහ සමහර අක්ෂර කීපයක් වෙනුවට යෙදෙන සංකේතයන්සඳහා පමණයි. උදාහරණයක් ලෙස රේපය, රකාරාංශය ආදිය දක්වන්න පුලවන්.


කොහොම වුනත් මහේන් ‍හොඳ කතාවක් ඇහුවේ. බොහෝදෙනාට ZWJ එක ගැන නිවැරදි වැටහීමක් නෑ. OCR වගේ එකකදි වුනත් ZWJ එක ගැටලුවක් වෙන්නෑ .Speach Recognizion system, Neural Networks වලදි ඇත්තටම සිදුවන්නේ පහසුවක්. මේගැන සහ මම මේක ගැන සවිස්තරව ලිපියක් ලියන්න උත්සාහ කරන්නම්.

මහේන් said...

මට හිතෙන හැටියට xp වල කොම්බුව හැලෙන්නේ අකුර os එකේ තියෙන්නේ "අකුර"+ZWJ+"කොම්බුව", මෙක win os එක නිවැරදිව render නොකිරිම (කොම්බුඩ ඉස්ස‍රහට) නිසා මෙ ප‍්රශ්න එනව, අකුරකට එක unicode බැගින් define කලානම් මෙ ප‍්රශ්නේ එන්නේ නෑ ..

අනෙක් අතට සක්යා සහ සක්‍යා යනු තනික‍රම වචන දෙකකි, එය normalise කිරිම සිදුකල යුත්තේ search engine coding එකෙන් මිසක් යුනිකොඩ් එකෙන් නොවෙ.

උදා
Did you mean "sss"? කියලා අහන්නේ ගුගල් මිසක් යුනිකොඩ් නෙමෙ නේ..

තවද,
ඔය කියන ආකාරයට ගුගල් ZWJ එක හලනවා වගේම, Neural network වලත් ඔක හැලෙනවා, ඔය හැලිම FB එකෙත් වෙනව

ශී‍්‍ර -> ශ‍්රි වෙනවා මෙක තනිකරම වචන දෙකක්.. භාෂාව වැරදියට ලිව්වට කමක් නෑ කිමක් ...

මෙ ප‍්රශන ඔක්කොටම මුල ZWJ කියලයි මට හිතෙන්නේ...(මට මෙ ගැන සම්පුර්න research එකක් කර්න්න වෙලාවක් තිබ්බේ නැ එත් ප‍්රශ්න ඇති බවනම් මට දැනේ.)

Dasun Sameera - දසුන් සමීර said...

කොමුබුව සහිත අකුරු ලියන්නේ මෙහෙමයි.

ගතකුර + කොම්බුව
මෙ -> ම ෙ
Zero Width joiner එකක් ඇතුලත් වෙන්නේම නෑ.

Zero Width joiner එක හැලීම හෝ තියාගැනීම ‍කේතනය කරන අයට හසුරවන්න පුලුවන්. නමුත් මෙතන ගැටලුව වෙලාතියෙන්නේ FB වැනි අඩවි වලදී zwj යෙදීම ගැන හරි අවබෝධයක් නැතිව භාවිතා කරන්න යාමයි. ඔවුන් අඩවි නිර්මාණයට භාවිතා කරන මොඩියුල මගින් zwj එක ඩිස්කාඩ් කරදමනවා. එය ඔවුන්ගේ වරදක්.

කොතැනකදී හරි zwj එක හැලෙනවානම් ඒක කේතනය මගින් හිතාමතා කරන දෙයක්. ඉබේ හැලෙන්නේ නෑ. එක අකුරට එක කේතය බැගින් ඩිෆයින් කිරීම ප්‍රශ්න වැලකට අත වැනීමක්. උදාහරණයක් කේතනය සඳහා ලයින් 2තුනක් වෙනුවට දහස් ගනනක් කිරීමට සිදුවීම දක්වන්න පුලුවන්. ඇත්තටම ගූගල් වලදී zwj එක discard කරන්නේ තාවකාලිකව සර්ච් එකේදී වැඩේ පහසු කරගන්න විතරයි. සියලුම searching algorithm සඳහා මේය පොදු කාරනාවක්. නමුත් ගැටලුව වන්නේ සමහර කේත රචකයන් නොදන්නාකම නිසා ඉන්ටමීඩියට් වැලිව් එකක් ලෙස භාවිතාවෙන zwj නොමැති string එක නැවත data base එකට අප්ඩේට් කිරීමයි. ප්‍රතිපලය ශ්‍රි -> ශ්රී ලෙස වෙනස් වීම.(විස්තර කරන්න ගියොත් මේක කමෙන්ට් එකකට වඩා වෙනම ලිපියක් වෙනවා.)

යුනිකේත ඩිෆයින් කිරීමේදි Normalization, shorting වගේදේවල් ගැන නැවැරදිව ගවේශණය කරල කරල තියෙන්නේ. සිංහල විතරක්නෙමෙයි, දෙමල, හින්දි, khmer වැනි ඉන්දික් භාශාවන් සියල්ල භාවිතා කරන්නේ මේ ක්‍රම වේදය යි.

මහේන් said...

සමාවන්න..ආයෙත් ක‍රද‍ර කලාට

ඔය කියන විදියට ZWJ නැත්නම් කොම්බුවෙ, OS එක කොම්බුව ඉස්ස‍රහට දාල render ක‍රන්න කියන කියන command එක store වෙලා තියෙන්නේ කොහේද කොහොමද ?

මම කියන්නේ FB,photoshop, database problems .. ඔය ඔක්කොම ප‍්රශ්න එගොල්ලෝගෙම ප්ර්ශ්න කිව්වවට එක අකුරකට එක value එක ගානේ තිබ්බනම් ඔය ප්ර්ශන එන්නේ නෑ.. එක වැඩ ලෙසි කිරිමක් programmers ගේ.. මිසක් මේ වැඩේ නහය අනේක් පැත්තෙන් අල්ලනව වගේ වැඩක්

තව මේ " ශී‍්‍ර" අකුර delete ක‍රන්න "ශී‍්‍ර" මොකද වෙන්නේ -> "ශී‍්‍" , -> "ශී‍්", -> "ශී" -> ශ -> ""

Backspace 5 පාරක් ඔබන්න ඔනේ..

කොහොම උනත් හොද ලිපියක්, මම කිව්වා වගේ මෙ තියෙන ක්ර්මය හොදයි නම් එක justify ක‍රන්න ලිපියක් ලියන්න..

අපිට ඔනේ sinhala දියුනු කරන්න මිසක් වෙන ප්ර්ශ්නයක් නොවන නිසා අපිට දැනගන්නත් එක්ක අපෙ දැනුම බෙදා හදාගන්නත් එක්ක..

Dasun Sameera - දසුන් සමීර said...

@මහේන්
ඔබ මේ ලියන්නේ සිංහල භාෂාවට තියෙන ආදරේ නිසා බව දන්නවා. නො එසේනම් මම පිලිතුරු ලියන්නේත් නෑ.


කොම්බුව ඉස්සරහට ‍ගේන්නේ රෙන්ඩරින් එන්ජිම මගිනුයි. කොම්බුව ඉස්සරහට ගන්න එක සම්පූර්ණයෙන්ම රෙන්ඩරින් එන්ජිමට භාරදීල තියෙන්නේ. වින්ඩෝස් වලදීනම් මෙය කරන්නේ uniscriber නම් රෙන්ඩරින් එන්ජින් එක. ඇඩෝබ් වල මේ කොම්බුව සඳහා රෙන්ඩරින් පහසුකම් නෑ. නමුත් ඕපන් ටයිප් ස්පෙසිෆිකේෂන් එකේ සමහර දේවල් සඳහා පමණක් සහයදක්වනවා. අඩුම තරමේ නිවැරදිව ඕපන්ටයිප් සඳහා සහයදක්වනවානම් අපිට සිංහල අකුරු ඇඩෝබ් වලට ගේන්න මේච්චර මහන්සි වෙන්නට ඕන නෑ. ඔබ කියන කාරනාව ඇත්ත වෙන වෙනම ‍ඩිෆයින් කරානම් ගැටලුවක් නෑ. හැබැයි එවිට මෙ මේ මො මෝ ක්‍ය ක්‍යා ක්‍යෝ ‍ආදි අකුරු සඳහා වෙන වෙනම කොඩ් පොයින්ට් ලබාදෙන්න වෙනවා. එවිට සමාන්යෙන් සිංහල අකුර 12,000කට වඩා ඩිෆයින් කරන්න වෙනවා. එක ‍ෆොන්ට් එකක් හදන්න අවුරුදු 5ක්වත් යයි. ‍සිංහල පමණක් ඇති එක ෆොන්ට් ෆයිල් එකක් මෙගාබයට් 12ක් වත් වේවි.

අනික් අතට නොමලයිස් වීමේ වාසියක් තමයි එය ලයිට් වේට් විම(light weight). තවදුරටත් කියනවනම් නෝමලයිස් වීම ඉන්ටනල් වැඩ වලට පහසු වීම programmer ට ඇති පහසුවක් විතරක් නෙමෙයි, එය අනවශ්‍ය ලෙස පද්දතියේ ක්‍ෂමය වැයවීම අඩු කරනවා. අනික් අතට ලයිස්න් 2ක තුනකින් කරන්න පුලුවන් දෙයක් සඳහා තවත් බොහෝ කාලයක් පද්ධතියට වැයකරන්නට සිදුවෙනවා. මෙය දීර්ග කාලීනව අවාසියක්.

දැනට පවතින ගැටලු සියල්ලම වගේ ඇත්තේ Aplication level එකේ. ඒවා නිරාකරනය වූ පසු අපට නැවත් යුනිකේත සම්මතය වෙනස් කරන්න අවශ්‍ය නෑ. යුනිකේත සකස් කරලතියෙන්නේ ඉදිරිය ගැන වඩාත් හෙඳි න් සිතා බලලයි.

ශ්‍රී අක්ෂරය සකස් වෙලාතියෙන්නේ. මේ අකාරයටයි.
ශ්‍රී -> ශ ් zwj ර ී
වැඩිවිස්තර සඳහා මේලිපිය බලන්න.
සිංහල යුනිකේත සැකසී ඇති ආකාරය

ඉදිරියේදී සවිස්තරව ලිපියක් ලියන්නම්.

Krishantha said...

key touch නම් හොඳ වැඩක්. විශේෂයෙන්ම නවකයන්ට සහ යුනිකේත හොඳ නෑ කියල මැසිවිලි නගන අයට.

දුකා said...

ප්‍රයෝජනවත් ලිපියක් . . . ස්තූතියි . . !

ශාකුන්තල said...

දැනට සමහර ජංගම දුරකථන වල සිංහල සහය පෙරනිමියෙන්ම තියෙනවා. ඒවයෙත් තියෙන්නෙ මේ සම්මතයන්මද?

Dasun Sameera - දසුන් සමීර said...

@ශාකුන්තල
ඔව්. බොහෝවිට ජංගම දුරකතන වල සිංහල යතුරු ලියනයේදී කොමුව පසුව යතුරුලියන කරන්න සිදුවෙන්නේ මේනිසායි.
සාමානයෙන් සම්මතයට පිටින් වෙත් භාශාවන් ඇතුලත් කරන්න පෙලඹෙයි කියලා හිතන්නත් බෑ.

මහේන් said...

Following is the reason search engine like google ignores the ZWJ not because it makes search easy..

Consider now the plight of someone trying to design a spell-checker for Sinhala.

If he programs his spell-checker to ignore ZWJs then it would fail to distinguish between two semantically distinct Sinhala words

සත්ය = 0xxU + 0xxU + 0xxU + 0xxU + 0xxU

and
සත්‍ය = 0xxU + 0xxU + 0xxU + U+200D (ZWJ)+ 0xxU +0xxU

If, on the other hand, he programs his spell-checker NOT to ignore ZWJs then every conjunct in his dictionary would have to be encoded twice to ensure that words like

රාක්ෂ = 0xxU+0xxU+0xxU+0xxU

and

රාක්‍ෂ = 0xxU+0xxU+0xxU+200DU (ZWJ)+0xxU

(which are display variants of the same word)are both recognized as legitimate words.

Neither of the two situations is acceptable

Clearly, the use of ZWJ to encode semantic distinctions has to be completely prohibited.

However,this would imply that the software vendors that had already started to produce rendering engines for unicode scripts would have to revise a lot of their code,and that would cost them a substantial amount of money.

So,once again,instead of reversing a faulty decision,the UTC decided to legitimize it by incorporating it into the standard.

problem is we have defined at most all of our words using ZWJ.. or rely on a external rendering engine to do the conversions which i think is a big mistake when we come to core meaning of UNICODE means UNIVERSAL it should not depend on anything, nor OS, nor rendering engines, nothing..

which doesn't happens with the current standard.

Anonymous said...

දසුන් සමීර, ඔබගේ පාරිශුද්ධ උත්සාහයට මාගේ ප්‍රණාමය.
සිංහල ටයිප් කරන්න හොඳම යතුරු පුවරුව විජේසේකර යතුරු පුවරුවයි. මම දවස් තුනක් ඇතුළත (ෆුල් ටයිම් එහෙම නෙවෙයි, දවසකට පැය බාගයක් පැයක විතර) තමයි ඒක පුරුදු වුනේ. දැන් මට අහක බලාගෙන ටයිප් කරන්න පුළුවන්. ඒක හදල තියෙන්නෙ අපේ මනසට ගැලපෙන යම් ආකාරයකට.
යුනිකෝඩ් ටයිප් කරනකොට එක එක ආබාධ එනවා. ඒවා මෙහෙයුම් පද්ධති අනුව වෙනස් වෙනවා. මම විස්ටා සහ එක්ස් පී කියන දෙකම භාවිතා කරන නිසා මේක පැහැදිළියි. ඒ නිසා කළබල නොවී කවුරුත් ඔබේ උත්සාහයට සහය දක්වයි කියල මම හිතනවා.