ஒருங்குறியில் இந்க்கதிய மொழிகளம் தீர்வும்

ஒருங்குறியில் தமிழ் உட்பட இந்திய மொழிகள் - சிக்கல்கள் மற்றும் தீர்வுகள்

அன்றைய பழந்தமிழும் இன்றைய இந்திய மொழிகளும்

ஆதி காலத்தில், இந்தியத் துணைக் கண்டம் முழுவதும் 'பழந்தமிழ்' வழங்கி வந்த போது, ஆரியர்கள் ஊடுருவினார்கள் ஆண்டார்கள் சென்றார்கள்.
அவர்கள் சென்ற பிறகும் இங்குள்ள சிலபலர், வட இந்தியாவில் வெளி நாட்டு ஆரிய மொழியை முன்னிருத்தியதால், ‘பழந்தமிழ்' மொழி பிரிந்து பிரிந்து கிளைத்து கிளைத்து தற்போதிள்ள இந்தி முதலிய வட நாட்டு மொழிகளாக உள்ளன.

தென்னாட்டவர்கள் வெளி நாட்டு ஆரிய மொழியை வடமொழி என அடைமொழி கொடுத்தனர். அப்போது தென்னாட்டில் பழந்தமிழ் சங்கத் தமிழாக மேம்பாடு அடைந்து தென் மொழி என்று அழைக்கப்பட்டது.

பிறகு, இங்குள்ள சிலபலர், தென் இந்தியாவிலும் வjட மொழியாகிய வெளி நாட்டு ஆரிய மொழியை முன்னிருத்தியதால், சங்கத் தமிழ் பிரிந்து கிளைத்து தற்போமுள்ள கன்னடம் முதலிய தென்னிந்திய மொழிகளாக உள்ளன. இதற்கு ஆதாரம்: பழந்தமிழின் வாக்கிய அமைப்புதான் இன்று வட இந்திய, தென் இந்திய மொழிகள் யாவும் கொண்டுள்ளன.

அதன் பிறகு, இந்தியத் துணைக் கண்டத்தில், ஆங்கிலேயர்கள் வந்தார்கள், ஆண்டார்கள் சென்றார்கள். அவர்கள் சென்ற பிறகும், அவர்களின் சூழ்ச்சியால் இங்குள்ளவர்கள் ஆங்கிலத்தை முன்னிருத்துவதால், தமிழ் உட்பட இந்திய மொழிகள் இன்னும் பின்தங்கியுள்ளன.

இந்தியாவிற்கு சுதந்திரம் கிடைத்தது; ஆனால், இந்திய மொழிகளுக்கு இன்னும் சுதந்திரம் கிடைக்கவில்லை.

தமிழ் முதலிய இந்திய மொழிகளுக்கு சுதந்திரம் கிடைக்க, மாநில ஆட்சி மொழிகள் யாவும், இந்திய அரசின் ஆட்சி மொழியாகவும், அந்தந்த மாநில மொழி அந்தந்த மாநில அரசின் கல்வி மொழியாகவும், நீதிமன்ற மொழியாகவும் முன்னிற்க வேண்டும்.

ஒருங்குறியும் குறியாக்கமும்

அதற்கு, அனைத்து எழுத்துகளுக்கும் ஒருங்குறியில் (Unicode) குறியிடங்கள் (Code Points) பெற்று தமிழ் உட்பட இந்திய மொழிகள் ஆங்கிலம் போன்று முழு அளவில் கணித்திறன் பெற்றிருக்க வேண்டும்.

அதற்கான, முயற்சியில் தமிழர்களும் இந்தியர்களும் இப்போது ஈடுபட வேண்டும்.

ஒருங்குறி தொடங்கிய போது, ஒரே ஒரு தளம் (Plane) மட்டுமே இருந்தது. அதில், 65,536 (2^16) குறியிடங்கள் (code points) மட்டுமே இருந்தன. தற்போது, 17 தளங்கள் உள்ளன. பிஎம்பீ (BMP) எனும் முதல் தளத்தில் அனைத்து குறியிடங்களும் நிரம்பிவிட்டன. மிதமுள்ள 16 தளங்களில் 16, 17வது தளங்கள் தனிப்பயன் பகுதிக்கு ஒதுக்கப் பட்டு உள்ளது. தளம்-4 முதல் தளம்-13 வரை காலியாகவே உள்ளன.

ஒருங்குறி ஒன்றியம் (Unicode Consortium) தொடங்கியபோது ஆஸ்க்கி (ASCII) போன்று குறியிட எண்ணே (Code Point) குறியாக்க எண்ணாகவும் (Encoding Point) இருந்தது. பிஎம்பீ (BMP) ல் 16 பிட் குறியிட எண்ணும் 16 பிட் குறியாக்க எண்ணும் ஒன்றாக இருந்தது.

ஐஈஈஈ (IEEE) நிறுவனம் 31 பிட் வரை தளங்களை உருவாக்கிய பிறகு அடுத்தடுத்த தளங்களில் 17 பிட், 18 பிட் என்று 31 பிட் வரை கூடிக் கொண்டு இருந்ததால் குறியிட எண்ணை குறியாக்க எண்ணாகவும் கொள்ள இயலவில்லை. ஒருங்குறி ஒன்றியம் மூன்று குறியாக்க முறைகளை அறிமுகம் செய்தது. அவை: (1) யூடிஎப்-8 (UTF-8), (2) யூடிஎப்-16 (UTF-16), (யூடிஎப்-32 (UTF-32) ஆகும்.

யூடிஎப்-8 ல் 8 பிட் அலகும், யூடிஎப்-16 ல் 16 பிட் அலகும், யூடிஎப்-32 ல் 32 பிட் அலகும் குறியாக்க அலகாக இருக்கின்றன.

யூடிஎப்-16 ல், பிஎம்பீ ல் மட்டும் குறியிட எண்ணும் குறியாக்க எண்ணும் ஒன்றாகவே உள்ளது. 0000 முதல் FFFF வரை ஒரு 16 பிட் அலகாக உள்ளது. தளம்-2 முதல் சரோகேட் இணை தேவைப்படுகின்றது. அதாவது 10000 முதல் 10FFFF வரை இரண்டு 16 பிட் அலகு தேவைப்படுகிறது.

சிக்கல்கள்

(1) முதலாவது முதன்மைச் சிக்கல்: அடாமிக் (பிரிக்க இயலாத) எழுத்துக்கு மட்டுமே குறியிடம் ஒதுக்கும் கொள்கை.

ஒருங்குறி ஒன்றியம் பிரிக்க இயலாத (Atomic) எழுத்துக்கு மட்டுமே குறியிடம் ஒதுக்கப்படும் என்றும் பிற எழுத்துகளுக்கு அதாவது உயிர்மெய், கூட்டு எழுத்து ஒட்டு எழுத்து போன்றவற்றிற்கு குறியிடம் ஒதுக்கப்படாது என்றும் ஒரு கொள்கையை கடைபிடித்து வருகிறது. அதனால் தமிழ் முதலிய இந்திய மொழிகளில் உள்ள அனைத்து எழுத்துகளுக்கும் குறியிடம் ஒதுக்கப்படவில்லை.
உயிர் மெய் போன்ற பிற எழுத்துகள் ஒவ்வொன்றையும் அக்கு வேறு ஆணி வேறாகப் பிரித்து அதாவது புள்ளி இல்லா மெய்யைத் தனியாவும் புள்ளியைத் தனியாகவும் உயிர்க் குறியீட்டைத் தனித்தனியாகவும் குறியாக்கம் செய்து நிரல் வழி இணைக்க வேண்டும் என்று ஒருங்குறி ஒன்றியம் அறிவுரை வழங்கியுள்ளது. இதனால், குறியாக்க நினைவகம் ஒவ்வொரு குறியாக்க முறையிலும் மூன்று மடங்கு அதிகமாகிறது. அத்துடன் கணித்திறனும் ஆங்கிலம் போன்று முழுமையாக இல்லை.

(2) இரண்டாவது முதன்மைச் சிக்கல்: யூடிஎப்-16 (UTF-16) உள்ள சிக்கல்

சரோகேட் இணை, தளம் - 17 க்கு மேல் பெற இயலாது. அதனால், மூன்று வகை குறியாக்க முறையிலும் 18 வது தளம் முதல் அனைத்து கூடுதல் தளங்களும் முடக்கப்பட்டன. மேலும், யூடிஎப்-16 குறியாக்க முறையில் சோதனை மேற்கொண்டு பிழை நீக்கம் செய்யப்படாததால் குறியிடங்கள் வழக்கில் உள்ள மொழிகளுக்கு குறியிடங்கள் தளம் 2 முதல் தளம் 17 வரை ஒதுக்கப்படுவது இல்லை.
எனவே, அரிதாகப் பயன்படும் பழங்கால எழுத்துகளுக்கே குறியிடங்கள ஒதுக்கீடு செய்யப்படுகின்றன.

(3) யூடிஎப்-8 (UTF-8) அதிக குறியாக்க நினைவகம் தேவை

ஒருங்குறி ஒன்றியம் யூடிஎப்-8 குறியாக்கமுறையில் கீழ்க்காணுமாறு குறியாக்கம் செய்யப்படுகிறது:

00 - 7F > 0xxxxxxx > 1 octet
80 - 7FF > 110xxxxx, 10xxxxxx > 2 octet
800 - FFFF > 1110xxxx, 10xxxxxx, 10xxxxxx, > 3 octet
10000 - 10FFFF > 11110xxx, 10xxxxxx, 10xxxxxx, 10xxxxxx, > 4 octet

தமிழ் முதலிய இந்திய மொழிகளுக்கு உயிர், மெய் ஆகியவற்றை குறியாக்கம் செய்ய 8 பிட் கொண்ட 3 பைட் தேவை. ஆனால், உயிர்மெய் போன்ற எழுத்துகளுக்கு குறியிடம் ஒதுக்கப்படவில்லை. அதனால், மெய்யை தனியாகவும் புள்ளியைத் தனியாகவும் உயிர்க் குறியீடுகளைத் தனித் தனியாகவும் குறியாக்கம் (Encoding) செய்து நிரல் எழுதி அறுவுரை கூறி இணைக்க வேண்டும். உயிர்மெய் போன்ற மீதமுள்ள ஒவ்வொரு எழுத்துக்கும் 8 பிட் கொண்ட 9 பைட் தேவைப்படுகிறது. இணைப்பதிலும் மென்பொருள் சிக்கல் ஏற்பட்டு கணித்திறன் ஆங்கிலம் போன்று இல்லாத நிலை உள்ளது.


(4) நான்காவது சிக்கல்: இஸ்க்கி (ISCII) ஐ 10 பிட் குறியாக்க அலகாக மேம்படுத்தி அனைத்து எழுத்து குறியாக்கம் இல்லாமை.


இஸ்க்கி (ISCII) ஐ 8 பிட் குறியாக்க அலகாக வைத்துள்ளதால் இந்திய மொழிகள் அனைத்து குறியாக்கம் இல்லை. பிரெஞ்சு போன்ற மொழிகள் ஐஎஸ்ஓ (ISO) 8859 வரிசையில் 8 பிட் குறியாக்கத்தில் அனைத்து குறியாக்கம் பெற்றுள்ளன. தேவநாகரி எழுத்துமுறைக்கு அதே 8 பிட் குறியாக்க அலகாக வைத்ததால் அனைத்து எழுத்து குறியாக்கம் இல்லை. அதனால், ஐஎஸ்ஓ (ISO) 8859-12 க்கு ஒ ப்புதல் மறுக்கப்பட்டது. உடனடியாக, இஸ்க்கியை 10 பிட் குறியாக்கத்திற்கு மேம்படுத்தி அனைத்து எழுத்து குறியாக்கம் பெற்று ஐஎஸ்ஓ வின் ஒப்புதலைப் பெற இந்தியா முயற்சி செய்யவில்லை. ஐஎஸ்ஓ இல்லாத போதும் இஸ்க்கியை பின்பற்றி ஒருங்குறி ஒன்றியம் இந்திய மொழிகளை ஒருங்குறியில் சேர்த்துக் கொண்டது. (தமிழ் மொழி தவிர) இதர இந்திய ம ழிகளுக்கு எழுத்துப் பட்டியல் இல்லை. அதனால் அனைத்து எழுத்து குறியாக்கம் வேண்டும் என்று இந்தியா கேட்கவில்லை. இஸ்க்கியையும் மேம்படுத்தி அனைத்து குறியாக்கத்திற்கு அப்போதய இந்திய அரசு வழிவகை செய்யவில்லை.

தமிழ் மொழிக்கு மட்டும் தமிழ்நாடு அரசு ஒருங்குறி ஒன்றியத்தை கலந்தாலோசித்து தனிப்பயன்பாட்டுப் பகுதியில் (Private Use Area - PUA) டாஸ்16 (TACE16) என்ற குறியாக்க முறையை உருவாக்கி பயன்படுத்தி வருகின்றது. எனினும், டாஸ்16 ஐ அடிப்படையாகக் கொண்டு உயிர்மெய் எழுத்துகளுக்கு குறியிடம் கேட்டு ஒருங்குறிக்கு கருத்துரு இதுவரை அனுப்பவில்லை. அதற்கான காரணமும் தெரியவில்லை.


தீர்வுகள்

(1) பிரிக்க இயலாத (அடாமிக் -Atomic) எழுத்துக்கு மட்டும் குறியிடம் ஒதுக்கும் நடைமுறையை கைவிட வேண்டும்.

(2) யூடிஎப்-16 (UTF-16)-ஐ இனி பயன்படுத்த இயலாதபடி தடை செய்து நிறுத்திட (deprecate) வேண்டும்.

(3) யூடிஎப்-10 (UTF-10)-ஐ அறிமுகம் செய்ய வேண்டும்.

(4) தேவை எனில், இஸ்க்கியை (ISCII) 10 பிட் அலகிற்கு மேம்படுத் வேண்டும்.

பிரிக்க இயலாக (அடாமிக் - Atomic) எழுத்துக்கு மட்டும் குறியிடம் என்பதைக் கைவிட்டால், வழக்கில் உள்ள தமிழ் முதலிய மொழிகளில் விடுபட்ட உயிர்மெய் போன்ற எழுத்துகளுக்கு குறியிடம் ஒதுக்கிட வழிவகை ஏற்படும். அனைத்து எழுத்து குறியாக்கம் பெற்று ஆங்கிலம் போன்று கணியத்திறன் இருக்கும்.

யூடிஎப்-16 (UTF-16)ஐ தடை செய்தால் தற்போது முடக்கப்பட்டுள்ள, ஐஈஈஈ (IEEE) உருவாக்கிய தளங்கள் அனைத்தும் மீண்டும் புத்துயிர் பெற்று பிஎம்பீ (BMP) போன்று முழு பயன்பாட்டிற்கு வரும்.

யூடிஎப்-10 (UTF-10)ஐ அறிமுகம் செய்தால் கீழ்க்காணுமாறு குறியாக்க நினைவகம் சிக்கனமாக இருக்கும்.

000 - 07F > 000xxxxxxx, > 1 டெக்லட்
080 - 7FFF > 110xxxxxxx, 10xxxxxxxx, > 2 டெக்லட்
8000 - 3FFFFF > 1110xxxxxx, 10xxxxxxxx, 10xxxxxxxx, > 3 டெக்லட்
400000 - FFFFFF > 11110xxxxx, 10xxxxxxxx, 10xxxxxxxx, 10xxxxxxxx, > 4 டெக்லட்

தேவை எனில், இஸ்க்கியை 10 பிட் குறியாக்க டெக்லட் (Declet) அலகாக மேம்படுத்தி பயன்பாட்டிற்கு கொண்டுவந்த பிறகு ஒருங்குறி ஒன்றியத்தை அணுகி அனைத்து எழுத்துகளுக்கும் குறியிடம் பெற்று அனைத்து எழுத்து குறியாக்கத்திற்கு இந்திய அரசு வழிவகை செய்ய வேண்டும்.


மேற்காணும் சிக்கல்களுக்கான தீர்வுகளை மத்திய மாநில அரசுகள் ஒருங்குறி ஒன்றியத்துடன் இணைந்து செயல்படுத்தினால் தமிழ் முதலிய இந்திய மொழிகள் மட்டுமல்லாமல் சிஜேகே (CJK) போன்ற உலக மொழிகளும் ஆங்கிலம் போன்று கணித்திறன் பெறுவதுடன் குறியாக்க நினைவகமும் சிக்கனமாக இருக்க வழிவகை ஏற்படும். உலகம் இன்னும் பல மடங்கு வேகத்துடன் முன்னேறும் வாய்ப்பு உண்டாகும்.

எழுதியவர் : அமைதி ஆனந்தம் ஆ ரா (13-Apr-17, 8:06 pm)
சேர்த்தது : ஆராஅமைதி ஆனந்தம்
பார்வை : 93

மேலே