Login
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Morbi adipiscing gravdio, sit amet suscipit risus ultrices eu. Fusce viverra neque at purus laoreet consequa. Vivamus vulputate posuere nisl quis consequat.
Create an accountLost your password? Please enter your username and email address. You will receive a link to create a new password via email.
युनिकोडमध्ये १६ बिट एनकोडिंगचा वापर केला जातो जे ६५००० पेक्षा अधिक कॅरेक्टर्ससाठी (६५५३६) कोड पॉईंट देते.
युनिकोड वर्ण एन्कोडिंगचे स्पष्टीकरण
एखाद्या संगणकास मजकूर आणि संख्या संचयित करता यावी यासाठी मानवा ते समजू शकतात, एक कोड असणे आवश्यक आहे जे वर्णांना क्रमांकांमध्ये रुपांतरीत करते. युनिकोड मानक वर्ण एन्कोडिंगचा वापर करून अशा कोडची व्याख्या करतो.
कारण वर्ण एन्कोडिंग खूप महत्त्वाचे आहे त्यामुळे प्रत्येक डिव्हाइस समान माहिती प्रदर्शित करू शकते. एक सानुकूल वर्ण एन्कोडिंग योजना एका संगणकावर उत्कृष्टरीत्या कार्य करू शकते परंतु जेव्हा आपण तीच मजकूर दुसर्या कुणाला पाठवल्यास समस्या उद्भवतील.
जोपर्यंत आपण त्यास एन्कोडिंग योजना समजत नाही तोपर्यंत याबद्दल आपण काय बोलत आहात हे माहिती नाही.
अक्षर एन्कोडिंग
सर्व कॅरेक्टर एन्कोडिंग प्रत्येक कॅरेक्टरला क्रमांक देते जे वापरले जाऊ शकते. आपण आत्ता एक अक्षर एन्कोडिंग बनवू शकता.
उदाहरणार्थ, मी असे म्हणेन की पत्र A हा क्रमांक 13, a = 14, 1 = 33, # = 123 असा होतो.
हे असे आहे जेथे उद्योग विस्तृत मानक येतात. संपूर्ण संगणक उद्योग समान वर्ण एन्कोडिंग योजनेचा वापर करत असल्यास, प्रत्येक संगणक समान वर्ण प्रदर्शित करू शकतो.
युनिकोड काय आहे?
एएससीआयआय (अमेरिकन स्टँडर्ड कोड फॉर इन्फॉर्मेशन इंटरचेंज) ही पहिली व्यापक एन्कोडिंग योजना बनली. तथापि, हे केवळ 128 वर्ण व्याख्यांपुरते मर्यादित आहे हे सर्वात सामान्य इंग्रजी वर्ण, संख्या आणि विरामचिन्हांसाठी चांगले आहे, परंतु उर्वरित जगासाठी थोडा मर्यादा आहे
स्वाभाविकच, उर्वरित जग त्यांच्या वर्णांसाठी समान एन्कोडिंग योजना देखील इच्छित आहेत तथापि, थोड्याच वेळात आपण कुठे होता यावर अवलंबून असेल, तर त्याच एएससीआयआय कोडसाठी एक वेगळाच अक्षर दिसला असता.
शेवटी, जगाच्या इतर भागांनी स्वतःची एन्कोडिंग योजना तयार करण्यास सुरवात केली आणि गोष्टी थोडी गोंधळात टाकू लागली केवळ विविध लांबीच्या कोडींग योजना नाहीत, फक्त कोणत्या एन्कोडिंग योजनांचा वापर करणे अपेक्षित होते ते ठरवण्यासाठी आवश्यक कार्यक्रम.
हे उघड झाले की एक नवीन वर्ण एन्कोडिंग योजना आवश्यक आहे, जी म्हणजे जेव्हा यूनिकोड मानक तयार झाले.
युनिकोडचे उद्देश्य सर्व भिन्न एन्कोडिंग योजना एकत्र करणे आहे जेणेकरुन संगणकांमध्ये गोंधळ शक्य तितक्या मर्यादित करता येईल.
आजकाल, युनिकोड मानक 128,000 पेक्षा अधिक अक्षरांच्या मूल्यांना परिभाषित करते आणि ते यूनिकोड कॉन्सोर्टियम येथे पाहिले जाऊ शकतात. त्याचे अनेक अक्षर एन्कोडिंग प्रकार आहेत:
UTF-8: इंग्रजी वर्णांना एन्कोड करण्यासाठी केवळ एक बाइट (8 बिट) वापरते इतर वर्णांना एन्कोड करण्यासाठी ती बाइट्सचा क्रम वापरू शकते. यूटीएफ -8 मोठ्या प्रमाणात ईमेल प्रणाली आणि इंटरनेटवर वापरले जाते
UTF-16: सर्वात जास्त वापरल्या जाणार्या वर्णांमध्ये एन्कोड करण्यासाठी दोन बाइट (16 बिट) वापरते. आवश्यक असल्यास, अतिरिक्त वर्ण 16-बीट संख्येच्या जोडीने प्रस्तुत केले जाऊ शकतात.
UTF-32: वर्णांना एन्कोड करण्यासाठी चार बाइट्स (32 बिट्स) वापरते हे उघड झाले की युनिकोड मानक वाढला म्हणून, 16-बीट क्रमांक सर्व वर्णांचे प्रतिनिधित्व करण्यासाठी फारच लहान आहे. यूटीएफ -32 प्रत्येक यूनिकोड अक्षरांना एक संख्या म्हणून प्रतिनिधीत्व करण्यास सक्षम आहे.
कोड पॉइंट्स
कोड पॉइंट म्हणजे एक अक्षर युनिकोड मानकांमध्ये दिले जाते. युनिकोडनुसार मुल्ये हेक्झाडेसीमल संख्या म्हणून लिहिली जातात आणि U + चा एक प्रिफिक्स आहे.
उदाहरणार्थ मी पूर्वी पाहिलेले वर्ण एन्कोड करण्यासाठी:
अ U + 0041 आहे
अ U + 0061 आहे
1 U + 0031 आहे
# U + 0023 आहे
या कोड बिंदूंना वेगवेगळ्या 17 वेगवेगळ्या विभागांमध्ये विभाजित केले जाते, जी संख्या 0 ते 16 ने ओळखली जाते. प्रत्येक विमानात 65,536 कोड बिंदू असतात. पहिला विमान 0 सर्वात सामान्यतः वापरल्या जाणार्या वर्णांचा आहे आणि याला मूलभूत बहुभाषिक विमान (बीएमपी) म्हणून ओळखले जाते.
कोड एकके
एन्कोडिंग योजना कोड एककांपासून तयार केल्या जातात, ज्याचा वापर कुठल्या एका कॅरेबियनवर कोठे आहे हे निर्देशांक प्रदान करण्यासाठी केला जातो.
उदाहरण म्हणून UTF-16 चा विचार करा. प्रत्येक 16-बीट क्रमांक कोड एकक असतो. कोड एकके कोड पॉईंटस मध्ये बदलले जाऊ शकतात. उदा. फ्लॅट नोट चिन्हास ♭ मध्ये कोड 1 यू -1 1 1 60 चा कोड बिंदू आहे आणि यूनिकोड मानक (पूरक कल्पनावर्धक भाग) च्या दुसऱ्या विमानावर जगतो. हे 16-बीट कोड युनिट्स U + D834 आणि U + DD60 च्या मिश्रणाद्वारे एन्कोड केले जाईल.
एमपीसाठी कोड पॉइंट्स आणि कोड युनिटची व्हॅल्यू समान आहेत.
यामुळे UTF-16 साठी एक शॉर्टकट की अनुमती मिळते ज्यामुळे भरपूर संचयन जागा वाचते. त्या वर्णांचे प्रतिनिधित्व करण्यासाठी केवळ 16-बीट क्रमांक वापरण्याची आवश्यकता आहे
जावा युनिकोडचा उपयोग कसा करते?
युनिकोड मानक असलेल्या वर्णांचा खूपच छोट्या छोट्या तुकड्यांसाठी परिभाषित केलेल्या मूल्यांमधे जावा निर्माण झाले. मागे, असे वाटले की 16-बिट्स सर्व पात्रांची सांकेतिक मजकुरापेक्षाही अधिक असतील जी कधीही आवश्यक असतील. लक्षात ठेवून जावा UTF-16 वापरण्यासाठी डिझाइन करण्यात आले होते. खरेतर, चार डेटा प्रकार मूलतः 16-बीट युनिकोड कोड पॉइंट दर्शवण्यासाठी वापरला होता.
जावा एसई v5.0 असल्याने, चार कोड एकक दर्शवितो. मूलभूत बहुभाषिक विमानामधील पात्रांना दर्शवण्यास फारसा फरक नाही कारण कोड एककचे मूल्य कोड बिंदू प्रमाणेच आहे. तथापि, याचा अर्थ असा होतो की इतर विमाने वरील वर्णांसाठी दोन वर्ण आवश्यक आहेत