صفحه (یونی‌کد)

از ویکی‌پدیا، دانشنامهٔ آزاد

در استاندارد یونی‌کد ، یک صفحه یک گروه پیوسته از 65.536 (216) موقعیت کد است. 17 صفحه وجود دارد، که با شماره های 0 تا 16 مشخص شده اند. مقادیر ممکن برای صفحه ها در محدوده عددی 00–1016 هستند و منطبق بر دو جایگاه اول از شش جایگاه در مبنای 16 (U + hhhhhh). صفحه 0، صفحه چندزبانه پایه (BMP) است که کاراکترهای متداول را شامل شده. صفحه‌های 1 تا 16 "صفحه‌های مکمل" خوانده می شوند[۱]. انتهایی ترین موقعیت کد در یونی‌کد آخرین موقعیت کد در صفحه 16 است، با آدرس U + 10FFFF. در یونی‌کد نسخه 13.0، هفت صفحه دارای موقعیت کد (کاراکترها) هستند و از این بین برای پنج صفحه نام تعیین شده است.

محدودیت 17 صفحه ای در یونی‌کد به یوتی‌اف-16 مربوط می شود که می تواند 220 موقعیت کد (16 صفحه) را به عنوان یک جفت کلمه کدگذاری کند، و به علاوه ی BMP که به عنوان یک کلمه واحد در نظر گرفته می شود[۲][۳] . UTF-8 با حد بسیار بالاتر برابر با 231 (2,147,483,648) موقعیت کد (معادل 32,768 صفحه) طراحی شده است، و می تواند 221 (2,097,152) موقعیت کد (32 صفحه) را حتی زیر حد فعلی 4 بایت رمزگذاری کند. [3]

این 17 صفحه می توانند 1,114,112 موقعیت کد را در خود جای دهند. از این تعداد 2,048 موقعیت کد نقش جایگزین دارند (برای ساختن زوج در UTF-16)، 66 موقعیت کد غیر کاراکتری هستند و 137,468 برای کاربرد شخصی رزرو شده اند، و 974,530 نیز برای کاربردهای عمومی در نظر گرفته شده اند.

خود صفحه‌ها نیز به بلوک های یونی‌کد تقسیم می شوند که بر خلاف صفحه‌ها اندازه ثابت ندارند. 308 بلوک تعریف شده در یونی‌کد 13.0، معادل 26٪ از فضای موقعیت کد کلی را شامل می شود و از لحاظ اندازه از حداقل میزانِ 16 موقعیت موقعیت کد (بلوک پانزدهم) تا حداکثر میزان 65,536 موقعیت کد (ناحیه کاربرد خصوصی-A و -B) میتوانند تغییر کنند؛ که کل صفحه‌های 15 و 16 را تشکیل می دهد. به منظور کارایی بیشتر، طیف وسیعی از کاراکترها به طور آزمایشی برای بسیاری از سیستم های نوشتاری فعلی و باستانی نگاشته شده اند.[۴]

مقدمه[ویرایش]

کاراکترهای تعیین شده در یونی‌کد نسخه 13.0
صفحه موقعیت کد های منتسب شده[note ۱] کاراکترهای منتسب شده[note ۲]
 0 BMP 65,472 55,503
 1 SMP 24,704 22,279
2 SIP 60,912 60,866
3 TIP 4,944 4,939
14 SSP 368 337
15 SPUA-A 65,536
16 SPUA-B 65,536
Totals 287,472 143,924
  1. موقعیت کد هایی که به یک بلوک های یونی‌کد منتسب شده اند.
  2. تعداد کل کاراکترهای گرافیکی، فالب بندی، و کنترلی (بغیر از کاراکترهای کاربرد خصوصی، غیر کاراکترها و موقعیت کدهای جایگزین

صفحه چندزبانه پایه[ویرایش]

نقشه صفحه چندزبانه پایه. هر مربع نماینده 256 موقعیت کد است.

صفحه اول یا صفحه 0، صفحه چندزبانه پایه (BMP) است و تقریباً برای همه زبانهای مدرن و تعداد زیادی از نمادها کاراکتر دارد. هدف اصلی برای BMP پشتیبانی از یکسانسازی مجموعه کاراکترهای قدیمی و همچنین کاراکترهایی که برای نوشتن به کار می روند. بیشتر موقعیت کدها در BMP به کاراکترهای چینی ، ژاپنی و کره ای (CJK) اختصاص یافته است.

کدهای جایگزین بالا (U + D800-U + DBFF) و جایگزین پایین (U + DC00-U + DFFF) برای کدگذاری کاراکترهای غیر BMP در UTF-16 استفاده می شود که با استفاده از یک جفت کد 16 بیتی امکانپذیر است: یک جایگزین بالا و یک جایگزین پایین. یک کد جایگزین هرگز به یک کارکتر اختصاص داده نمی‌شود.

65,472 از 65,536 نقطه کد در این صفحه به یک بلوک های یونی‌کد اختصاص داده شده است ، و فقط 64 نقطه کد در دامنه های غیرمجاز باقی مانده است (48 نقطه کد در 0870..089F و 16 نقطه کد در 2FE0..2FEF).

از یونی‌کد نسخه 13.0 به بعد، BMP شامل 163 بلاک زیر است:

صفحه چندزبانه تکمیلی[ویرایش]

نقشه صفحه چندزبانه تکمیلی. هر مربع نماینده 256 موقعین کد است.

صفحه 1، صفحه چندزبانه تکمیلی (SMP)، شامل نویسه های تاریخی (به جز اندیشه‌نگاری CJK) و نمادهای مورد استفاده در زمینه های خاص است. نویسه ها شامل B خطی ، هیروگلیف های مصری و خط میخی هستند. همچنین شامل املای تغییر شکل یافته انگلیسی مانند Shavian و Deseret و برخی از نویسه های مدرن مانند اوساژ، وارانگ سیتی و ادلم است. نمادها شامل نمادهای موسیقی تاریخی و مدرن، الفبایی ریاضی، ایموجی و سایر مجموعه های تصویری، نمادهای بازی برای کارتهای بازی ، ماژونگ و دومینو می شود.


از یونی‌کد نسخه 13.0 به بعد، BMP شامل 134 بلاک زیر است:

صفحه اندیشه‌نگاری تکمیلی[ویرایش]

نقشه صفحه اندیشه‌نگاری تکمیلی. هر مربع نماینده 256 موقعیت کد است.

صفحه 2 ، صفحه اندیشه‌نگاری تکمیلی (SIP)، برای اندیشه‌نگاری های CJK است؛ البته بیشتر اندیشه‌نگاری های CJK مشترک، که در استانداردهای کدگذاری قبلی گنجانده نشده است.

از یونی‌کد نسخه 13.0 به بعد، SIP شامل 134 بلاک زیر است:

صفحه اندیشه‌نگاری ثالث[ویرایش]

نقشه صفحه اندیشه‌نگاری ثالث. هر مربع نماینده 256 موقعیت کد است.

صفحه 3، صفحه اندیشه‌نگاری ثالث (TIP) است. اندیشه‌نگاری های CJK اشتقاق G در نسخه 13.0 استاندارد یونی‌کد که در مارس 2020 منتشر شد به TIP اضافه شد[۵]. این صفحه به صورت آزمایشی شامل نویسه های استخوانی اوراکل، نویسه های برنزی چینی، نویسه های چینی کوچک اختصاص داده شده است[۶].

از یونی‌کد نسخه 13.0 به بعد، TIP شامل بلاک زیر است:

صفحه های منتسب نشده[ویرایش]

صفحه های 4 تا 13 (صفحه های 4 تا D در مبنای شانزده تایی): هیچ کاراکتری در صفحه های 4 تا 13 تعریف نشده.

صفحه تکمیلی با کاربرد مخصوص[ویرایش]

نقشه کاربرد خصوصی تکمیلی. هر مربع نماینده 256 موقعیت کد است.

صفحه 14 (E در مبنای شانزده تایی) ، صفحه تکمیلی با کاربرد مخصوص (SSP) ، در حال حاضر حاوی کارکترهای غیر گرافیکی است. بلوک اول مخصوص کاراکترهای برچسب است. بلوک دیگر شامل انتخابگرهای متغیر گلیف است.

صفحه های ناحیه کاربرد خصوصی[ویرایش]

دو صفحه 15 و 16 (صفحه های F و 10 در مبنای شانزده تایی)، به عنوان "صفحه های کاربرد خصوصی" معرفی شده اند. این دو صفحه حاوی بلوک هایی به نام ناحیه کاربرد خصوصی نکمیلی-A یا (PUA-A) و -B یا (PUA-B)، مناطق استفاده خصوصی هستند که برای استفاده توسط استفاده کنندگان ثالث، خارج از ایزو و کنسرسیوم یونی‌کد، در دسترس هستند. آنها ممکن است توسط فونت ها برای اشاره به گلیف های کمکی داخلی مورد استفاده قرار گیرند. چنین شخصیت هایی قابلیت های محدود دارند.

منابع[ویرایش]

  1. Unicode Consortium Glossary—Supplementary Planes
  2. See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. Unicode roadmaps
  5. Unicode, Inc. "Announcing The Unicode® Standard, Version 13.0".
  6. "Proposed New Characters: The Pipeline". www.unicode.org.