유니코드

Unicode
유니코드
별칭
언어스크립트 목록 참조
표준.유니코드 표준
인코딩 형식
(uncommon)
(obsolete)
선행후

유니코드(Unicode), 공식적으로 유니코드 표준(Unicode Standard)[note 1]은 유니코드 컨소시엄(Unicode Consortium)이 세계의 모든 주요 필기 시스템에서 작성된 텍스트 사용을 지원하도록 설계된 텍스트 인코딩 표준입니다.[A] 표준의 버전 15.1은 일반적, 문학적, 학문적, 기술적 맥락에서 사용되는 149813개[3] 문자와 161개의 스크립트를 정의합니다.

숫자, 구두점 및 기타 기호를 포함한 많은 일반적인 문자는 표준 내에서 통일되어 있으며 특정한 문자 시스템에 고유한 것으로 취급되지 않습니다. 유니코드는 수천 개의 이모지를 인코딩하고 있으며, 컨소시엄은 표준의 일부로 이모지를 계속 개발하고 있습니다.[4] 게다가 유니코드의 광범위한 채택은 일본 이외의 지역에서 이모지의 초기 대중화에 큰 책임이 있었습니다. 유니코드는 궁극적으로 110만 개 이상의 문자를 인코딩할 수 있습니다.

유니코드는 서로 다른 로케일과 서로 다른 컴퓨터 아키텍처에서 각각 사용되는 수많은 호환되지 않는 문자 집합의 이전 환경을 대체했습니다. 유니코드는 대부분의 웹 페이지를 포함하여 인터넷 상의 텍스트의 대부분을 인코딩하는 데 사용되며, 관련 유니코드 지원은 현대 소프트웨어 개발에서 일반적인 고려 사항이 되었습니다.

유니코드 문자 레퍼토리ISO/IEC 10646과 동기화되며, 각각 코드 포 코드가 동일합니다. 그러나 유니코드 표준은 단순히 문자가 할당되는 레퍼토리 이상입니다. 개발자와 설계자를 돕기 위해 이 표준은 차트와 참조 데이터뿐만 아니라 다양한 스크립트에 적용 가능한 개념을 설명하는 부록을 제공하여 구현에 대한 지침을 제공합니다. 이러한 부속서에서 다루는 주제에는 문자 정규화, 문자 구성 및 분해, 대조방향성이 포함됩니다.[5]

유니코드 텍스트는 문자에 대한 표준의 추상화된 코드를 바이트 시퀀스로 변환하는 방법을 정의하는 여러 인코딩하나를 사용하여 이진 데이터로 처리되고 저장됩니다. 유니코드 표준은 자체적으로 UTF-8, UTF-16, UTF-32의 세 가지 인코딩을 정의하지만, 다른 여러 인코딩이 존재합니다. 이 중 UTF-8은 부분적으로 ASCII와의 역호환성 때문에 큰 마진에 의해 가장 널리 사용됩니다.

기원 및 개발

유니코드는 원래 그 시점까지 설계된 모든 텍스트 인코딩에 존재하는 제한을 뛰어넘기 위한 목적으로 설계되었습니다: 각 인코딩은 고유한 컨텍스트에서 사용하기 위해 의존했지만 다른 인코딩과의 호환성에 대한 특별한 기대는 없었습니다. 실제로 선택된 두 인코딩은 함께 사용할 때 완전히 작동하지 않는 경우가 많았고, 하나는 텍스트를 다른 하나는 가비지 문자로 해석했습니다. 대부분의 인코딩은 소수의 스크립트(주로 주어진 스크립트와 라틴 문자 사이) 간의 상호 운용을 용이하게 하도록 설계되었을 뿐, 지원되는 모든 스크립트가 일관된 방식으로 처리되지는 않았습니다.

유니코드의 기반이 되는 철학은 그래픽 구분이 아닌 기본 문자인 문법과 자소 같은 단위를 인코딩하려고 합니다. 이 문자들서체마크업을 사용하거나 다른 방법으로 가장 잘 처리됩니다. 한 문자의 직교 변형 처리와 같은 특히 복잡한 경우에는 어떤 차이가 자신의 인코딩을 정당화하고 다른 문자의 그래픽 변형에 불과한지에 대해 상당한 의견 차이가 있습니다.

가장 추상적인 수준에서 유니코드는 각 문자에 코드 포인트라는 고유 번호를 할당합니다. 크기, 모양 및 스타일을 포함한 시각적 표현의 많은 문제는 웹 브라우저 또는 워드 프로세서와 같이 실제로 텍스트를 렌더링하는 소프트웨어의 재량에 달려 있습니다. 그러나 부분적으로 신속한 채택을 장려하기 위한 의도로 이 원래 모델의 단순성은 시간이 지남에 따라 다소 정교해졌으며 표준 개발 과정에서 다양한 실용적인 양보가 이루어졌습니다.

처음 256개의 코드 포인트는 ISO/IEC 8859-1 표준을 반영하며, 서유럽 스크립트에서 이미 작성된 텍스트 변환을 사소한 것으로 만들 의도입니다. 다양한 레거시 인코딩에 의한 구별을 유지하기 위해, 따라서 정보의 손실 없이 유니코드와 다른 인코딩 간의 변환을 허용하기 위해, 외관 및 의도된 기능 모두에서 다른 것과 거의 동일한 많은 문자에 고유한 코드 포인트가 부여되었습니다. 예를 들어, 하프폭과 풀폭 폼 블록은 라틴 알파벳의 전체 의미 복제를 포함합니다. 레거시 CJK 인코딩에는 "풀폭"(CJK 문자의 너비와 일치)과 "하프폭"(일반 라틴 문자와 일치) 문자가 모두 포함되어 있기 때문입니다.

유니코드 불독상(Unicode Bulldog Award)은 유니코드 개발에 영향력이 있다고 판단되는 사람들에게 수여되며, 수상자로는 고바야시 타츠오, 토마스 마일로, 루즈베 푸르나더, 켄 런드, 마이클 에버슨 등이 있습니다.[6]

역사

유니코드의 기원은 1980년대 제록스문자 코드 표준(XCCS)에 연결된 개인 그룹으로 거슬러 올라갈 수 있습니다.[7] 1987년, 제록스의 직원 조 베커(Joe Becker)는 애플의 직원 리 콜린스(Lee Collins)와 마크 데이비스(Mark Davis)와 함께 보편적인 캐릭터 세트를 만드는 실용성을 조사하기 시작했습니다.[8] 피터 펜윅(Peter Fenwick)과 데이브 옵스타드(Dave Opstad)의 추가적인 의견으로 [7]베커(Becker)는 1988년 8월 "국제/다언어 텍스트 문자 인코딩 시스템, 가칭 유니코드(Unicode)"에 대한 제안 초안을 출판했습니다. 그는 "'유니코드'라는 이름은 독특하고 통일된 보편적인 인코딩을 제안하기 위한 것"이라고 설명했습니다.[7]

Unicode 88이라는 제목의 이 문서에서 Becker는 16비트 문자를 사용하는 방식의 개요를 설명했습니다.[7]

유니코드는 작동 가능하고 신뢰할 수 있는 세계 텍스트 인코딩의 필요성을 해결하기 위한 것입니다. 유니코드는 대략적으로 "광체 아스키"로 묘사될 수 있으며, 이는 전 세계 모든 살아있는 언어의 문자를 포괄하기 위해 16비트로 확장되었습니다. 적절하게 설계된 설계에서 문자당 16비트는 이 목적에 충분합니다.

이 설계 결정은 '현대적'인 사용에서 스크립트와 문자만 인코딩이 필요하다는 가정에 기초하여 이루어졌습니다.[7]

유니코드는 과거 유물을 보존하는 것보다 미래를 위한 효용을 보장하는 것에 더 높은 우선순위를 부여합니다. 유니코드는 첫 번째로 현대 텍스트에 출판된 문자(예: 1988년 세계에서 인쇄된 모든 신문과 잡지의 연합)를 목표로 하며, 그 숫자는 의심할 여지 없이 2 = 16,384에 훨씬 못 미칩니다. 이러한 현대적인 사용 문자 외에 다른 모든 문자는 더 이상 쓸모가 없거나 드문 것으로 정의될 수 있습니다. 이 문자들은 일반적으로 유용한 유니코드의 공개 목록을 혼잡하게 만드는 것보다 개인적인 사용 등록을 위한 더 나은 후보입니다.

1989년 초 유니코드 작업 그룹은 메타포의 켄 휘슬러와 마이크 커너핸, 리서치 라이브러리 그룹의 카렌 스미스-요시무라와 조안 알리프랜드, 썬 마이크로시스템즈의 글렌 라이트로 확장되었습니다. 1990년 마이크로소프트사의 미셸 수이가드와 아스무스 프레이태그, NeXT사의 릭 맥고완도 이 그룹에 합류했습니다. 1990년 말에는 기존 표준을 다시 매핑하는 작업이 대부분 완료되었으며 유니코드의 최종 검토 초안이 준비되었습니다.

유니코드 컨소시엄은 1991년 1월 3일 캘리포니아에 통합되었고,[9] 그 해 10월에 유니코드 표준 제1권이 출판되었습니다. 현재 한 권이 추가된 두 번째 권은 1992년 6월에 출판되었습니다.

1996년에는 유니코드 2.0에 대리 문자 메커니즘이 구현되어 유니코드가 더 이상 16비트로 제한되지 않았습니다. 이것은 유니코드 코드 공간을 백만 개 이상의 코드 포인트로 늘렸고, 이것은 이집트 상형문자와 같은 많은 역사적인 문자들과 표준에 포함될 것으로 예상되지 않았던 수천 개의 거의 사용되지 않거나 쓸모없는 문자들을 인코딩할 수 있게 했습니다. 이러한 문자 중에는 드물게 사용되는 다양한 CJK 문자가 포함되어 있는데, 이 중 많은 문자가 주로 고유 이름에 사용되기 때문에 원래 유니코드 아키텍처가 구상하는 것보다 범용 인코딩에 훨씬 더 필요합니다.[10]

1992년에 발표된 마이크로소프트의 TrueType 사양 버전 1.0은 명명표의 플랫폼 ID에 대해 '유니코드' 대신 '애플 유니코드'라는 이름을 사용했습니다.

유니코드 컨소시엄

유니코드 컨소시엄은 유니코드의 개발을 조정하는 비영리 단체입니다. Adobe, Apple, Google, IBM, Meta(이전 Facebook), Microsoft, NetflixSAP 등 텍스트 처리 표준에 관심이 있는 주요 컴퓨터 소프트웨어 및 하드웨어 회사 대부분(및 기타 소수)이 정회원으로 가입되어 있습니다.[11]

몇 년 동안 여러 국가 또는 정부 기관이 유니코드 컨소시엄의 회원이 되었습니다. 현재 투표권을 가진 정회원은 오직 기부와 종교부(Oman)뿐입니다.[11]

컨소시엄은 기존의 많은 방식들이 크기와 범위가 제한적이고 다국어 환경과 호환되지 않기 때문에 결국 기존의 문자 인코딩 방식을 유니코드와 표준 유니코드 변환 형식(UTF) 방식으로 대체하겠다는 야심찬 목표를 가지고 있습니다.

대상이 되는 스크립트

많은 최신 애플리케이션은 OpenOffice.org 애플리케이션의 이 스크린샷에서 알 수 있듯이 많은 스크립트 중 상당한 부분을 유니코드로 렌더링할 수 있습니다.

유니코드는 현재 사용 중인 대부분의 주요 쓰기 시스템을 다룹니다.[12][better source needed]

2024년 현재 총 161개의 스크립트[13] 유니코드의 최신 버전(알파벳, 아부기다강의 계획서 포함)에 포함되어 있지만, 아직 인코딩되지 않은 스크립트, 특히 역사적, 전례적, 학문적 맥락에서 주로 사용되는 스크립트가 있습니다. 이미 인코딩된 스크립트에 문자와 기호, 특히 수학과 음악(음표와 리듬 기호의 형태)에 대한 기호의 추가도 발생합니다.

유니코드 로드맵 위원회(Michael Everson, Rick McGowan, Ken Whistler, V.S. Umamaheswaran)[14]유니코드 컨소시엄 웹사이트의 유니코드 로드맵[15] 페이지에서 인코딩 후보 또는 잠재적인 후보인 스크립트 목록과 이들의 잠정 코드 블록 할당을 유지합니다. JurchenKhitan 대형 스크립트와 같은 Roadmap 상의 일부 스크립트에 대해서는 인코딩 제안이 이루어졌으며 승인 절차를 거치고 있습니다. 마야(숫자 외에도)나 롱고롱고(Rongorongo)와 같은 다른 스크립트의 경우 아직 제안이 이루어지지 않았으며, 캐릭터 레퍼토리 및 기타 세부 사항에 대한 사용자 커뮤니티의 합의를 기다리고 있습니다.

아직 유니코드에 포함되지 않았거나 실제 사용이 부족하여 유니코드에 포함될 자격이 없는 일부 현대적으로 발명된 스크립트(예: Tengwar)는 비공식적이지만 널리 사용되는 개인 사용 영역 코드 할당과 함께 콘스크립트 유니코드 레지스트리에 나열됩니다.

라틴 중세 특수 문자에 초점을 맞춘 중세 유니코드 폰트 이니셔티브도 있습니다. 이러한 제안 중 일부는 이미 유니코드에 포함되어 있습니다.

스크립트 인코딩 이니셔티브

캘리포니아 대학교 버클리에서 데보라 앤더슨(Deborah Anderson)이 운영하는 스크립트 인코딩 이니셔티브([16]Script Encoding Initiative)는 아직 표준에 인코딩되지 않은 스크립트에 대한 제안 자금을 지원하기 위해 2002년에 설립되었습니다. 이 프로젝트는 최근 몇 년 동안 표준에 대한 추가 제안의 주요 소스가 되었습니다.[17]

버전

유니코드 컨소시엄은 ISO와 함께 유니코드 표준의 첫 출판 이후 공유 레퍼토리를 개발했습니다. 유니코드와 ISO의 UCS(Universal Coded Character Set)는 동일한 문자 이름과 코드 포인트를 사용합니다. 그러나 유니코드 버전은 ISO 버전과 두 가지 중요한 점에서 다릅니다.

UCS는 간단한 문자 맵이지만 유니코드는 서로 다른 플랫폼과 언어 간의 상호 운용성을 달성하는 데 필요한 규칙, 알고리즘 및 속성을 지정합니다. 따라서 유니코드 표준에는 비트 단위 인코딩, 대조 및 렌더링과 같은 심층적인 주제를 다루는 더 많은 정보가 포함되어 있습니다. 또한 양방향 텍스트를 지원하는 데 필요한 문자 속성과 구현자를 돕기 위한 시각적 차트 및 참조 데이터 세트를 포함한 포괄적인 문자 속성 카탈로그를 제공합니다. 이전에 유니코드 표준은 완전한 핵심 사양, 표준 부속서 [note 2]및 코드 차트를 포함하는 인쇄 볼륨으로 판매되었습니다. 그러나 2006년에 출판된 버전 5.0이 이러한 방식으로 인쇄된 마지막 버전이었습니다. 버전 5.2부터는 주문형 인쇄 용지백으로 발행되는 핵심 사양만 구입할 수 있습니다.[18] 반면 전문은 유니코드 웹사이트에 무료 PDF로 공개됩니다.

이 게시 방법의 실질적인 이유는 UCS와 유니코드 간의 두 번째 중요한 차이점(업데이트된 버전이 출시되고 새 문자가 추가되는 빈도)을 강조합니다. 유니코드 표준은 정기적으로 연간 확장 버전을 출시해 왔으며, 때때로 달력 연도에 하나 이상의 버전이 출시되고 예정된 출시가 연기되어야 하는 드문 경우가 있습니다. 예를 들어, 버전 13.0이 발표된 지 한 달 후인 2020년 4월, 유니코드 컨소시엄은 버전 14.0의 출시 예정일을 변경했다고 발표하여 COVID-19 팬데믹으로 인해 6개월 뒤인 2021년 9월로 연기했습니다.

최신 버전인 유니코드 15.1은 2023년 9월 12일에 출시되었습니다. 2022년 9월 13일에 출시된 버전 15.0의 마이너 버전 업데이트로, 두 개의 새로운 스크립트, CJK Unified Ideographes 블록 확장, 기존 블록에 여러 개의 추가된 여러 개의 새로운 문자를 포함하여 총 4,489개의 새로운 문자가 추가되었습니다. 'wireless'(네트워크) 심벌과 색심벌 등 33개의 이모지가 새롭게 추가됐습니다.

지금까지 다음과 같은 버전의 유니코드 표준이 출판되었습니다. 캐릭터 레퍼토리의 변경 사항이 포함되지 않은 업데이트 버전은 세 번째 숫자(예: "버전 4.0.1")로 표시되며 아래 표에서 생략됩니다.[21]

유니코드 버전 기록 및 문자 및 스크립트의 주목할 만한 변경 사항
버전 날짜. UCS판 세부 사항
스크립트 문자[a]
1.0.0[22] 1991년10월 ISBN 0-201-56788-1
(1권)
24 7129 대상 초기 스크립트: Arabic, Armenian, Bengali, Bopomofo, Cyrillic, Devanagari, Georgian, Greek and Coptic, Gujarati, Gurmukhi, Hangul, Hebrew, Hiragana, Kannada, Katakana, Lao, Latin, Malayalam, Odia, Tamil, Telugu, Thai, and Tibetan
1.0.1[23] 1992년 6월 ISBN 0-201-60845-6
(2권)
25 28327+21204
−6
초기 20,902 CJK 통합 아이디어
1.1[24] 1993년6월 ISO/IEC 10646-1:1993

[b]

24 34168+5963
−9
제어문자로 재분류한 33개 한글 음절 4,306개, 티베트어 제거
2.0[25] 1996년7월 ISBN 0-201-48345-9 25 38885+11373
−6656
원래의 한글 음절 세트를 제거하고 새로운 위치에 11,172개의 한글 음절 세트를 추가했으며 티베트어는 새로운 위치에 다시 추가했으며 다른 문자 레퍼토리를 사용하여 대리 문자 메커니즘을 정의하고 평면 15 및 평면 16 사적 용도 영역을 할당했습니다.
2.1[26] 1998년 5월 38887+2
U+20AC EURO 사인, U+FFFC 개체 교체 문자
3.0[27] 1999년9월 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49194+10307
체로키, 게 ʽ, 크메르, 몽골, 버마, 오함, , 신할라, 시리아어, 타아나, 캐나다 원주민 음절, 점자 패턴
3.1[28] 2001년3월 ISO/IEC 10646-1:2000[c]
ISO/IEC 10646-2:2001
41 94140+44946
사막, 고딕고대 이탈리아어, 서양 및 비잔틴 음악을 위한 상징 세트, 42,711개 CJK Unified Ideographes 추가
3.2[29] 2002년3월 45 95156+1016
필리핀 문자(부히드, 하누누, 타갈로그어, 타갈반와)
4.0[30] 2003년4월 ISBN 0-321-18578-1 ISO/IEC 10646:2003

[d]

52 96382+1226
키프로스어 음절, 림부, 선형 B, 오스만야, 샤비안, 타이 르, 우가리트어, 헥사그램 기호
4.1[31] 2005년3월 59 97655+1273
부기네세, 글라골틱, 카로스티, 뉴타이루, 올드 페르시아어, 실헤티 나그리, 티피나그, 그리스어와 통일되지 않은 콥트어, 고대 그리스 숫자음악 기호가 처음으로 명명된 문자 시퀀스가 소개되었습니다.[32]
5.0 2006년7월 ISBN 0-321-48091-0 64 99024+1369
발리어, 설형어, N'Ko, ʼ 파그스파, 페니키아어
5.1[34] 2008년4월 75 100648+1624
Carian, Cham, Kayah Li, Lepcha, Lychian, Lydian, Ol Chiki, Rejang, Saurashtra, SundaneseVai, Paistos 디스크 기호 세트, Mahjong 타일, Domino 타일, 버마어 추가, Scribal 약어, U+1E9E ß 라틴 대문자 샤프 S
5.2[35] 2009년10월 ISBN 978-1-936213-00-9 90 107296+6648
아베스탄, 바뭄, 가디너의 이집트 상형문자 기호 목록, 제국 아람어, 비문 팔라비, 비문 파르티아어, 자바어, 카이티, 리수, 미테이 마예크, 구남아라비아어, 구튀르크어, 사마리아어, 타이탐어, 타이비엣, 기타 CJK 통일 이데아그래프, 구한글용 자모, 베다 산스크리트어
6.0[36] 2010년10월 ISBN 978-1-936213-01-6 ISO/IEC 10646:2010

[e]

93 109384+2088
바탁, 브라흐미, 만다이크, 플레잉 카드 기호, 운송 및 지도 기호, 연금술 기호, 이모티콘 및 이모지 추가[37] CJK 통합 아이디그래프
6.1[38] 2012년1월 ISBN 978-1-936213-02-3 ISO/IEC 10646:2012

[f]

100 110116+732
Chakma, Meroitic 필기체, Meroitic 상형문자, Miao, Sharada, Sora Sompeng, Takri
6.2[39] 2012년9월 ISBN 978-1-936213-07-8 110117+1
U+20BA 터키 리라 사인
6.3[40] 2013년9월 ISBN 978-1-936213-08-5 110122+5
5개의 양방향 포맷 문자
7.0[41] 2014년6월 ISBN 978-1-936213-09-2 123 112956+2834
Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and dingbats
8.0[42] 2015년6월 ISBN 978-1-936213-10-8 ISO/IEC 10646:2014

[g]

129 120672+7716
아옴, 아나톨리아 상형문자, 하트란, 물타니, 올드 헝가리어, 사인라이팅, 추가 CJK Unified Ideographes, 체로키용 소문자, 이모지 피부톤 수식어 5개
9.0[45] 2016년6월 ISBN 978-1-936213-13-9 135 128172+7500
아들람, 백수키, 마르첸, 뉴아, 오사지, 탕굿, 72 이모지[46]
10.0[47] 2017년6월 ISBN 978-1-936213-16-0 ISO/IEC 10646:2017

[h]

139 136690+8518
자나바자르 광장, 소욤보, 마사람 곤디, 누슈, 헨타이가나, 7,494 CJK 통일이데그래프, 56 이모지, 비트코인 심볼
11.0[48] 2018년6월 ISBN 978-1-936213-19-1 146 137374+684
도그라, 그루지야어 음타브룰리 대문자, 군잘라 곤디, 하니피 로힝야어, 인디시야크 숫자, 마카사르, 메데파이드린, 올드 소그디안소그디안, 마야 숫자, 5 CJK 통합 이데아그래프, 샹치 및 별 등급 기호, 145 이모지
12.0[49] 2019년3월 ISBN 978-1-936213-22-1 150 137928+554
Elymaic, Nandinagari, Nyiakeng Puachue Hmong, Wancho, Miao 문자, Hiragana 및 Katakana 작은 글자, 타밀 역사적 분수 및 기호, Pali를 위한 라오스 문자, 이집트학 및 우간다어 번역을 위한 라틴 문자, 상형문자 형식 제어, 61 이모지
12.1[50] 2019년 5월 ISBN 978-1-936213-25-2 137929+1
U+32FF SQUARE ARA NAME REIWA
13.0[51] 2020년3월 ISBN 978-1-936213-26-9 ISO/IEC 10646:2020

[52]

154 143859+5930
Chorasmian, Dhives Akuru, Khitan 소문자, Yeszidi, 4,969 CJK 이데아그래프, Hausa, Wolof, 기타 아프리카 언어를 쓰기 위해 사용된 아랍 문자 추가, 파키스탄 힌드코펀자브를 쓰기 위해 사용된 추가, 광둥어에 사용된 Bopomofo 추가, Creative Commons 라이선스 심볼, 문자 및 가정용 컴퓨터 시스템과 호환되는 그래픽 문자, 55 이모지
14.0[53] 2021년9월 ISBN 978-1-936213-29-0 159 144697+838
Toto, Cypro-Minoan, Vithkuqi, Old Uyghur, Tangsa, 확장 IPA, 아프리카 및 이란, 파키스탄, 말레이시아, 인도네시아, 자바 및 보스니아 언어에서 사용할 아랍어 스크립트 추가, 존칭 및 코란어 사용 추가, 북미, 필리핀, 인도 및 몽골 언어 지원 추가, U+20C0 SOM SIGN, 즈나메니 음악 표기법, 37 이모지
15.0[54] 2022년9월 ISBN 978-1-936213-32-0 161 149186+4489
카위문다리, 이모지 20개, CJK 아이디지 4,192개, 이집트 상형문자 제어 문자
15.1[55] 2023년9월 ISBN 978-1-936213-33-7 149813+627
CJK 추가 아이디얼
  1. ^ 개인용 문자, 제어 문자, 비문자대리 코드 포인트를 제외한 그래픽 및 형식 문자의 총 수).
  2. ^
    • 2.0 수정안 5, 6, 7이 추가되었습니다.
    • 2.1은 수정안 18에서 두 개의 문자를 추가했습니다.
  3. ^ 3.2 수정안 1이 추가되었습니다.
  4. ^
    • 4.1 수정안 1 추가
    • 5.0 수정헌법 2조 및 수정헌법 3조의 4자 추가
    • 5.1 수정안 4 추가
    • 5.2 추가된 수정안 5 및 6
  5. ^ 거기다 인도 루피 사인까지.
  6. ^
  7. ^ 아울러 개정안 1, 라리표지판, CJK 통일이데올로기 9점, 이모지 41점,[43]
    9.0은 수정안 2와 더불어 Adlam, Newa, 일본 TV 심볼, 74개의 이모지 및 심볼을 추가했습니다.[44]
  8. ^
    • 추가로 이모티콘 56개, 헨타이가나 285개, 자나바자르 광장 3개
    • 11.0 Mtavruli Georgian 대문자 46개, CJK 통일 아이디어 5개, 이모지 66개 추가
    • 12.0은 62자를 추가했습니다.

예상 버전

유니코드 컨소시엄(Unicode Consortium)은 일반적으로 1년에 한 번, 또는 가끔 1년에 두 번 새로운 버전의 유니코드 표준(The Unicode Standard)을 출시합니다. 다음 주요 버전인 버전 16.0은 2024년에 출판될 예정이며, 6개의 새로운 스크립트(Todhri, Sunuwar, Gurung Khema, Kirat Rai, GarayOl Onal), 알파벳을 위한 추가 버마 숫자, 레거시 컴퓨팅을 위한 추가 기호 및 최소 6개의 새로운 이모티콘이 포함될 것으로 예상됩니다.[56][57]

건축과 용어

코드스페이스 및 코드포인트

유니코드 표준은 코드 공간을 정의합니다 [ × 2 간격을 포함하는 코드 포인트라고[59] 하는 정수의 시퀀스를U+0000으로 표시합니다.U+10FFFF.[60] 코드스페이스는 유니코드 표준의 체계적이고 아키텍처에 독립적인 표현이며, 실제 텍스트는 UTF-8과 같은 여러 유니코드 인코딩 중 하나를 통해 이진 데이터로 처리됩니다.[a]

이 표준 표기법에서 두 문자 접두사는 U+ 코드 포인트는 항상 작성된 코드 포인트 앞에 나타나며 [61]코드 포인트 자체는 16진수로 작성됩니다. 필요에 따라 선두 0이 앞에 붙는 16진수 숫자는 항상 4개 이상 작성됩니다. 예를 들어 코드 포인트 U