GB 2312

GB 2312
GB 2312
MIME / IANAGB_2312-80(GB2312통상적인 EUC 폼의 경우)
에일리어스iso-ir-58, 중국어, csGB2312, csISO58GB231280
언어간체 중국어, 영어
부분 지원:
중국어, 러시아어, 불가리아어, 그리스어, 일본어, 이탈리아어, 아일랜드어, 마오리어 번체
표준.GB/T 2312-1980
분류ISO-2022 호환 DBCS, CJK 인코딩
내선번호ISO-IR-165
인코딩 형식EUC-CN (GB2312),
HZ-GB-2312
선행중국 전보 코드
에 의해 성공자GBK, GB 18030
기타 관련 부호화JIS X 0208, KS X 1001

GB/T 2312-1980 중화인민공화국의 주요 공식 문자 집합으로, 간체자에 사용됩니다.GB2312EUC-CN의 등록된 인터넷 이름으로, 통상적으로 인코딩된 형식입니다.GB refers to the Guobiao standards (国家标准), whereas the T suffix (推荐; tuījiàn; 'recommendation') denotes a non-mandatory standard.[1]

GB/T 2312-1980은 원래 GB 2312-1980으로 지정된 필수 국가 표준이었습니다.단, 2017년 중화인민공화국 국가표준게시판에 따라 GB 2312는 더 이상 의무사항이 아니며 표준코드는 GB/[2]T 2312-1980으로 변경되었습니다.GB/T 2312-1980GBKGB 18030으로 대체되었으며, GB/T 2312는 여전히 널리 사용되고 있습니다.

2021년 11월 현재 GB2312는 웹에서 가장 인기 있는 중국어 전용 인코딩으로,[3] 중국 및 영토에서 제공되는 웹 페이지의 6.9%, 전 세계 웹 페이지의 0.1%로 2010년 [4]1월의 3.5%에서 감소했습니다.단, 모든 주요 웹 브라우저는 "GB2312" 또는 "GB2312"("GB_2312"는 아님)로 표시된 문서를 슈퍼셋 인코딩인 "gbk"[5]로 표시된 것처럼 디코딩하고 GB2312와 GBK의 점유율은 9.1%(전 세계적으로는 0.2% 미만)입니다.

GB/T 12345로 알려진 유사한 문자 집합이 있으며 GB/T 2312와 밀접하게 관련되어 있지만 간체 형식을 대체하는 기존 문자 형식과 62개의 추가 [6][7]문자가 있습니다.GB로 인코딩된 글꼴은 대개 GB/T 2312(간체) 문자 집합과 GB/T 12345(기존) 문자 집합으로 쌍으로 제공됩니다.

행의 문자 범위

GB/T 2312는 현재 중국어 텍스트 [8]사용량의 99.99% 이상을 차지하고 있지만, 역사 텍스트와 많은 이름은 범위를 벗어납니다. GB 2312 규격에는 기호와 구두점, 일본어 가나, 그리스어 및 키릴어 알파벳, 주인, 톤 마크가 있는 2바이트의 핀인 문자 집합과 함께 6,763개의 한자가 포함되어 있습니다.이후 버전 GB/T 2312-1980에서는 7,445개의 문자가 있습니다.

GB/T 2312의 문자는 94×94 그리드(ISO 2022와 같음)로 배치되고, 각 문자의 2바이트 코드 포인트는 행(ku 또는 qu区区)과 행(cell, ten 또는 wè位) 내의 문자의 위치를 지정하는 쿠텐(또는 quw,i, )) 형식으로 표현된다.예를 들면, 문자 「,」([9]외국어)는 45열 66에 위치하고 있기 때문에, 그 쿠텐 코드는 45~66이다.

행(1 ~ 94)에는 다음과 같은 문자가 포함됩니다.

10 ~ 15 행과 88 ~94 행은 할당 해제되어 있습니다.

GB/T 2312-1980의 경우 682개의 기호와 6763개의 한자가 포함되어 있습니다.

GB/T 2312 인코딩

EUC-CN

EUC-CN은 GB/T 2312를 처리하는 프로그램에서 문자 인코딩(외부 스토리지용)으로 자주 사용되므로 ASCII와의 호환성을 유지합니다.ASCII에서 찾을 수 없는 모든 문자를 나타내기 위해 2바이트가 사용됩니다.첫 번째 바이트 값은0xA1–0xF7(124 ~ 247) 단, 두 번째 바이트 값은0xA1–0xFE(161–254).이러한 범위는 모두 UTF-8과 같이 ASCII를 벗어나기 때문에 EUC-CN을 사용할 때 바이트가 멀티바이트 구성의 일부인지 확인할 수 있지만 바이트가 처음인지 마지막인지 확인할 수 없습니다.

UTF-8에 비해 GB/T 2312(EUC-CN에서 네이티브 또는 인코딩됨)가 스토리지 효율성이 더 높습니다. 반면 UTF-8은 CJK 한자당 3바이트를[a] 사용하며 GB/T 2312는 2바이트만 사용합니다.그러나 GB/T 2312는 Unicode만큼 많은 한문자를 지원하지 않습니다.

kuten 코드 포인트를 EUC 바이트에 매핑하려면 160을 추가합니다.0xA0행 번호(ku 또는 qu, ")와 셀/컬럼 번호(ten 또는 wéi)의 양쪽 모두에 대응합니다.코드 포인트의 행 번호에 대한 덧셈 결과는 하이 바이트를 형성하고, 코드 포인트의 셀 번호에 대한 덧셈 결과는 로우 바이트를 형성합니다.

예를 들어, kuten 셀 45-66에서 문자 "codel"을 인코딩하려면 하이 바이트가 행 번호 45: 45+160=codel=를 사용합니다.0xCD낮은 바이트는 셀 번호 66에서 나옵니다: 66+160=212=0xE2완전한 부호화는<CD E2>를 클릭합니다.[10][11]

ISO-2022-CN

ISO-2022-CN은 GB/T 2312의 또 다른 인코딩 형식이며 공식 문서에서 지정된 인코딩이기도 합니다.이 인코딩은 ISO-2022 표준을 참조하고 있습니다.ISO-2022 표준은 ASCII에서 찾을 수 없는 문자를 인코딩하기 위해서도2 바이트를 사용합니다.다만, ASCII 의 확장 영역을 사용하는 대신에, ISO-2022 는 ASC 와 같은 바이트 범위를 사용합니다.II: 첫 번째 바이트 값은0x21–0x77(33–119) 단, 두 번째 바이트 값은0x21–0x7E(33–126).바이트 범위가 ASCII 범위 내에 있는지 또는 확장 영역의 2바이트 시퀀스의 일부인지, 즉 Shift Out 및 Shift In 기능의 일부인지를 나타내기 위해 특수 문자가 필요합니다.이는 잘못된 텍스트 처리로 인해 정보가 누락될 수 있으므로 잘못 인코딩될 위험이 있습니다.

kuten 코드 포인트를 ISO-2022 바이트에 매핑하려면 32를 추가합니다(0x20행 번호(ku 또는 qu, ")와 셀/컬럼 번호(ten 또는 wéi)의 양쪽 모두에 대응합니다.코드 포인트의 행 번호에 대한 추가 결과는 높은 바이트를 형성하고, 코드 포인트의 셀 번호에 대한 추가 결과는 EUC 인코딩과 유사한 낮은 바이트를 형성합니다.

예를 들어, kuten 셀 45-66에서 문자 "context"를 인코딩하려면 하이 바이트가 행 번호 45: 45+32=77=를 사용합니다.0x4D낮은 바이트는 셀 번호 66에서 나옵니다: 66+32=98=0x62완전한 부호화는<4D 62>를 클릭합니다.[11]

HZ

HZ는 주로 Usenet 게시물에 사용되는 GB/T 2312의 또 다른 인코딩입니다.문자는 ISO-2022-CN과 같은 바이트 쌍으로 표시되지만 GB 2312 텍스트 범위의 시작과 끝을 나타내는 바이트 시퀀스는 다릅니다.

코드 차트

다음 표에서는 프리픽스바이트 또는 부호화바이트에 대해 16진수의 페어가 주어지는 경우 ISO-2022-CN 또는 HZ-GB-2312와 같이 GL(0x21-0x7E)을 통해 부호화되었을 때 작은 것(8번째 비트)이 사용되고 일반적인 GR0보다 큰 것(8번째 비트)이 사용됩니다.(EUC-CN, GBK 또는 GB 18030).큐웨이의 숫자는 10진수로 표시됩니다.

GB/T 2312가 GR을 통해 인코딩되면 두 바이트 모두 8번째 비트 세트(0x7F보다 큼)가 됩니다.또한 GBK 및 GB 18030은 확장 목적으로 첫 번째 바이트에만8번째 비트가 설정되어 있는2 바이트 코드를 사용합니다.이러한 코드는 GB/T2312 플레인 외부에 있으며, 여기에 일람표화되어 있지 않습니다.

리드 바이트

이 차트는 리드 바이트별로 설정된 GB/T 2312 문자의 주 평면의 전체 레이아웃에 대해 자세히 설명합니다.한지 이외의 문자에 사용되는 리드 바이트의 경우 해당 리드 바이트로 인코딩된 문자를 나열하는 이 페이지의 차트에 대한 링크가 제공됩니다.한지에 사용되는 리드 바이트의 경우 Wiktionary 한지 인덱스의 해당 섹션에 대한 링크가 제공됩니다.

GB 2312 (리드바이트)
0 1 2 3 4 5 6 7 8 9 A B C D E F
축당 2배 SP[b] 1-_ 2-_ 3-_ 4-_ 5-_ 6-_ 7-_ 8-_ 9-_ 10-_ 11-_ 12-_ 13-_ 14-_ 15-_
3배/B배 16-_ 17-_ 18-_ 19-_ 20-_ 21-_ 22-_ 23-_ 24-_ 25-_ 26-_ 27-_ 28-_ 29-_ 30-_ 31-_
4배속/Cx 32-_ 33-_ 34-_ 35-_ 36-_ 37-_ 38-_ 39-_ 40-_ 41-_ 42-_ 43-_ 44-_ 45-_ 46-_ 47-_
5배속/깊이 48-_ 49-_ 50-_ 51-_ 52-_ 53-_ 54-_ 55-_ 56-_ 57-_ 58-_ 59-_ 60-_ 61-_ 62-_ 63-_
6배속/Ex 64-_ 65-_ 66-_ 67-_ 68-_ 69-_ 70-_ 71-_ 72-_ 73-_ 74-_ 75-_ 76-_ 77-_ 78-_ 79-_
7x/Fx 80-_ 81-_ 82-_ 83-_ 84-_ 85-_ 86-_ 87-_ 88-_ 89-_ 90-_ 91-_ 92-_ 93-_ 94-_ [b]
리드 바이트
미사용 리드 바이트

한자가 아닌 행

다음 표는 GB/T 2312, GB/T 12345 및 GB 18030의 더블바이트 영역 1(GB/T 2312의 비한자 영역과 거의 일치)에서 사용할 수 있는 비한자 문자를 나열합니다.이러한 차이가 있는 부분과 GB 6345.1 및 ISO-IR-165가 다른 부분이 기재되어 있습니다.비교를 위해 다른 CJK 국가 문자 세트에 대한 기사를 상호 참조합니다.

2개의 GB2312 구현

EUC-CN GBK/GB18030 서브셋 GB2312.TXT 캐릭터명[12]: 3
A1A4 U+00B7 · 가운데 점 U+30FB 가타카나 미들 도트 ''
A1AA U+2014 전자파 대시 U+2015 철봉 '''

인터시트의 Unicode 매핑(중국어: lit; 점등).GB/T 2312(U+00B7 · MIDDLE DOT U+2014 EM DASH)에 대응하는 GBKGB 18030의 서브셋에 있는 '세퍼레이터 도트'와 엠 대시(중국어: em DASH)는 GB2312에 나열된 것과 다릅니다.TXT(U+30FB · KATAKANA MIDDLE DOT 및 U+2015 - HITABLANTAL BAR)는 유니코드 [13]컨소시엄에서 제공하던 데이터 파일로서, 2011년[14] 8월부터 폐지되어 2016년 9월부터 호스팅되지 않고 있습니다.

2015년 현재 Microsoft.Net Framework는 라벨이 붙은 데이터 내의 두 문자를 매핑할 때 GB 18030 매핑을 따릅니다.gb2312, ICU,[15] iconv-1.14,[16] php-5.6, ActivePerl-5.20, Java 1.7 및 Python 3.4는[17] GB2312를 따릅니다.에 대한 응답으로 TXT가gb2312Label. Ruby 2.2는 양쪽 구현에 호환되며 충돌하는 문자를 내부적으로 GB 18030 서브셋으로 변환합니다.HTML5에서의 사용에 관한 W3C/WHATWG 기술 권장사항에서는 라벨이 붙은 스트림에 대해 GBK 인코딩을 유추하도록 규정되어 있습니다.gb2312GB18030 [18]디코더를 사용합니다.

Apple의 매핑을 포함하여 [13][19]벤더가 다른 매핑을 정의하여 사용하고 있습니다.

문자 집합 0x21/0xA1(1행: 구두점 및 기호)

이 행에는 구두점, 수학적 연산자 및 기타 기호가 포함됩니다.다음 표는 이러한 GB/T 2312 문자의 GB 18030[20] 매핑을 먼저 나타내고 다음으로 문서화된 매핑을 나타냅니다.

GB 2312 (0x21/0xA1로 프리픽스)
0 1 2 3 4 5 6 7 8 9 A B C D E F
축당 2배 IDSP
3001

3002
·/ ˉ
02C9
ˇ
02C7
¨
00A8

3003

3005
-/- / / ∥∥ …/알겠습니다.
2018

2019
3배/B배
201C

201D

3014

3015

3008

3009

300A

300B

300C

300D

300E

300F

3016

3017

3010

3011
4배속/Cx ±
00B1
×
00D7
÷
00F7

2236

2227

2228

2211

220F

222A

2229

2208

2237

221A

22A5

2225

2220
5배속/깊이
2312

2299

222B

222E

2261

224C

2248

223D

221D

2260

226E

226F

2264

2265

221E

2235
6배속/Ex
2234

2642

2640
°
00B0

2032

2033

2103

FF04