본문 바로가기
카테고리 없음

[자료구조] 문자 데이터의 표현

by 김아잉 2024. 3. 19.
728x90

• 유니코드(unicode)

- 전 세계 모든 문자를 통일된 부호 체계로 표현하도록 지원하는 국제 표준 코드

- 하나의 문자를 표현하는 데 2byte를 사용

- 사용 중인 운영 체제와 프로그램에 관계없이 문자마다 고유한 코드값을 제공

- 언어와 상관 없이 모든 문자를 16bit로 표현하므로 최대 65,536자를 표현 가능

- 동일한 환경에서 여러 문자를 사용할 수 있지만, 프로그램의 용량이 커진다.

 

• ASCII(American Standard Code for Information Interchange)

- 한 문자를 표현하는 데 7bit(zone : 3bit, Digit : 4bit)로 구성

- 대,소문자의 구분이 가능

 

※ tistory id를 ASCII 코드로 변환해보자 ※

r의 ASCII 코드는 114

o의 ASCII코드는 111

t의 ASCII 코드는 116

공백의 ASCII 코드는 32

p의 ASCII 코드는 112

y의 ASCII 코드는 121

 

114 111 111 116 32 112 121

 

• 한글 코드

 ‣완성형

  - 가나다 순서로 완성된 하나의 음절에 코드를 부여하여 2byte에 표현

 ‣비완성형

   - 초성, 중성, 종성 각각에 5bit를 조합하여 표현

   - 최상위 1bit는 영문자와 구별하기 위하여 사용

   - 모든 한글을 표현할 수 있으나 국제 표준화 기구의 정보 교환용 확장법에 위배되어 표준으로 쓰기에는 부적합

728x90

댓글