Uni Code

홈페이지.

유니코드는 세계의 모든 글자와 대응하는 문자집합이다.

[edit]

소식 ¶

UniCode 4.0이 릴리즈되었습니다. 2003.4. --서상현

[edit]

역사 ¶

ASCII 미국 표준이다. 컴퓨터 코드체계를 선점하여, 가장 큰 영향력을 발휘한다. 현재까지도 호환성이 좋다. 나중에에 확장판(Latin-1, Extended ASCII)을 발표했다.

2byte 문자집합
컴퓨터는 알파벳 문화권에서 설계되었기에 비알파벳 언어 (아랍, 한자, 한글, 일어 등)들을 처리하지 못했다. 그래서 잘 쓰이지 않는 ASCII코드 조합으로 각 언어를 표시하기 시작했다. 그러나 ASCII코드와 뒤섞일 경우 글자 수를 가늠하기가 힘들고, 각 나라별로 지정한 문자 집합이 충돌하는 경우가 많다.

UniCode 세계의 모든 글자를 표기할 수 있는 문자집합이다. 유니코드는 내부적으로 2바이트 혹은 4바이트로 처리되며, UTF-8로 인코딩하여 표현하는 것이 일반적인 방법이므로 한글일 경우는 세배의 공간을 쓰게된다. 이 이외에 UTF-7, UTF-16(Mac에서) 등등의 여러 인코딩 방법으로 UniCode를 쓴다.

UniCode를 HTML로 직접 넣으려면 ›와 같이 하면 된다.

[edit]

아햏햏 ¶

이제 [[HTML(햏)]]을 쓰지 마시고 곧바로 햏을 쓰세요

InternetExplorer에서는 햏자를 SGML entity로 변형시킵니다. Mozilla에서는 완성형 부록에 명시되어 있는데로 8바이트 문자(채움+초성+중성+종성)로 만듭니다. Mozilla에서는 두번째의 8바이트로 늘어선 한글을 잘 보여주지만 InternetExplorer에서는 그렇지 않습니다. 햏과 같은 문자가 들어있는 페이지를 만드실 때는 InternetExplorer에서 만들어 주셔야 합니다. --고무신

WebBrowser	햏
InternetExplorer	햏
Mozilla	ㅤㅎㅐㅎ
OperaWebBrowser	햏

문제는 InternetExplorer에서와 같이 &#으로 시작하는 코드(SGML entity)를 처리할 수 없는 사이트에서는 그것이 무슨 글자인지 알 수 없으며, Mozilla에서는 ㅤㅎㅐㅎ 자가 제대로 보이지만 다른 브라우저에서는 그렇지 않다는 것입니다. 여기에서 작은 프로토콜 차이가 생깁니다. 화나는 부분은 OperaWebBrowser를 쓰는 제가 이 글을 InternetExplorer를 통해서 올려야만 했다는 것입니다. '햏' 자가 IE 사용자에 의해서(고의는 아니지만) &#코드로 바뀌어 버린다면 그때부터 이 글은 제가 원하는 형태의 글이 아니게 될 것이기 때문입니다. 결국 우리는 회색 테이블에 들어가면 깨져 보이는 &#코드에 맞춰서 글을 써야만 하고, 이 말은 곧 그 코드가 아직도 표준이라는 것입니다. --PuzzletChung

SeeAlso

컴퓨터분류 언어학분류