한글전산화

FrontPage|FindPage|TitleIndex|RecentChanges| UserPreferences P RSS
한글 기계화. 혹은 한글 전산화.

이 항목들은 한국이 단순한 IT강국에서 문화인프라 강국으로 나아가는데 엄청난 걸림돌로 작용하고 있는 것들이다.

자판의 기계화

코드처리

완성형과 조합형의 해묵은 논쟁. 하지만 완성형은 명백한 닭짓이다. 중국영화현대중국을찾아서에서 거북이는 장개석이 아니라 장가이셱(셔+ㅣ+ㄱ)이라고 쓰고 싶었다. 왜 이렇게 깨져나오냐 하면 윈도우의 한글 처리방식은 완성형이기 때문이다. 확장 완성형에서는 이런 문제가 거의 해결되었지만 방식 자체에 근본적인 문제는 전혀 해결되지 않았다.

UniCode를 사용함으로써 위의 문제는 해결 된 것입니다. 조합형에서 쓰이는 모든 한글 조합이 유니코드에 들어있고, 유니코드로 된 한글을 쉽게 자소로 구별 가능하며(완성형의 장점 + 조합형의 장점), 이와 더불어, 조합 가능한 모든 글자를 표현하기 위한 첫가끝 방법을 유니코드가 지원하므로써, 옛한글을 표현할 수 있게 되었죠. (조합형으로는 KLE:옛한글을 표현할 수 없죠. 옛한글을 완전히 표현하기 위해서는 2바이트 조합형을 확장해야 가능하겠지만, 그것은 이미 조합형이 아니게 됩니다) 짧게 줄여 말하자면, 유니코드는 완성형의 장점과 조합형의 장점을 완전히 흡수했습니다. KLE:Yudit이라는 편집기(윈도우즈 유닉스 모든 환경에서 작동)를 이용하면 이미 KLE:옛한글를 편집할 수 있습니다. Mozilla에서도 조만간 가능할 것이고(신정식님), Pango에서도 가능합니다(cwryu님 신정식님). 이러한 환경은 얼마 안가면 보편화 될 것입니다. 아직은 물론 시범 단계이지만요. -- 무신
  • 관련된 최신 뉴스는 KLE:옛한글GnomeKorea:PangoHangulShaper를 참고하세요.

    M$-윈도우즈에 쓰이는 확장 완성형, 즉 UHC는 지금 많은 문제를 일으키고 있습니다. 리눅스나 FreeBSD와 같은 운영체제가 데스크탑 환경에서도 퍼지고 있는 상황에서 그 문제점이 계속 드러나고 있지요. 가령, 리눅스 환경에서 쓸 수 있는 웹 브라우저 가운데 ㅤㅁㅟㅇ(ㅁ+ㅜ+ㅣ+ㅇ)기적을 표시할 수 있는 브라우저는 아직 [http]모질라밖에 없습니다. 이 ㅤㅁㅟㅇ기적지일보에서 자주 볼 수 있는 낱말이죠. 물론, 앞으로 다른 브라우저에서도 차차 UHC를 지원하도록 해야겠지만 성급한 확장이 부른 폐혜가 이렇게 나타납니다. 그 밖에도 IRC나 메신저처럼 윈도우즈를 쓰고있는 사람과 이야기를 주고받을 때도 이런 현상이 자주 나타나지요. -- 까비

    완성형이라 불리는 KSX1001에도 부록을 보면 초,중,종성을 풀어서 한 음절을 8바이트로 11,172자 현대한글은 표현할 수 있는 방법이 있습니다. 하지만 완성형 표준이 만들어지고 비난받기 시작하던 때는 이런 인코딩을 용납하기 힘든 시대였기 때문에 (DOS 모드에서 2바이트가 1글자에 해당해야 하므로) 사용하기 어려운 방법이었고, 아직까지도 이 부록을 구현한 소프트웨어를 보지 못했습니다. -- cwryu
    아시겠지만, Mozilla는 이것을 구현했습니다. --아무개

완성형이 외국어 표기에는 문제가 있지만, 외래어 표기엔 큰 문제가 없습니다. 때로는 오타나 맞춤법 실수를 줄이는 단점에서오는장점도 있답니다. (윈도즈 2000에서는 누릴 수 없지만요.) 완성형은 좀 불편한 정도지만, 확장완성형은 한글기계화 입장에서는 악몽이고요.

까비는 프로그램에서 쓰이는 말을 다양한 나라말로 쓸 수 있도록 도와주는 연장인 [http]gettext토씨 처리 기능이 들어가기를 바라고 있습니다. 한국말에서 토씨(조사)는 낱말 마지막 글자가 받침을 가지고 있는지 없는지에 따라 다르게 붙습니다. 보기) 하나 / 둘, 하나 / 둘

물론, 토씨가 쓰이는 나라말이 얼마나 될지, 토씨가 쓰이더라도 우리 나라말 처럼 두 가지 토씨를 상황에 따라 다르게 붙는 경우가 얼마나 될지, 현재 gettext나 이를 쓰고있는 소프트웨어 개발자들이 이를 받아들일 수 있는지를 따지다 보면 가까운 시간 안에는 무척 힘드리라고 봅니다. 다만, 유니코드가 퍼지고 있는 흐름을 바라볼 때 구현이 아주 간단해졌고 토씨를 지원하는 기능이 들어가면 한국말 메세지가 훨씬 자연스러워집니다. 사실 이런 바램은 얼마전에야 품게 되었습니다. 지금까지 %s(을)를 지웁니다와 같이 메세지를 넣거나 아예 토씨를 무시하고 %s을 지웁니다처럼 메세지를 넣었었습니다. 그런데 지난 해 gettext에 단수와 복수를 지원하는 기능(Plural)이 들어갔습니다. 그 전에는 메세지를 단수 메세지와 복수 메세지로 따로 넣어야 했는데, 이를 메세지 하나로 가능하도록 만든 것입니다. 이를 보고서 떠오른 생각이 토씨 처리입니다.

"직접 만들어서 gettext에 적용해 보지 그러냐?"라고 말씀하신다면, "만드는 일 보다 다른 나라 사람들이 받아들이도록 이해시키는게 어렵다"라고 말씀드릴 수 밖에 없네요. ^^; -- 까비

한글 기계화와 관련된 일감이나 사이트

  • 한글프로그래밍언어
  • [http]한국어 PO 파일 검사툴 : Python과 한국말 코덱으로 만들어졌습니다. 유니코드를 썼을 때 얼마나 다양하게 한글을 처리해낼 수 있는지를 쉽게 보여주는 보기가 들어있습니다. 받침이 'ㅆ'으로 끝나는 낱말을 찾아내는 루틴이 들어있죠.
  • [http]한글 정규 표현식 : 정규 표현식에 한글 처리를 더하고 있습니다.
  • KLE:libhangul : 퍼키님과 krisna님이 관리하는 한글 라이브러리 프로젝트


"; if (isset($options[timer])) print $menu.$banner."
".$options[timer]->Write()."
"; else print $menu.$banner."
".$timer; ?> # # ?>