1 / 20

한자 도메인 이슈 간체 / 번체

한자 도메인 이슈 간체 / 번체. 2002. 02. 23 한국인터넷정보센터 전애실. 목 차. 간체 , 번체자의 특징 기술적 구현 방법 국내외 동향 Action Item. 간체 & 번체자의 특징. 1:1, 1:n, n:1 매핑 등의 다양한 방법 존재 n 개의 문자수에 간체 / 번체가 섞여있다면 최대 2^n 개의 변형된 조합 가능  도메인 등록 시 문제 총 간체자 2236자 존재하며 이중 20여 자 정도가 1:2 대응

lorene
Télécharger la présentation

한자 도메인 이슈 간체 / 번체

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 한자 도메인 이슈간체/번체 2002. 02. 23 한국인터넷정보센터 전애실

  2. 목 차 • 간체, 번체자의 특징 • 기술적 구현 방법 • 국내외 동향 • Action Item

  3. 간체 & 번체자의 특징 • 1:1, 1:n, n:1 매핑 등의 다양한 방법 존재 • n개의 문자수에 간체/번체가 섞여있다면 최대 2^n개의 변형된 조합 가능  도메인 등록 시 문제 • 총 간체자 2236자 존재하며 이중 20여 자 정도가 1:2 대응 • TWNIC은 총 2099쌍의 1:1 매핑 테이블 생성(참조 - http://cdns.twnic.net.tw/1to1.html) • 1:n의 경우에는 모두 합치면 50여자가 넘는 정체 한자들이 원래의 자형을 잃어버리고 간화되었는데 대개는 성조나 문맥으로 이들을 구별 (예: 간체자 ‘干’은 정체자 ‘幹’과 ‘乾’)

  4. 간체 & 번체자의 특징 • 중국 도메인명은 1~20자까지 가능 • CJK 공통 표의문자 상 U+4E00 ~ U+9FA5 사이에 존재 T: The script is in Tradition Chinese range (Microsoft windows CP950,(Big5)) C: The script is in Simplify Chinese range (Microsoft windows CP936,(GBK)) J: The script is in Japan Hanjirange (Microsoft windows CP932) K: The script is in Korea Hanjirange (Microsoft windows CP949)

  5. 著(火)catch fire U+8457 (U+706B) 著(作)works U+8457 (U+4F5C) 사용자는 charset이나 encoding에 신경쓰지 않아도 되지만 “著火” 를 “着火”와 동일한 도메인명으로 타이핑하기를 원함. 간체 & 번체자 특징 (n:1) Simplified Traditional 着(火) catch fire U+7740(U+706B) 著(作) works U+8457(U+4F5C)

  6. 發(展) develop U+767C (U+5C55) (頭)髮hair ( U+982D) U+9AEE 사용자는 “发*”를 “發*” 와 동일 도메인으로 원할 수도 있고, 또 다른 경우에는 “发*”를 “髮*”와 동일 도메인으로 원할 수도 있음. 간체 & 번체자 특징 (1:n) Simplified Traditional 发 U+53D1

  7. 간체 & 번체자 입력 • 사용자 측면 사용자는 DNS에서 사용하는 인코딩 구조와 무관하게 중국어 도메인명을 입력하기 위한 각자 친숙한 IME 사용 • 운영자 측면 Zone file이 반드시 해독가능해야 함. (운영자용 localized editor필요) User User input name (charset) Web site 清华大学.cn (GBK) U+6E05 534E 5927 5B66 Same Platform www.tsinghua.edu.cn 清華大學.cn (BIG5) U+6E05 83EF 5927 5B78

  8. 간체 & 번체자 구현기술 • 대소문자 구분하지 않는 도메인 이름체계에서는 동일하게, 이를 표시하는 시스템에서는 마지막 글자의 대소문자를 파악하여 TC & SC 구분 万-- 유니코드 (4E07) -- 중간코드 5234-0 -- ACE 결과 acb 萬-- 유니코드 (842C) -- 중간코드 5234-1 -- ACE 결과 acB • 다중 레코드 솔루션 • 중복 레코드 존재 가능 • 다른 네임서버 간에 일관성 유지하기 힘듦 • T-S 매핑 테이블 이용방법 • 몇몇 특정 문자인 경우 다른 구문에서 다른 문자로 매핑될 수 있음 (1:n)

  9. Solutions of CDNS(1) User enter name Display Delimiter folding Sequence of name type of local charset Local encoding

  10. Solutions of CDNS(2) Mapping Normalization Prohibit check User enter name Display Delimiter folding Sequence of name type of local charset Local – UCS2 conversion Nameprep Punycode

  11. Solutions of CDNS(3) Nameprep Mapping Normalization Prohibit check User enter name Display Delimiter folding Sequence of name type of local charset Local – UCS2 conversion Mapping(Chinese folding) TC SC Punycode

  12. Solutions of CDNS(3) Nameprep Mapping Normalization Prohibit check User enter name Display Delimiter folding Sequence of name type of local charset Local – UCS2 conversion Mapping(Chinese folding) TC SC (HSE, flag) Validation Check Punycode

  13. 간체 & 번체자 1:1 매핑 관련 국내 의견 • 부정적 의견 • 1:1 매핑으로는 어차피 완전한 해결이 안된다. • 도메인 이름 공간의 크기를 줄이는 부작용이 있다. • 국제표준에 반영하기 위한 노력으로 인해 표준화가 지연되는 경향이 있다. • 중국이나 대만등의 국가에서 지역화(localization) 및 등록(registration)으로 해결할 문제일 수도 있다. • 긍정적 의견 • 간체 입력기 없이, 간체명을 우리 KS C 5601 표준한자로 입력 가능 –사이트 접근의 용이함 • 사용자의 시스템이 정자만을 지원하더라도 간화자로 표기되는 사이트 주소도 표시 가능 • 도메인 이름 분쟁의 소지를 줄여준다.

  14. 간체 & 번체자 해외 동향(CDNC 입장) • TSconvInternet Draft 버전 01, 02, 03 제안됨 • CDNC는 현재 IDNA last call 진행 중 항의 선언문 전달 • 문제점과 요구사항, 개선사항 등에 대해서 현재 TWNIC/CNNIC이 함께 정리하고 있으며 TC/SC 1:1 매핑을 처리하는 가장 효율적인 방법은 HSE(Hash Self Encoding)라고 주장 • 2^n 개 등록 가능성 문제 해결 • CDN global한 resolution 목적 • 전체 중국글자의 30%가 이에 해당 (CDN의 폭 넓은 사용 도모) • CDN을 직접 사용해야 하는 당사자로서 중대한 사안임을 TWNIC, CNNIC이 매우 강력하게 강조 • Validation Check 테이블의 포괄성 강조

  15. 간체 & 번체자 해외 동향(CDNC 입장) • CDNC는 정체/간체자 변환 (TC/SC conversion)과 관련된 프로세스인 CHSE(Chinese Hash Self Encoding)와 유효성 검사(Validation Check) 등의 로직이 IDNA에 포함되어 IETF에서 표준화되길 바라고 JPNIC은 IDN WG의 표준화가 조속히 이루어지기를 바라는 입장임 • CDNC는 한자도메인이 globally resolution 될 수 있도록 CHSE를 거친 후의 TC/SC간의 매핑 결과 정보가 담긴 flag를 (Unicode, flag)의 형태로 IDNA 부분에 넘기고, Nameprep이 끝난 후 CDN에 대한 유효성 검사(Validation Check)를 하도록 제안 • 정체/간체자 변환 이슈가 8차 JET미팅 (2002.1)의 가장 핫 이슈였으며 IDNA로의 표준화 포함 여부와 관련하여 중국측과 일본측의 첨예한 대립으로 합의에 이르지 못하고 로컬 이슈로서 남겨짐

  16. 간체 & 번체자 해외 동향(IETF 입장) • 코드 이슈는 유니코드와 같은 코드 전문가가 다루는 것이며 IETF 에서는 그냥 그대로 쓰던지 안 쓰던지만 정할 수 있지 부분적인 수정, 채택은 안됨 • TC/SC 이슈는 l10n 이슈이고 IETF IDN WG 는 i18n 을 다루는 곳이므로 다루기에 적절하지 않음 • TC/SC 와 같이 language dependent / context dependent 한 이름 이슈는 IRNSS 와 같은 다른 WG / BoF 에서 다루어야 한다는 입장임

  17. 간체 & 번체자 해외 동향(JPNIC 입장) • 일본은 해당 flag가 단순한 case preservation의 의미일 뿐이며 4E00-9FAF, 3400-4DBF를 prohibition처리하는 방법은 일본, 한국, 베트남 등의 타국 한자코드 CJK 언어에 영향을 미치는데다 현 IDNA 프로토콜 표준에도 변화가 일어나야 하므로 CNNIC의 제안과는 강력한 반대의사를 표명 ※ IDNA 프로토콜의 변화내역 • Punycode : 대소문자 구분 필요 • IDNA 전 과정 중에 flag 보존 필요 • Validation module 추가

  18. 간체 & 번체자 해외 동향(KRNIC 입장) • 그동안의 입장은 중립적인 입장을 견지하려고 하였다. • 문제는 이제 어느쪽으로든 합의를 해야 하므로 더 이상 중립은 곤란하고 적절한 입장을 찾아야 한다. ※현재까지의 결론 : 한자의 정체자/간체자간 변환에 관한 각국의 조사와 서로의 영향에 대해 정확한 통계 자료가 필요하다는데 의견을 같이하였으며,제 9차 JET 미팅(2002.3)에서 한,중,일이 모여 IETF IDN WG에 제출할 합의문 작성할 예정임

  19. Action Item • 국내 전문가들의 참여 요망 - 한자 관련 표준원, 연구원 등 관련 기관이 개정작업을 건의 • 간번체 관련 기술적, 정책적 검토 및 국내 합의 도출 • JET 및 국제 표준 활동에 적극적인 대응 • 한자도메인 등록 및 서비스 방안 구축 • 기 타

  20. 감사합니다. KRNIC Korea Internet Network Information Center (한국인터넷정보센터)

More Related