Computerlinguistic Foundations for Asian Language Processing: Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Encoding Methode Dozent : Yeong Su Lee Referent : Myoung Ryun Kim Ludwig Maximilians Unversität Centrum für Informations- und Spracherarbeitung Computerlinguistik

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Kodierung : Unter (Zeichen)Kodierung versteht man das Darstellen eines Zeichens, also eines Buchstabens, einer Ziffer oder eines Symbols, mittels eines im Aufbau einfacheren oder für die betreffende Anwendung geeigneteren Codes. Häufig geschieht dies mittels Zahlenkodierung, um Zeichen für Computer verarbeitungsfähig zu machen. Begriff

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Drei Kategorien von Kodierungsmethoden Modal Non-Modal Fixed-Length Kategorien von Kodierung Methoden

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Modal Kodierungsmethode : fodert Escape Sequence oder irgendein spezell Charakter, um eine Verbindung zwischen Chrakter Sets herzustellen. Modal Kodierungsmethode benutzt typisch sieben-bit Bytes. Die Beispiele von Modal Kodierungsmethode sind ISO-2022, UTF-7 usw. Kategorien von Kodierung Methoden

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Non-modal Kodierungsmethode : benutzen die numerischen Werte von Bytes um die Verbindung zwischen ein- und zwei-Byte Module herzustellen. Diese Kodierungsmethode benutzen acht-bit Bytes. Die Beispiele sind Big Five, Big Five Plus, EUC, GBK, Jobab, Shift-JIS, UTF-8,UTF-16 usw. Kategorien von Kodierung Methoden

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Fixed-length Kodierungsmothode : benutzen die gleiche Nummer von Bytes um zu repräsentieren alle Charakters in Charakter Sets. Diese Kodierungsmethode vereinfacht text-intensive Operationen, wie Searching, Indexing und Sorting von Text. Die Beispiele von Fixed-length Kodierungsmethde sind ASCII, UCS-2 und UCS-4. Kategorien von Kodierung Methoden

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen ASCII / CJKV-Roman Kodierungen ASCII und CJKV-Roman (GB-Roman, CNS -Roman, JIS-Roman, KS-Roman und TCVN-Roman) werden unterschiedliches Charakter Set betrachtet, aber sie benutzen (oder teilen) die gleiche Encoding. Die ASCII / CJKV-Roman Encoding Methode spezifiziert dass, sieben-Bits benutzt wird und sie 128 einzigartige encoded Charakters erlaubt. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen ASCII / CJKV-Roman Kodierungen 94 Charakters beinhalten das ASCII / CJKV-Roman Charakter Set und sie sind in Bildschirm sichtbar. Übrige 34 Charakters sind nicht sichtbar, d.h. sie sind entweder Kontrollcharakter oder Space. Nur Japanisch erlaubt die Mischung von ASCII und halbbreite Katakana Charakter Sets. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen ASCII / CJKV-Roman Kodierungen Die erweiterte von ISO 8859 definierte ASCII Charakter Set Encoding verwendet Acht Bits. Mehr 256 mögliche Charakters sind benutzbar und sie werden als Grafik Charakter encodiert. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen ISO-2022 Encoding Die äußerst grundlegende Codierungsmethode für CJKV Text Es ist modale Kodierung, d.h. Escape-Sequences oder andere speziellcharakters benutzt, um verschiedene Modus zu verbinden (Switching Modes). Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen ISO-2022 Encoding Es bezieht sich auf entweder zwischen Ein- und Zwei-Byte Modus oder unter Charakter Sets. Die ISO-2022 Encoding ist eine generische Referenz von ISO-2022-CN, ISO-2022-CN-EXT, ISO-2022-JP, ISO-2022-KR und ähnliche Encodings. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen ISO-2022 Encoding ISO-2022 Codierung ist nicht ganz effizient für internen Speicher oder Processing in Computer Systeme. Es wird ursprünglich als ein Information Austausch Code für bewegenden Text zwischen Computer Systeme, wie E-mail. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC Encoding EUC (Extended Unix Code) Encoding ist eine 8-Bit-Zeichencodierung, die vor allem für Chinesisch, Japanisch und Koreanisch gebraucht wird. EUC ist eine Sammelbezeichnung für verschiedene Kodierungen, die je nach Land bis zu 4 unterschiedliche Zeichensätze kodieren können. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC Encoding Ursprünglich entwickelt von der Open Software Foundation (OSF), Unix International (UI) und den Unix System Laboratories Pacific (USLP) als Standardkodierung für UNIX-Systeme wenig verwendet ; da sie oft von weiter verbreiteten lokalen Kodierungen (Shift-JIS, Big5, etc.) und/oder Unicode abgelöst wurde. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC Encoding Alle EUC Kordierungen unterstützen bis zu 4 verschiedene Zeichensätze. Code Set 0 ist immer (7-Bit)-ASCII, Code Sets 1-3 sind je nach Unterart verschieden. 2 Spezialzeichen (Escape-Zeichen), die zum Umschalten auf Code Set 2 bzw. Code Set 3 verwendet werden: SS2 (0x9e) und SS3 (0x8f). Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC Encoding Es gibt mehrere reservierte Codepositionen in EUC, die die nicht druckbaren Zeichen zu kodieren verwendet werden können. Diese Code-Positionen und -Bereiche bestehen aus das Space-Zeichen, das Delete-Zeichen und zwei unabhängige Bereiche von Control-Zeichen. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC Encoding EUC Reserved Code Range and Positions Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC Encoding Für die Code Sets 1 bis 3 gibt es mehrere Möglichkeiten der Kodierung (je nach Untervariante von EUC unterschiedlich). Diese Repräsentation wird oft als EUC Packed Format bezeichnet und repräsentiert am häufigsten gebrauchte Instanz von EUC Kodierung. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC Encoding Es gibt zwei fixierte Länge von EUC Repräsentationen : 16- und 32-Bit. Die Bedeutung von diese fixierte Länge Repräsentagionen : alle Zeichen wird von gleiche Nummer von Bits oder Bytes repräsentiert Obwohl es mehrere Speicherplatz benötigt, macht es die interne Processing effizient. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC-CN Encoding : China EUC-CN wird in China verwendet und entspricht GB2312. Es kodiert die vereinfachten chinesischen Schriftzeichen. In EUC-CN Kordierung wird EUC Code Sets 2 und 3 nicht verwendet. EUC-CN Kodierung ist nahezu identisch mit EUC-KR. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC-CN Encoding : China Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC-TW Encoding : Taiwan EUC-TW nur sehr selten verwendet. Sehr viel verbreiteter ist dort Big5. (traditionellen chinesischen Schriftzeichen) die kompliziertste Instanz von EUC Kordierung. EUC Code Set 2 völlig überlastet, aber EUC Code Set 3 kaum verwendet. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC-JP Encoding : Japan Code Set 0 ist ASCII (genaugenommen JIS-Roman) und wird durch 1 Byte aus dem Bereich 0x21 bis 0x7e direkt kodiert. Code Set 1 ist JIS X 0208:1997 und wird durch 2 Zeichen kodiert Code Set 2 sind halbbreite Katakana die auch durch 2 Bytes kodiert werden . Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC-JP Encoding : Japan Das zweite Byte ist hierbei allerdings nur aus dem Bereich 0xa1 bis 0xdf, da es nur 56 Katakana (und eine Handvoll Sonderzeichen) gibt und diese dann der 1-Byte Kodierung aus JIS X 0201:1997 entsprechen (nur eben mit dem Escape-Zeichen 0x8e als Prefix). In Code Set 3 wird JIS X 0212:1990 in der 3 Byte Variante kodiert Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen EUC-KR Encoding : Korea Es ähnelt ISO-2022-KR (bzw. KS X 1001). EUC-KR Kodierung, (wie EUC-CN) verwendet keine Code Sets 2 und 3. Deswegen ist es kaum unmöglich, dass EUC-KR Kodierung sich von EUC-CN ohne irgendeine Sorte von Sprache oder lokale Attribute unterscheidet. Locale-Independent Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Alle 4 CJKV Regionen haben mindestens eine eigene lokal spezifische Kodierung Methode. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen GBK Encoding-GB 2312-80 Extension Die GBK (Guojia Biaozhun Kuozhan) Kodierung enthält sowohl die vereinfachten als auch die traditionellen Schriftzeichen. Sie wurde für den Gebrauch auf dem chinesischen Festland entworfen, wenn beide Schriftzeichenvarianten in einem einzigen Font benötigt werden. Mit dem Release von Unicode 2.1 im Jahre 1993 wurde ein Standard namens GB 13000.1 veröffentlicht, welcher alle Glyphen von Unicode 2.1 enthält. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen GBK Encoding-GB 2312-80 Extension Um alle zusätzlichen Hanzi Schriftzeichen, die in GB 13000.1 spezifiziert wurden, die aber nicht in GB 2312-1980 enthalten sind, unterzubringen, wurde eine neue Spezifikation namens GBK vorgestellt. GBK beinhaltet 21886 Schriftzeichen darunter 21003 Hanzi (das sind 101 mehr Zeichen als Unicode 2.1, welches aus 20902 Hanzi Glyphen besteht). Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Big Five Encoding Die Big5 Kodierung beinhaltet traditionelle chinesische Schriftzeichen und wurde für den Gebrauch in Taiwan und Hongkong entworfen. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Big Five Encoding Im Vergleich zu EUC-TW hat Big Five Kodierung einen zusätzlichen Kodierung Block. Big 5 enthält 13463 Glyphen, darunter 13053 Hanzi. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Big Five Plus Encoding-Another Big Five Extension Auf Grund von Unicode und CNS 11643-1992 hat das Big Five Charakter Set mit Einschluss zusätzliche Charakters (meistens Hanzi) expandiert. Ex erfordert eine Expansion von Kodierung Space. Diese neue expandierte Version von Big Five heißt Big Five Plus. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Shift-JIS (Abkürzung SJIS) ist eine Zeichencodierung für die japanische Schrift, entwickelt von Microsoft, basierend auf der ISO-2022-JP (JIS), aber mit verschobenen (shifted) Bytewerten, um 64 zusätzliche Katakana-Zeichen im Bereich von 0xA0 bis 0xDF unterzubringen. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Weil die Code Positionen für 2-Byte Charakters rund um die Code Positionen für halbbreite Katakana umgeschaltet (shifted) wird, nennt man Shift-JIS. Im Gegensatz zur üblichen JIS-Codierung braucht Shift-JIS ein 8-Bit-Medium für die Übertragung. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Das erste Byte befindet sich im oberen ASCII-Bereich und der dezimale Wertbereich ist 129-159 und 224-239. Der dezimale Wertbereich des zweiten Bytes ist 64-126 und 128-252. Shift-JIS kodiert auch halbbreite Katakana und ASCII/JIS-Roman. . Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Shift-JIS Encoding-JIS X 0208:1997 Shift-JIS kommt neben EUC vor allem in japanischen Webseiten vor, seltener ISO-2022-JP, während sonst Unicode (vor allem UTF-8) vorgezogen wird. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Johab Encoding-KS X 1001:1992 Johab Kodierung ist eine Zeichencodierung für die koreanische Schrift und beinhaltet alle mögliche moderne Hanguel-11172. Johab Kodierung ist grundlegend basiert auf drei 5-Bit Segments. 5-Bits wird um drei grundsätzlichen Positionen von Jamo zu präsentieren verwendet. Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen Johab Encoding-KS X 1001:1992 Es gibt 19 Initiale Jamo (Konsonanten), 21 Mittel Jamo (Vokale) und 28 Final Jamo (Konsonanten ; mit 'leer' Fall für zwei Jamo Hanguel). 5-Bits können leicht die Nummer von unique Jamo von einzelnen drei Positionen repräsentieren Locale-Specific Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UCS-4 und UCS-2 Encodings Die beiden Kodierungen werden von Charakter Set ISO 10646-1:1993 definiert. Die erste Methode ist die 32-Bit Form, betrachtet als UCS-4 (Universal Character Set ; beinhaltet 4 Bytes). Die zwiete ist die 16-Bit Form, betrachtet als UCS-2 (Universal Chracater Set ; beinhaltet 2 Bytes). International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UCS-4 und UCS-2 Encodings Für alle praktischen Belange ist dies dasselbe wie Unicode (bes. USC-2). Ein 16-Bit Repräsentation kann bis 65.536 einzelnen Code Points kodieren. Dagegen kann ein 32-Bit Repräsentation bis 4.294.967.296 einzelne Code Points kodieren. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UCS-4 und UCS-2 Encodings Die beiden Kodierungen benutzen die gleiche Nummer von Bytes um jeden Charakter zu repräsentieren. Alle Charakters haben die gleiche Kodierung Länge. D.h. werden sie als die Gleiche für die bestimmten Processing Operationen behandelt, wie Suche. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF Encodings UTF bezieht sich auf die Folge von entwickelten Kodierung Methoden für Unicode und ISO 10646-1:1993. UTF (Unicode Transformation Format) beschreibt Methoden, ein Unicode-Zeichen auf eine Folge von Bytes abzubilden. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF Encodings Für die Repräsentation der Unicode-Zeichen zum Zweck der elektronischen Datenverarbeitung gibt es verschiedene Transformationsformate (16- oder 32-Bit Repräsentationen). Auch lässt sich jedes dieser Formate verlustfrei in ein anderes UTF-Format konvertieren. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF Encodings Die verschiedenen Formate unterscheiden sich hinsichtlich deren Platzbedarf auf Speichermedien, dem Kodierungs- und Dekodierungsaufwand sowie in ihrer Kompatibilität zu anderen Kodierungsarten. Während beispielsweise einige Formate sehr effizienten Zugriff auf einzelne Zeichen innerhalb einer Zeichenfolge erlauben, gehen andere sparsam mit Speicherplatz um. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF Encodings Daher ist bei der Auswahl eines bestimmten Unicode-Transformationsformats das für das vorgesehene Anwendungsgebiet geeignetste zu bestimmen. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF-7 Encoding UTF-7 ist eine Kodierung des Unicode-Zeichensatzes. UTF-7 erlaubt die Verwendung von Unicode in nicht 8-bit-festen Umgebungen . International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF-7 Encoding Es existieren verschiedene Kodierungsverfahren, die beliebige 8-Bit-Binärdaten in 7-bit-ASCII-Text umwandeln. UTF-7 wurde entworfen, um diesen Kodierungsoverfarhren bei der Verwendung von Texten, die nur wenige Unicode-Zeichen enthalten, möglichst gering zu halten, und gleichzeitig Textpassagen, die in 7-bit-ASCII darstellbar sind, lesbar zu lassen. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF-7 Encoding Bei UTF-7 werden die Zeichen A-Za-z0-9'(),-./:? so übermittelt, wie sie sind. Die ASCII-Zeichen !"#$%&*;<=>@[]^_`{|} können direkt übertragen werden, sollten aber ebenfalls kodiert werden, da sie eventuell nicht durch alle e-Mail-Gateways korrekt übertragen werden. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF-7 Encoding Alle anderen Zeichen werden speziell kodiert. Hierfür wird eine Folge von zu kodierenden Zeichen als Strom von 2-Byte-Zeichen nach einem modifizierten Base64-Verfahren in einen Strom von ASCII-Zeichen umgewandelt. Der Start einer solchen kodierten Zeichensequenz wird durch ein Pluszeichen ("+") angezeigt, das Ende durch ein Minuszeichen ("-") oder durch das erste ASCII-Zeichen. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF-7 Encoding UTF-7 hat sich trotz seiner höheren Kodierungseffizienz jedoch nicht durchsetzen können, da andere Verfahren wie Quoted Printable und Base64 von nahezu jedem E-Mail- und News-Programm verstanden werden und der größere Kodierungsüberhang in der Praxis keine Rolle spielt. International Encoding Methods

Computerlinguistische Grundlagen für die Verarbeitung asiatischer Sprachen UTF-8 Encoding UTF-8 (Abk. für 8-bit Unicode Transformation Format) ist die populärste Kodierung für Unicode-Zeichen; dabei wird jedem Unicode-Zeichen eine speziell kodierte Bytekette von variabler Länge zugeordnet. UTF-8 unterstützt bis zu 4 Byte, auf die sich wie bei allen UTF-Formaten alle 1.114.112 Unicode-Zeichen abbilden lassen. International Encoding Methods

Computerlinguistic Foundations for Asian Language Processing: Encoding Methods

Computerlinguistic Foundations for Asian Language Processing: Encoding Methods

Presentation Transcript

Modulhandbuch Bachelor Rohstoffingenieurwesen

Afrikanische Sprachen (Ton als areales Merkmal südlich der Sahara)

Grundlagen und Entscheidungs-rechnungen

Germanische Sprachen und Kulturen -II

Afrikanische Sprachen (Ton als areales Merkmal südlich der Sahara)

Formale Sprachen und Automaten

Formale Sprachen Teil 2

Lehrerdienstrecht und Gehälter

Verwirrung in der Bio Verarbeitung who is who

Grundlagen der Computertechnik

Gerhard Weber Kunststoff-Verarbeitung GmbH

Start

8 Graphalgorithmen 8.1 Grundlagen

RDF Query Languages

Funknavigation Grundlagen Teil I Übersicht - Grundlagen

Grundbegriffe der Kontaktlinguistik

W.1 Grundlagen

Formale Sprachen

XML

Status-Seminar PT-NMB+F

Titel

Germanische Sprachen und Kulturen -I