Zum Forum
Passwort vergessen?
Noch keinen Account?
lexikon
Hauptseite
Zufälliger Artikel
Diskussion
Diskussion : Unicode
Links
Forum
Portale
Reisen
Versicherung
Inhaltsverzeichnis
Hauptmenü
Home
Editorial
Bildung
E-Learning
Fremdsprachen
Magazin
Wissen
Wörterbücher
Enzyklopädien
Expertendienste
Wissenswertes
Praktische Ratgeber
--------------------------
Biologie
Chemie
Computer
Film/ Theater
Geografie
Geschichte
Jura
Kunst
Literatur
Mathematik
Medizin
Musik
Philosophie
Physik/ Astronomie
Politik
Psychologie
Religionen
Sport
Umwelt
Wirtschaft
Reisen
Lexikon
Versicherung
Suchen
Schnellsuche
Suchmaschinen
Metasuchmaschinen
Webkataloge
News
Treffpunkt
Chat
Forum
Suche
Schnellsuche
Sitemap
Kontakt
Impressum
Unicode
Stichpunkte
Allgemein
Unicode ist ein internationaler Standard
in dem langfristig für jedes sinntragende Zeichen bzw
Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird
Er will das Problem der verschiedenen inkompatiblen Kodierungen in den unterschiedlichen Ländern beseitigen
Herkömmliche Computer-Zeichensysteme umfassen einen Zeichenvorrat von 128 (7 Bit) wie der sehr bekannte ASCII bzw
wie z
256 (8 Bit) Zeichen
BI
SO Latin-1
wovon nach Abzug der Steuerzeichen 96 bzw1
92–224 als Schrift- und Sonderzeichen darstellbar sindD
iese Zeichenkodierungen erlauben die gleichzeitige Darstellung von nur wenigen Sprachen im selben Text
wenn man sich nicht damit behilft
in einem Text verschiedene Schriften mit unterschiedlichen Zeichensätzen zu verwendenD
ies behinderte den internationalen Datenaustausch erheblichI
n Unicode finden sämtliche Zeichen bestehender Zeichensätze nach Industriestandards
und nationalen sowie ISO-Normen eine 1 : 1 EntsprechungH
sogenannten Codepages
eute erledigen die meisten Webbrowser die Darstellung dieser Zeichensätze mit einer Unicode-kodierten Schrift in der Regel perfekt und vom Benutzer unbemerktU
Speicherung und Übertragung 2 Normierungsinstitutionen 1 Kodierungskriterien 1.1 Beispiel: Combining Grapheme Joiner (CGJ) 2 Eingabemethoden 3 Schriftarten 4 Versionen von Unicode 5 Weblinks 6 Literatur [Bearbeiten]
niversal Character Set (UCS) ist die von ISO verwendete praktisch bedeutungsgleiche Bezeichnung des Unicode-Zeichensatzes. Inhaltsverzeichnis showTocToggle("Anzeigen"
"Verbergen") 1 Codes
Codes, Speicherung und Übertragung
Die Codes von Unicode-Zeichen werden hexadezimal mit vorangestelltem U+ dargestellt
Hierbei kann x als Platzhalter verwendet werden
wenn zusammenhängende Bereiche gemeint sind
wie U+01Fx für den Codeberich U+01F0 - U+01FF Der Coderaum von Unicode umfasste ursprünglich 65.536 Zeichen (16 Bit)
Bald aber stellte sich dies als unzureichend heraus
sogenannte Planes
erweitert
Seit der Version 2 ist der Codebereich um weitere 16 gleichgroße Bereiche
siehe Liste der Unicode-Blöcke
Somit sind nun maximal 1.114.112 (= 220+216) Zeichen bzw. „Codepoints“ im Codebereich von U+00000 bis U+10FFFF in Unicode vorgesehen
Bislang
in Unicode 4.0
sind 96.382 Codes individuellen Zeichen zugeordnet
Das entspricht in etwa erst 9% des Coderaumes
sind in der Liste der Unicode-Blöcke vollständig aufgeführt
Die Codebereiche (Blöcke)
in welche die Unicode-Planes untergliedert werden
z
Neben den gültig kodierten Zeichen ist auch sehr langfristig
T. noch recht vage Geplantes aufgeführt
Links verweisen dort auf die offiziellen Codetabellen oder auf die weitere Planung betreffende Dokumente
wobei UTF-8 das gebräuchlichste ist
die auf dem proprietären EBCDIC-Format von IBM-Großrechnern aufbaut. Punycode dient dazu
siehe Weblinks. UTF-EBCDIC ist eine Unicode-Erweiterung
Die Speicherung und Übertragung von Unicode erfolgt in unterschiedlichen Formaten: Unicode Transformation Format (UTF)
Domainnamen mit nicht-ASCII Zeichen zu kodieren
z.B. im Internet und in fast allen Betriebsystemen. SCSU (Standard Compression Scheme for Unicode) ist eine wenig effektive und -gebräuchliche Methode zur platzsparenden Speicherung
Siehe auch: IDNA [Bearbeiten]
Normierungsinstitutionen
Das gemeinnützige Unicode Consortium zeichnet für den Industriestandard Unicode verantwortlich. Von der ISO (International Organization for Standardization) wird die internationale Norm ISO 10646 herausgegeben.Beide Institutionen arbeiten eng zusammen
Seit 1993 sind Unicode und ISO 10646 bezüglich der Zeichenkodierung identisch
das u
Während ISO 10646 lediglich die eigentliche Zeichenkodierung festlegt
gehört zum Unicode ein umfassendes Regelwerk
A. für alle Zeichen weitere zur konkreten Anwendung wichtige Eigenschaften eindeutig festlegt wie Sortierreihenfolge
Schreibrichtung und Regeln für das Kombinieren von Zeichen
Im Moment ist Unicode strenggenommen noch eine Untermenge von ISO 10646: Während ISO 10646 Zeichencodes mit bis zu 31 Bit zulässt
sind bei Unicode maximal 21 Bit erlaubt
In nächster Zeit aber dürfte der ISO-Codebereich auf den von Unicode reduziert werden. [Bearbeiten]
Kodierungskriterien
um die Langlebigkeit digitaler Daten zu gewährleisten
Gegenüber anderen Normen gibt es bei Unicode die Besonderheit
dass einmal kodierte Zeichen niemals wieder entfernt werden
wird allenfalls von seiner Verwendung abgeraten
Sollte sich die Normierung eines Zeichens nachträglich als Fehler erweisen
die sich über Jahre hinziehen kann
Daher bedarf die Aufnahme eines Zeichens in den Standard einer äußerst sorgfältigen Prüfung
nicht Glyphen
Im Unicode werden „abstrakte Zeichen“ (engl.: characters) kodiert
beim lateinischen Alphabet beispielsweise in Fraktur
Antiqua
Letzteres ist die graphische Darstellung abstrakter Zeichen
die extrem unterschiedlich ausfallen kann
siehe auch Glyphe
im Irischen und in Handschriften
Für Glyphenvarianten
sind vorsorglich 256 „Variation Selectors“ vorgesehen
die sowohl das lateinische als auch das griechische Alphabet enthalten
die ggf. dem eigentlichen Code nachgestellt werden können. Andererseits haben Schriften
deren Normierung als sinnvoll und notwendig nachgewiesen wird
doppelt kodierte identische Glyphen für die folgenden mehrdeutigen Buchstaben: Α Î’ Ε Ζ Η Ι Κ Μ Î? Ο Ρ Τ Î¥ Χ
nicht aber einer Unicode-Kodierung bedarf. Allerdings wird in Grenzfällen hart um die Entscheidung gerungen
Von vielen Zeichen gibt es nicht nur durch die Schriftart bedingte Varianten sondern auch innerhalb einer Schriftart mehr oder minder notwendige sprach- schrift- oder kontextabhängige Glyphenvarianten und Ligaturen
zu deren Darstellung es sogenannter Smartfonttechniken wie OpenType
d.h. unterschiedliche (Grapheme) handelt
ob es sich um Glyphenvarianten oder kodierungswürdige Zeichen
da der gesamte Zeichenvorrat des Phönizischen dort eindeutige Entsprechungen hat
und auch die beiden Sprachen sehr eng verwandt sind
das phönizische Alphabet könne man als Glyphenvarianten des hebräischen betrachten
Beispielsweise sind nicht wenige Fachleute der Meinung
hat sich letztlich durchgesetzt
es handele sich um ein separates Zeichensystem
Die Auffassung
in der Unicode-Terminologie „script“
Anders verhält es sich bei CJK: Chinesisch
Japanisch (Kanji) und Koreanisch (Hanja)
Hier haben sich im Laufe der Jahrhunderte die Formen vieler gleichbedeutender Schriftzeichen auseinanderentwickelt
Dennoch teilen sich die sprachspezifischen Glyphen die selben Codes im Unicode
und die zeichnen sich schon durch außergewöhnliche Dateigrößen aus
In der Praxis werden hier wohl überwiegend sprachspezifische Schriftarten verwendet
Die einheitliche Kodierung der CJK-Schriftzeichen (Han Unification) war eine der wichtigsten und umfangreichsten Vorarbeiten für die Entwicklung von Unicode
Besonders in Japan ist sie durchaus umstritten
Zu Einzelheiten (engl.) siehe Weblinks
siehe Geschichte des Unicode
musste berücksichtigt werden
dass bereits eine Vielzahl unterschiedlicher Kodierungen millionenfach verwendet wurde
Als der Grundstein für Unicode gelegt wurde
Unicode-basierte Systeme sollten herkömmlich kodierte Daten mit geringem Aufwand handhaben können
Hierzu wurde für die unteren 256 Zeichen die weit verbreitete ISO 8859-1-Kodierung (Latin1) beibehalten ebenso wie die Kodierungsarten verschiedener nationaler Normen
z
BT
die in der ursprünglichen Reihenfolge lediglich in höhere Codebereiche verschoben wurdenJ
IS 620 für Thailändisch (fast identisch mit ISO 8859-11) oder ISCII für indische Schriften
edes Zeichen maßgeblicher überkommender Kodierungen wurde in den Standard übernommen
auch wenn es den normalerweise angelegten Maßstäben nicht gerecht wirdH
ierbei handelt es sich zu einem großen Teil um Zeichen
die aus zwei oder mehr Zeichen zusammengesetzt sind
wie Buchstaben mit diakritischen ZeichenI
Zeichen mit Diakritika ordentlich zusammenzusetzenD
m übrigen verfügt auch heute noch ein großer Teil der Software nicht über die Möglichkeit
ie exakte Festlegung von äquivalenten Kodierungen ist Teil des zum Unicode gehörenden umfangreichen RegelwerksO
bgleich die hexadezimalen Ziffern A - F formal die Kriterien für eine gesonderte Kodierung erfüllen
weil in der Praxis deren Funktion stets von den Buchstaben A - F übernommen wird. Vielen Unicode-Zeichen ist keine Glyphe zugeordnetA
musste dies unterbleiben
uch sie gelten als „characters“N
sogar solche ohne Breite
eben den Steuerzeichen wie Zeilenvorschub (U+000A)
die ohne Wortzwischenraum geschrieben werdenF
die u.a. als Worttrenner gebraucht werden für Sprachen wie Thai oder Tibetisch
Tabulator (U+0009) usw. sind allein 19 Zeichen explizit als Leerzeichen definiert
z.BA
ür bidirektionalen Text
rabisch - Lateinisch sind sieben Formatierungszeichen notwendig. [Bearbeiten]
Beispiel: Combining Grapheme Joiner (CGJ)
das normalerweise von den Anwendungsprogramen völlig ignoriert wird (engl.: default ignorable)
Der CGJ ist ein unsichtbares Sonderzeichen
Er soll audrücklich nicht zur Kennzeichnung von Glyphenvarianten o. Ä. verwendet werden
Sein Gebrauch ist wie folgt definiert: In manchen Sprachen gibt es Digraphen und Trigraphen
d.h. insbesondere sortiert werden
die grundsätzlich als eigenständige Buchstaben behandelt
dz
gy
ty und zs
ly
ny
sz
dzs
Im Ungarischen beispielsweise betrifft das: cs
wurde der „Combining Grapheme Joiner“ CGJ (U+034F) eingeführt
Ausnahmen hiervon bei Bedarf zu kennzeichnen
Der Name bedeutet eigentlich das Gegenteil
auch die Namen kodierter Zeichen werden niemals geändert
auch das gehört zum Standard
aber
Trägt ein Buchstabe mehrere Diakritika drüber oder drunter
werden diese normalerweise vertikal gestapelt
Für Ausnahmefälle
in denen zwei Diakritika nebeneinander stehen müssen
sieht Unicode vor
dass ein CGJ dazwischengestellt wird
auf die dann mittels einer Schrifttechnik wie OpenType zugegriffen werden kann
Es obliegt dem Schriftentwickler
die Erscheinungform der Zeichenfolgen „Diakritikon1 CGJ Diakritikon2“ festzulegen
Die im Standard festgelegte Eigenschaft „default ignorable“ qualifiziert den CGJ
in Sonderfällen auch andere sonst unnötige feine Unterschiede zu markieren
So kann die Datenverarbeitung deutscher Bibliotheken die Unterscheidung von Umlaut und Trema (meist für fremdsprachige Namen) erfordern
um es als Umlaut zu kennzeichnen
dem Trema (U+0308) den CGJ voranzustellen
Hier empfiehlt Unicode
Die ursprünglich von DIN vorgeschlagene nachträgliche gesonderte Kodierung der Umlaut-Punkte hätte zu einer kaum vertretbaren Inkonsistenz großer Datenmengen geführt. [Bearbeiten]
Eingabemethoden
Will man ein Unicode-Zeichen (zum Beispiel „⊕“) in HTML oder XML verwenden
sucht man es zunächst aus der entsprechenden Tabelle (hier: Mathematische Symbole)
Dort ist seine Zeichennummer hexadezimal angegeben
Mit dieser Zeichennummer erstellt man dann eine Zeichenentität durch Voranstellen von „&#x“ und Anfügen eines Semikolons
eben „⊕“
Die Zeichennummer kann in der Zeichenentität auch dezimal
zum Beispiel „⊕“ für das gleiche Zeichen
angegeben werden
dann ohne führendes „x“
Unicode in XML-Dateien in leichter verständlicher Form einzugeben
Die Text Encoding Initiative TEI hat Empfehlungen erarbeitet
der in das Stylesheet integriert wird
Hier handelt es sich um einen Satz benannter Zeichen (engl.: named entites)
Allgemein übliche benannte Zeichen sind z.B. die Umlaute wie „Ä“ statt „Ä" für Ä
erkannte Datei) eingeben
0
zum Beispiel UTF-8
also zum Beispiel Strg+V
U und dann die hexadezimale Zeichennummer drückt
Im Vi Improved kann man Unicode-Zeichen (Voraussetzung: Unicode-basierte Locale oder als Unicode
C für das Euro-Zeichen
A
U
indem man Strg+V
2
also 8364 für das Zeichen €
indem man ALT-c insert-ucs-character und dann die dezimale Zeichennummer eingibt
Im Emacs kann man Unicode-Zeichen eingeben
Unter Windows (ab Windows 2000) kann in vielen Programmen der Code hexadezimal eingegeben werden
Mit nachfolgendem Alt-x wird das Zeichen erzeugt
den Code des vor dem Cursor stehenden Zeichens anzuzeigen
Diese Tastenkombination kann unter Windows XP auch benutzt werden
Ob das entsprechende Unicode-Zeichen auch tatsächlich am Bildschirm erscheint
hängt davon ab
ob die verwendete Schriftart eine Glyphe für das gewünschte Zeichen (also eine Grafik für die gewünschte Zeichennummer) enthält
z.B unter Windows wird
Oftmals
falls die verwendete Schrift ein Zeichen nicht enthält
nach Möglichkeit ein Zeichen aus einer anderen Schrift eingefügt
In der Typographie gilt so etwas als Fehler namens Zwiebelfisch
In Webbrowsern hingegen ist dies überaus nützlich. [Bearbeiten]
Schriftarten
Mittlerweile hat der Zeichensatz von Unicode/ISO einen Umfang angenommen
der sich praktisch nicht mehr vollständig in einer Schriftart unterbringen lässt
TrueType- und OpenType-Schriften kann man maximal 65.536 Zeichen unterbringen
In Postscript-CFF-
dass die enthaltene Zeichenauswahl normgerecht kodiert ist
So versteht es sich von selbst
dass Unicode/ISO-Konformität einer Schrift nicht bedeutet
dass der komplette Zeichensatz enthalten sein muss
sondern lediglich
Normalerweise wird eine dem Verwendungszweck oder Verbreitungsgebiet angemessene Auswahl getroffen
Die derzeit umfangreichste Schrift – in zwei Dateien aufgeteilt – ist Code 2000/Code 2001 (http://home.att.net/~jameskass/) von James Kass
umfangreiche und spezialisierte Unicode-Schriften bietet Allan Wood (http://www.alanwood.net/unicode/fonts.html). [Bearbeiten]
Eine Übersicht über viele kostenlose und kommerzielle
Versionen von Unicode
unabhängig von Unicode) 1991 Unicode 1.0 1992 Unicode 1.0.1 (Modifikationen um eine Zusammenführung mit ISO 10646 zu ermöglichen) 1993 Unicode 1.1 (Unicode und ISO-Norm erstmals vereinigt: Codes identisch zu ISO 10646-1: 1993) 1996 Unicode 2.0 (Abgleich mit ISO 10646 Erweiterungen) 1998 Unicode 2.1 (unter anderem Einführung des Eurozeichens) 2000 Unicode 3.0 (Abgleich mit ISO 10646-1: 2000) 2001 Unicode 3.1 (Abgleich mit ISO 10646-2: 2001) 2002 Unicode 3.2 2003 Unicode 4.0 (Abgleich mit ISO 10646: 2003) 2004 Unicode 4.0.1 2005 Unicode 4.1 März 2005 [Bearbeiten]
Derzeit erscheinen neue Versionen ungefähr im Abstand von 1 1/2 Jahren
unabhängig von Unicode) 1990 DIS-1 10646 (Erster Entwurf für ISO 10646
wobei in der letzten Zeit pro Jahr etwa 1000 Zeichen neu aufgenommen werden. 1989 DP 10646 (Vorschlag für den Entwurf von ISO 10646
Weblinks
Unicode Consortium (http://www.unicode.org) (englisch) u.A
eine weitere kostenlose sehr umfangreiche Schrift von Victor Gaultney
zu dem auch die Codetabellen (http://www.unicode.org/charts/) gehören (engl.). UTS #6: Compression Scheme for Unicode (http://www.unicode.org/reports/tr6/) Das Unicode-System - Beschreibung im HTML-Kompendium SELFHTML (http://de.selfhtml.org/inter/unicode.htm) Alan Woods Unicode-Materialsammlung (http://www.alanwood.net/unicode/index.html) The Letter Database (http://www.eki.ee/letter/) Junius-Unicode
umfangreicher Font (1434 Zeichen) für Windows
Japanisch und Koreanisch: englischer Wikipediaartikel „Han Unification“ (http://en.wikipedia.org/wiki/Han_unification) Han Unification in Unicode (http://tclab.kaist.ac.kr/~otfried/Mule/unihan.html) by Otfried Cheong Why Unicode Won't Work on the Internet: Linguistic
A Mail-Safe Transformation Format of Unicode) Ist nicht mehr in Gebrauch. RFC 3629 (UTF-8
Political
a transformation format of ISO 10646) RFC 3492 - Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA) Definition von UTF-EBCDIC (http://www.unicode.org/reports/tr16/) Zur gemeinsamen Kodierung von Chinesisch
kyrillischer und phonetischer (IPA) Unicode-Zeichen (http://vonRauch.de/kbd/) [Bearbeiten]
and Technical Limitations (http://www.hastingsresearch.com/net/04-unicode-limitations.shtml) Why Unicode Will Work On The Internet (http://slashdot.org/features/01/06/06/0132203.shtml) Per-character summary of differences in characters (http://www.debian.or.jp/~kubota/unicode-unihan.html) Konverter: Unicode Characters to HTML Entities Converter -- http://pioneer.stereo.lu/converter.html -- konvertiert Unicode-Zeichen in dezimale und hexadizmale HTML-Entitäten (von Shaun Moss
ein SIL-Projekt (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=Gentium_download/) Standards: RFC 2152 (UTF-7
Mac und Linux (http://www.engl.virginia.edu/OE/junicode/junicode.html) (englisch) Gentium
Linkliste zu allen Kapiteln des offiziellen Unicode-Buchs (PDFs) (http://www.unicode.org/versions/Unicode4.0.1/)
adaptiert von „ASCII to HEX to Unicode Converter“ von Mike Golding) Konverter für Unicode-Zeichen in dezimale HTML/XML-Zeichenreferenzen; auch Download zur lokalen Verwendung (http://vonRauch.de/compslav/unic2xml.html) Tools: Win2k/XP-Tastaturlayouts auf der Grundlage der deutschen Standardtastatur zur direkten Eingabe lateinischer
Literatur
Julie Allen (Hrsgr.)
Joe Becker (Hrsgr.): The Unicode Standard Version 4.0
Joan Aliprand (Hrsgr.)
ISBN 0321185781 bs:Unikod cs:Unicode da:Unicode en:Unicode eo:Unikodo es:Unicode fi:Unicode fr:Unicode he:×™×•× ×™×§×•×“ hi:यूनिकोड hu:Unicode ia:Unicode it:Unicode ja:Unicode kn:ಯà³?ನಿಕೋಡà³? ks:YunikÅ?á¸?a ku:Unicode minnan:Thong-iÅ?ng-bé nl:Unicode no:Unicode pl:Unicode pt:Unicode ro:Unicode ru:Юникод sk:Unicode sr:Уникод sv:Unicode ta:யà¯?னிகோடà¯? th:ยูนิโคด vi:Unicode zh:Unicode
Addison Wesley 2003
[X] Schliessen
Dieser Artikel basiert auf dem Artikel
Unicode
aus der freien Enzyklopädie
wikipedia
und steht unter der
GNU Lizenz für freie Dokumentation
. In der wikipedia ist eine
Liste der Autoren
verfügbar.
Unfallchirurgie
Ufoglaube
Ute Vogt
Unterwasserarchäologie
Umweltschutzorganisation
Uniform Ressource Locator
Unternehmen
Unkündbarkeit
United Nations Educational, Scientific and Cultural Organization
[ Zurück ]
Inhalt Lexikon:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
1
2
3
4
5
6
7
8
9
Chat
|
Lexikon
|
Reisen
|
Versicherung
|
Forum
|
Kontakt