Lid : Login |Registratie |Uploaden kennis
Zoeken
Unicode [Wijziging ]
Unicode is een computerstandaard voor de consistente codering, representatie en verwerking van tekst die wordt uitgedrukt in de meeste schrijfsystemen van de wereld. De nieuwste versie bevat een repertoire van 136.755 tekens voor 139 moderne en historische scripts, evenals meerdere symbolensets. De Unicode-norm wordt onderhouden in combinatie met ISO / IEC 10646 en beide zijn identiek voor code.De Unicode-standaard bestaat uit een set codegrafieken voor visuele referentie, een coderingsmethode en een reeks standaardkaraktercoderingen, een set referentiegegevensbestanden en een aantal verwante items, zoals leestekens, regels voor normalisatie, decompositie en collatie. , weergave en bidirectionele weergavevolgorde (voor de juiste weergave van tekst met zowel rechts-naar-links scripts, zoals Arabisch en Hebreeuws, en links-naar-rechts scripts). Vanaf juni 2017 is de meest recente versie Unicode 10.0. De standaard wordt onderhouden door het Unicode Consortium.Unicode's succes bij het verenigen van tekensets heeft geleid tot het wijdverbreide en meest gebruikte gebruik in de internationalisering en lokalisatie van computersoftware. De standaard is geïmplementeerd in veel recente technologieën, waaronder moderne besturingssystemen, XML, Java (en andere programmeertalen) en het, NET Framework.Unicode kan worden geïmplementeerd door verschillende karaktercoderingen. De Unicode-standaard definieert UTF-8, UTF-16 en UTF-32 en er zijn verschillende andere coderingen in gebruik. De meest gebruikte coderingen zijn UTF-8, UTF-16 en UCS-2, een voorloper van UTF-16.UTF-8, voornamelijk gebruikt door websites (meer dan 90%), gebruikt één byte voor de eerste 128 codepunten en maximaal 4 bytes voor andere tekens. De eerste 128 Unicode-codepunten zijn de ASCII-tekens; dus een ASCII-tekst is een UTF-8-tekst.UCS-2 gebruikt eenvoudigweg twee bytes (16 bits) voor elk teken, maar kan alleen de eerste 65.536 codepunten coderen, het zogenaamde Basic Multilingual Plane (BMP). Met 1.114.112 codepunten op 17 vlakken die mogelijk zijn, en met tot nu toe meer dan 120.000 codepunten gedefinieerd, zijn veel Unicode-tekens buiten het bereik van UCS-2. Daarom is UCS-2 verouderd, hoewel het nog steeds veel wordt gebruikt in software. UTF-16 breidt UCS-2 uit, door dezelfde 16-bits codering te gebruiken als UCS-2 voor het basis meertalige vlak en een 4-byte-codering voor de andere vlakken. Zolang het geen codepunten bevat in het gereserveerde bereik U 0D800-U 0DFFF, is een UCS-2-tekst een geldige UTF-16-tekst.UTF-32 (ook wel UCS-4 genoemd) gebruikt vier bytes voor elk teken. Net als UCS-2 wordt het aantal bytes per teken vastgelegd, wat het indexeren van tekens vergemakkelijkt; maar in tegenstelling tot UCS-2, kan UTF-32 alle Unicode-codepunten coderen. Omdat elk teken echter vier bytes gebruikt, neemt UTF-32 aanzienlijk meer ruimte in dan andere coderingen en wordt het niet veel gebruikt..
[Tekencodering][Universeel gecodeerde tekenset]
1.Oorsprong en ontwikkeling
1.1.Geschiedenis
1.2.Architectuur en terminologie
1.2.1.Codepuntvlakken en -blokken
1.2.2.Algemene categorie-eigenschap
1.2.3.Abstracte karakters
1.3.Unicode-consortium
1.4.versies
1.5.Scripts gedekt
2.Mapping en coderingen
2.1.Unicode-transformatieformaat en universeel gecodeerde tekenset
2.2.Kant-en-klare versus samengestelde karakters
2.3.ligaturen
2.4.Gestandaardiseerde subsets
3.Adoptie
3.1.Besturingssystemen
3.2.Invoermethoden
3.3.E-mail
3.4.Web
3.5.fonts
3.6.newlines
4.problemen
4.1.Filosofische en volledigheidskritieken
4.2.Mapping naar legacy-tekensets
4.3.Indicatiescripts
4.4.Tekens combineren
4.5.Afwijkingen
[Uploaden Meer Inhoud ]


Auteursrecht @2018 Lxjkh