015F LATIN SMALL LETTER S WITH CEDILLA *La dernière ligne indique que le même caractère (au sens de la normalisation : voir plus loin)
* Turkish, Azerbaijani, Romanian, ...
* this character is used in both Turkish and Romanian data
* a glyph variant with comma below is preferred for Romanian
x (latin small letter s with comma below - 0219)
: 0073 0327
0327 COMBINING CEDILLAqu'il ne faut pas confondre avec le caractère "cédille isolée"
* French, Turkish, Azerbaijani
x (cedilla - 00B8)
00B8 CEDILLA
* this is a spacing character
* other spacing accent characters: 02D8-02DB
x (combining cedilla - 0327)
# 0020 0327
| Et Dieu dit "fiat
lux" : יהי אור, et la lumière fut :
ויהי-אור (mieux que "et facta est lux" de la Vulgate !) |
| Et Dieu dit "fiat
lux" (יהי אור !) et la lumière fut
(ויהי-אור !) (mieux que "et facta est lux" de la Vulgate !) |
| יְהִי אוֹר;
וַיְהִי-אוֹר |
M' - comme Mark)0941;DEVANAGARI VOWEL
SIGN U;Mn;0;NSM;;;;;N;;;;;,NSM
= Non-Spacing Mark)094B;DEVANAGARI
VOWEL SIGN O;Mc;0;L;;;;;N;;;;; i'
bref 'ि ' U+093F : 093F;DEVANAGARI
VOWEL SIGN I;Mc;0;L;;;;;N;;;;;str dans
स्त्री strī = femme,
épouse) .http://hapax.qc.ca/.
http://hapax.qc.ca/.UnicodeData.txt
définit toute une série de propriétés dont certaines sont directement
accessiblesjava.lang.Character
et java.lang.Character.UnicodeBlock. UNICODE
REGULAR EXPRESSIONS dont la dernière révision
date du 19 novembre 2013.\p{nom_de_la_propriété}
avec \p minuscule
(et \P{nom_de_la_propriété}
avec \P majuscule
pour désigner la négation).Lu ou UppercaseLetter
désigne la classe des lettres majuscules,Ll ou LowercaseLetter
celle des lettres minuscules.\p{Lu}\p{Ll}+' va
donc décrire les noms dont l'initiale est majuscule et le reste
(non-vide) en minuscules,Lu
et Ll illustrées ci-dessus. UnicodeData.txt, \p{BidiClass:R} désignant les
caractères qui s'écrivent de droite à gauche BidiClass
est destinée à piloter l'algorithme d'affichage bidirectionnel, et elle
peut prendre des valeurs auxquelles le programmeur naïf ne pense pas -
notamment, l'arabe est traité à part, avec la valeur "AL",
ce qui se comprend quand on pense à la complexité de son affichage - de
sorte qu'une meilleure approximation est fournie par l'expression \p{BidiClass:R}|\p{BidiClass:AL} ]WhiteSpace
et leurs dérivés comme Alphabetic ou ASCII.Greek, Latin, Han...In'.InHiragana
(bloc) est fonctionnellement identique à Hiragana
(script),Latin).java.lang.Character
:Character.NON_SPACING_MARK.
Character.getType(k).Character définit toute une
batterie de prédicats dérivés de ces catégories, du genre Character.isLetter(k),Character.isMirrored(k),
qui dit si le caractère désigné a ou non la propriété de "miroir
bidirectionnel"java.lang.Character.UnicodeBlock, Character.UnicodeBlock.of(k).UnicodeData.txt)Mn ou Mc. Mn
(non-spacing) se placent au-dessus ou au-dessous de
la lettre principale,NSM (Non-Spacing
Mark) dans le 5ème champ.Mc sont logés le
plus souvent après, mais parfois avant ou même autour de p,octets UTF-8
= n°s Unicode = caractères composants = caractère
composé)
65CC81 = U+0065 U+0301
= e
+´ = é0065;LATIN SMALL LETTER
E;Ll;0;L;;;;;N;;;0045;;00450301;COMBINING ACUTE
ACCENT;Mn;230;NSM;;;;;N;NON-SPACING ACUTE;;;; 73CCA7 = U+0073
U+0327 = s
+¸
= ş 0073;LATIN SMALL LETTER
S;Ll;0;L;;;;;N;;;0053;;0053
0327;COMBINING CEDILLA;Mn;202;NSM;;;;;N;NON-SPACING
CEDILLA;;;;
E0A495E0A581 = U+0915
U+0941 = क
+ ु = कु
ku0915;DEVANAGARI LETTER
KA;Lo;0;L;;;;;N;;;;;
0941;DEVANAGARI VOWEL SIGN U;Mn;0;NSM;;;;;N;;;;;E0A495E0A58B = U+0915
U+094B = क
+ ो = को koid.
094B;DEVANAGARI VOWEL SIGN O;Mc;0;L;;;;;N;;;;;E0A495E0A4BF = U+0915
U+093F = क + ि
= कि kiid.
093F;DEVANAGARI VOWEL SIGN I;Mc;0;L;;;;;N;;;;;E0AE95E0AF8A = U+0B95
U+0BCA = க
+ ொ = கொ
ko 0B95;TAMIL LETTER
KA;Lo;0;L;;;;;N;;;;;
0BCA;TAMIL VOWEL SIGN O;Mc;0;L;0BC6 0BBE;;;;N;;;;;U+00E9 et U+015F
respectivement),U+0300 – U+036F] Alan Wood explique :UnicodeData.txt sont rigoureusement les mêmese
et son accent aigu !été" avec son outil de recherche.WITH OXIA" (grec ancien) et "WITH TONOS" (grec moderne), U+0301 !OXIA et TONOS, puisqu'il n'y a qu'un seul accent aigu. OXIA spécifique au grec ancien, de même que U+0342 COMBINING GREEK PERISPOMENI U+0302 COMBINING CIRCUMFLEX ACCENT). été").Unicode::Normalize.http://www.tlg.uci.edu/~opoudjis/unicode/unicode_adscript.htmlaa (ancien ā
long).