015F LATIN SMALL LETTER S WITH CEDILLA *La dernière ligne indique que le même caractère (au sens de la normalisation : voir plus loin)
* Turkish, Azerbaijani, Romanian, ...
* this character is used in both Turkish and Romanian data
* a glyph variant with comma below is preferred for Romanian
x (latin small letter s with comma below - 0219)
: 0073 0327
0327 COMBINING CEDILLAqu'il ne faut pas confondre avec le caractère "cédille isolée"
* French, Turkish, Azerbaijani
x (cedilla - 00B8)
00B8 CEDILLA
* this is a spacing character
* other spacing accent characters: 02D8-02DB
x (combining cedilla - 0327)
# 0020 0327
Et Dieu dit "fiat
lux" : יהי אור, et la lumière fut :
ויהי-אור (mieux que "et facta est lux" de la Vulgate !) |
Et Dieu dit "fiat
lux" (יהי אור !) et la lumière fut
(ויהי-אור !) (mieux que "et facta est lux" de la Vulgate !) |
יְהִי אוֹר;
וַיְהִי-אוֹר |
M
' - comme Mark)0941;DEVANAGARI VOWEL
SIGN U;Mn;0;NSM;;;;;N;;;;;
,
NSM
= Non-Spacing Mark)094B;DEVANAGARI
VOWEL SIGN O;Mc;0;L;;;;;N;;;;;
i
'
bref 'ि ' U+093F
: 093F;DEVANAGARI
VOWEL SIGN I;Mc;0;L;;;;;N;;;;;
str
dans
स्त्री strī
= femme,
épouse) .http://hapax.qc.ca/
.http://hapax.qc.ca/
.UnicodeData.txt
définit toute une série de propriétés dont certaines sont directement
accessiblesjava.lang.Character
et java.lang.Character.UnicodeBlock
. UNICODE
REGULAR EXPRESSIONS
dont la dernière révision
date du 19 novembre 2013.\p{nom_de_la_propriété}
avec \p
minuscule
(et \P{nom_de_la_propriété}
avec \P
majuscule
pour désigner la négation).Lu
ou UppercaseLetter
désigne la classe des lettres majuscules,Ll
ou LowercaseLetter
celle des lettres minuscules.\p{Lu}\p{Ll}+
' va
donc décrire les noms dont l'initiale est majuscule et le reste
(non-vide) en minuscules,Lu
et Ll
illustrées ci-dessus. UnicodeData.txt
, \p{BidiClass:R}
désignant les
caractères qui s'écrivent de droite à gauche BidiClass
est destinée à piloter l'algorithme d'affichage bidirectionnel, et elle
peut prendre des valeurs auxquelles le programmeur naïf ne pense pas -
notamment, l'arabe est traité à part, avec la valeur "AL
",
ce qui se comprend quand on pense à la complexité de son affichage - de
sorte qu'une meilleure approximation est fournie par l'expression \p{BidiClass:R}|
\p{BidiClass:AL}
]WhiteSpace
et leurs dérivés comme Alphabetic
ou ASCII
.Greek
, Latin
, Han
...In
'.InHiragana
(bloc) est fonctionnellement identique à Hiragana
(script),Latin
).java.lang.Character
:Character.NON_SPACING_MARK
.
Character.getType(k)
.Character
définit toute une
batterie de prédicats dérivés de ces catégories, du genre Character.isLetter(k)
,Character.isMirrored(k)
,
qui dit si le caractère désigné a ou non la propriété de "miroir
bidirectionnel"java.lang.Character.UnicodeBlock
, Character
.UnicodeBlock.of
(k)
.UnicodeData.txt
)Mn
ou Mc
. Mn
(non-spacing) se placent au-dessus ou au-dessous de
la lettre principale,NSM
(Non-Spacing
Mark) dans le 5ème champ.Mc
sont logés le
plus souvent après, mais parfois avant ou même autour de p,octets UTF-8
= n°s Unicode
= caractères composants
= caractère
composé
)
65CC81
= U+0065
U+0301
= e
+´
= é
0065;LATIN SMALL LETTER
E;Ll;0;L;;;;;N;;;0045;;0045
0301;COMBINING ACUTE
ACCENT;Mn;230;NSM;;;;;N;NON-SPACING ACUTE;;;;
73CCA7
= U+0073
U+0327
= s
+¸
= ş
0073;LATIN SMALL LETTER
S;Ll;0;L;;;;;N;;;0053;;0053
0327;COMBINING CEDILLA;Mn;202;NSM;;;;;N;NON-SPACING
CEDILLA;;;;
E0A495E0A581
= U+0915
U+0941
= क
+ ु = कु
ku0915;DEVANAGARI LETTER
KA;Lo;0;L;;;;;N;;;;;
0941;DEVANAGARI VOWEL SIGN U;Mn;0;NSM;;;;;N;;;;;
E0A495E0A58B
= U+0915
U+094B
= क
+ ो = को koid.
094B;DEVANAGARI VOWEL SIGN O;Mc;0;L;;;;;N;;;;;
E0A495E0A4BF
= U+0915
U+093F
= क + ि
= कि kiid.
093F;DEVANAGARI VOWEL SIGN I;Mc;0;L;;;;;N;;;;;
E0AE95E0AF8A
= U+0B95
U+0BCA
= க
+ ொ = கொ
ko 0B95;TAMIL LETTER
KA;Lo;0;L;;;;;N;;;;;
0BCA;TAMIL VOWEL SIGN O;Mc;0;L;0BC6 0BBE;;;;N;;;;;
U+00E9
et U+015F
respectivement),U+0300 – U+036F
] Alan Wood explique :UnicodeData.txt
sont rigoureusement les mêmese
et son accent aigu !été
" avec son outil de recherche.WITH OXIA
" (grec ancien) et "WITH TONOS
" (grec moderne), U+0301
!OXIA
et TONOS
, puisqu'il n'y a qu'un seul accent aigu. OXIA
spécifique au grec ancien, de même que U+0342 COMBINING GREEK PERISPOMENI
U+0302 COMBINING CIRCUMFLEX ACCENT
). été
").Unicode::Normalize
.http://www.tlg.uci.edu/~opoudjis/unicode/unicode_adscript.html
aa
(ancien ā
long).