015F LATIN SMALL LETTER S WITH CEDILLA *La dernière ligne indique que le même caractère (au sens de la normalisation : voir plus loin)
* Turkish, Azerbaijani, Romanian, ...
* this character is used in both Turkish and Romanian data
* a glyph variant with comma below is preferred for Romanian
x (latin small letter s with comma below - 0219)
: 0073 0327
0327 COMBINING CEDILLAqu'il ne faut pas confondre avec le caractère "cédille isolée"
* French, Turkish, Azerbaijani
x (cedilla - 00B8)
00B8 CEDILLA
* this is a spacing character
* other spacing accent characters: 02D8-02DB
x (combining cedilla - 0327)
# 0020 0327
Et Dieu dit "fiat
lux" : יהי אור, et la lumière fut :
ויהי-אור (mieux que "et facta est lux" de la Vulgate !) |
Et Dieu dit "fiat
lux" (יהי אור !)
et la lumière fut (ויהי-אור !) (mieux que "et facta est lux" de la Vulgate !) |
יְהִי אוֹר;
וַיְהִי-אוֹר |
M
' - comme Mark)0941;DEVANAGARI VOWEL SIGN U;Mn;0;NSM;;;;;N;;;;;
,
NSM
= Non-Spacing Mark)094B;DEVANAGARI VOWEL SIGN O;Mc;0;L;;;;;N;;;;;
i
' bref 'ि ' U+093F
: 093F;DEVANAGARI VOWEL SIGN I;Mc;0;L;;;;;N;;;;;
str
dans स्त्री strī
= femme, épouse) .http://hapax.qc.ca/
.http://hapax.qc.ca/
.UnicodeData.txt
définit toute une série de propriétés dont certaines sont directement
accessiblesjava.lang.Character
et java.lang.Character.UnicodeBlock
.
UNICODE
REGULAR EXPRESSIONS
dont la dernière révision
date du 2008-08-29.\p{nom_de_la_propriété}
avec \p
minuscule
(et \P{nom_de_la_propriété}
avec \P
majuscule
pour désigner la négation).Lu
ou UppercaseLetter
désigne la classe des lettres majuscules,Ll
ou LowercaseLetter
celle des lettres minuscules.\p{Lu}\p{Ll}+
' va
donc décrire les noms dont l'initiale est majuscule et le reste
(non-vide) en minuscules,Lu
et Ll
illustrées ci-dessus. UnicodeData.txt
, \p{BidiClass:R}
désignant les
caractères qui s'écrivent de droite à gauche,WhiteSpace
et leurs dérivés comme Alphabetic
ou ASCII
.Greek
,
Latin
, Han
...In
'.InHiragana
(bloc) est fonctionnellement identique à Hiragana
(script),Latin
).java.lang.Character
:Character.NON_SPACING_MARK
.
Character.getType(k)
.Character
définit toute une
batterie de prédicats dérivés de ces catégories, du genre Character.isLetter(k)
,Character.isMirrored(k)
,
qui dit si le caractère désigné a ou non la propriété de "miroir
bidirectionnel"java.lang.Character.UnicodeBlock
,
Character
.UnicodeBlock.of
(k)
.aa
(ancien ā long).