015F LATIN SMALL LETTER S WITH CEDILLA *La dernière ligne indique que le même caractère (au sens de la normalisation : voir plus loin)
* Turkish, Azerbaijani, Romanian, ...
* this character is used in both Turkish and Romanian data
* a glyph variant with comma below is preferred for Romanian
x (latin small letter s with comma below - 0219)
: 0073 0327
0327 COMBINING CEDILLAqu'il ne faut pas confondre avec le caractère "cédille isolée"
* French, Turkish, Azerbaijani
x (cedilla - 00B8)
00B8 CEDILLA
* this is a spacing character
* other spacing accent characters: 02D8-02DB
x (combining cedilla - 0327)
# 0020 0327
| Et Dieu dit "fiat
lux" : יהי אור, et la lumière fut :
ויהי-אור (mieux que "et facta est lux" de la Vulgate !) |
| Et Dieu dit "fiat
lux" (יהי אור !)
et la lumière fut (ויהי-אור !) (mieux que "et facta est lux" de la Vulgate !) |
| יְהִי אוֹר;
וַיְהִי-אוֹר |
M' - comme Mark)0941;DEVANAGARI VOWEL SIGN U;Mn;0;NSM;;;;;N;;;;;,NSM = Non-Spacing Mark)094B;DEVANAGARI VOWEL SIGN O;Mc;0;L;;;;;N;;;;; i' bref 'ि ' U+093F : 093F;DEVANAGARI VOWEL SIGN I;Mc;0;L;;;;;N;;;;;str dans स्त्री strī = femme, épouse) .http://hapax.qc.ca/.
http://hapax.qc.ca/.UnicodeData.txt
définit toute une série de propriétés dont certaines sont directement
accessiblesjava.lang.Character
et java.lang.Character.UnicodeBlock.
UNICODE
REGULAR EXPRESSIONS dont la dernière révision
date du 2008-08-29.\p{nom_de_la_propriété}
avec \p minuscule
(et \P{nom_de_la_propriété}
avec \P majuscule
pour désigner la négation).Lu ou UppercaseLetter
désigne la classe des lettres majuscules,Ll ou LowercaseLetter
celle des lettres minuscules.\p{Lu}\p{Ll}+' va
donc décrire les noms dont l'initiale est majuscule et le reste
(non-vide) en minuscules,Lu
et Ll illustrées ci-dessus. UnicodeData.txt, \p{BidiClass:R} désignant les
caractères qui s'écrivent de droite à gauche,WhiteSpace
et leurs dérivés comme Alphabetic ou ASCII.Greek,
Latin, Han...In'.InHiragana
(bloc) est fonctionnellement identique à Hiragana
(script),Latin).java.lang.Character
:Character.NON_SPACING_MARK.
Character.getType(k).Character définit toute une
batterie de prédicats dérivés de ces catégories, du genre Character.isLetter(k),Character.isMirrored(k),
qui dit si le caractère désigné a ou non la propriété de "miroir
bidirectionnel"java.lang.Character.UnicodeBlock,
Character.UnicodeBlock.of(k).aa (ancien ā long).