d6/d45/unicodestring_8cpp_source.html

 // Unicode-Definition


 TUnicodeDef TUnicodeDef::UnicodeDef;


 TStr TUnicodeDef::GetDfFNm(){

   return TSysProc::GetExeFNm().GetFPath()+"UnicodeDef.Bin";

 }


 // Unicode-String

 TUStr::TUStr(const TStr& Str){

   AssertUnicodeDefOk();

   TUnicodeDef::GetDef()->DecodeUtf8(Str, UniChV);

   TIntV NfcUniChV; TUnicodeDef::GetDef()->Decompose(UniChV, NfcUniChV, true);

   UniChV=NfcUniChV;

 }


 void TUStr::ToLowerCase(){

   TUnicodeDef::GetDef()->ToSimpleLowerCase(UniChV);

 }


 void TUStr::ToUpperCase(){

   TUnicodeDef::GetDef()->ToSimpleUpperCase(UniChV);

 }


 void TUStr::ToStarterCase(){

   TIntV StarterUniChV;

   TUnicodeDef::GetDef()->ExtractStarters(UniChV, StarterUniChV);

   TUnicodeDef::GetDef()->Decompose(StarterUniChV, UniChV, true);

 }


 void TUStr::GetWordBoundPV(TBoolV& WordBoundPV){

   TUnicodeDef::GetDef()->FindWordBoundaries(UniChV, WordBoundPV);

 }


 void TUStr::GetWordUStrV(TUStrV& WordUStrV){

   // clear word vector

   WordUStrV.Clr();

   // create boundaries

   TBoolV WordBoundPV; GetWordBoundPV(WordBoundPV);

   IAssert(Len()==WordBoundPV.Len()-1);

   IAssert((WordBoundPV.Len()>0)&&(WordBoundPV.Last()));

   // traverse characters and bounds

   int UniChs=Len(); TIntV WordUniChV;

   for (int UniChN=0; UniChN<=UniChs; UniChN++){

     if ((UniChN==UniChs)||(WordBoundPV[UniChN+1])){ // finish or word-boundary

       if (UniChN<UniChs){ // if not finish

         // if last-word-char or single-alphabetic-char

         if ((!WordUniChV.Empty())||(IsAlphabetic(UniChV[UniChN]))){

           WordUniChV.Add(UniChV[UniChN]); // add char

         }

       }

       if (!WordUniChV.Empty()){ // add current word to vector

         TUStr WordUStr(WordUniChV); // construct word from char-vector

         WordUStrV.Add(WordUStr); // add word to word-vector

         WordUniChV.Clr(false); // clear char-vector

       }

     } else {

       // add character to char-vector

       WordUniChV.Add(UniChV[UniChN]);

     }

   }

 }


 TStr TUStr::GetStr() const {

   TStr Str=TUnicodeDef::GetDef()->EncodeUtf8Str(UniChV);

   return Str;

 }


 TStr TUStr::GetStarterStr() const {

   TIntV UniChV1; TIntV UniChV2;

   TUnicodeDef::GetDef()->ExtractStarters(UniChV, UniChV1);

   TUnicodeDef::GetDef()->Decompose(UniChV1, UniChV2, true);

   TStr Str=TUnicodeDef::GetDef()->EncodeUtf8Str(UniChV2);

   return Str;

 }


 TStr TUStr::GetStarterLowerCaseStr() const {

   TIntV UniChV1; TIntV UniChV2; TIntV UniChV3;

   TUnicodeDef::GetDef()->GetSimpleLowerCase(UniChV, UniChV1);

   TUnicodeDef::GetDef()->ExtractStarters(UniChV1, UniChV2);

   TUnicodeDef::GetDef()->Decompose(UniChV2, UniChV3, true);

   TStr Str=TUnicodeDef::GetDef()->EncodeUtf8Str(UniChV3);

   return Str;

 }


 int TUStr::GetScriptId(const TStr& ScriptNm){

   return TUnicodeDef::GetDef()->ucd.GetScriptByName(ScriptNm);

 }


 TStr TUStr::GetScriptNm(const int& ScriptId){

   return TUnicodeDef::GetDef()->ucd.GetScriptName(ScriptId);

 }


 int TUStr::GetChScriptId(const int& UniCh){

   return TUnicodeDef::GetDef()->ucd.GetScript(UniCh);

 }


 TStr TUStr::GetChScriptNm(const int& UniCh){

   return GetScriptNm(GetChScriptId(UniCh));

 }


 TStr TUStr::GetChNm(const int& UniCh){

   TStr UniChNm(TUnicodeDef::GetDef()->ucd.GetCharNameS(UniCh));

   return UniChNm;

 }


 TStr TUStr::GetChTypeStr(const int& UniCh){

   TChA ChTypeChA;

   ChTypeChA+='[';

   if (IsCase(UniCh)){ChTypeChA+="Case,";}

   if (IsUpperCase(UniCh)){ChTypeChA+="UpperCase,";}

   if (IsLowerCase(UniCh)){ChTypeChA+="LowerCase,";}

   if (IsAlphabetic(UniCh)){ChTypeChA+="Alphabetic,";}

   if (IsMath(UniCh)){ChTypeChA+="Math,";}

   if (ChTypeChA.LastCh()=='['){ChTypeChA+=']';}

   else {ChTypeChA[ChTypeChA.Len()-1]=']';}

   return ChTypeChA;

 }


 bool TUStr::IsCase(const int& UniCh){

   TUniChInfo ChInfo;

   if (TUnicodeDef::GetDef()->ucd.IsGetChInfo(UniCh, ChInfo)){

     return ChInfo.IsCased();}

   else {return false;}

 }


 bool TUStr::IsUpperCase(const int& UniCh){

   TUniChInfo ChInfo;

   if (TUnicodeDef::GetDef()->ucd.IsGetChInfo(UniCh, ChInfo)){

     return ChInfo.IsUppercase();}

   else {return false;}

 }


 bool TUStr::IsLowerCase(const int& UniCh){

   TUniChInfo ChInfo;

   if (TUnicodeDef::GetDef()->ucd.IsGetChInfo(UniCh, ChInfo)){

     return ChInfo.IsLowercase();}

   else {return false;}

 }


 bool TUStr::IsAlphabetic(const int& UniCh){

   TUniChInfo ChInfo;

   if (TUnicodeDef::GetDef()->ucd.IsGetChInfo(UniCh, ChInfo)){

     return ChInfo.IsAlphabetic();}

   else {return false;}

 }


 bool TUStr::IsMath(const int& UniCh){

   TUniChInfo ChInfo;

   if (TUnicodeDef::GetDef()->ucd.IsGetChInfo(UniCh, ChInfo)){

     return ChInfo.IsMath();}

   else {return false;}

 }


 TStr TUStr::EncodeUtf8(const int& UniCh) {

   AssertUnicodeDefOk();

   return TUnicodeDef::GetDef()->EncodeUtf8Str(TIntV::GetV(UniCh));

 }


IAssert
#define IAssert(Cond)
Definition: bd.h:262

TUStr::IsAlphabetic
static bool IsAlphabetic(const int &UniCh)
Definition: unicodestring.cpp:143

TUnicode::ToSimpleUpperCase
void ToSimpleUpperCase(TIntV &src) const
Definition: unicode.h:1977

TUStr::ToStarterCase
void ToStarterCase()
Definition: unicodestring.cpp:27

TUStr
Definition: unicodestring.h:32

TUniChDb::GetScriptByName
int GetScriptByName(const TStr &scriptName) const
Definition: unicode.h:1322

TUnicode::EncodeUtf8Str
TStr EncodeUtf8Str(const TIntV &src) const
Definition: unicode.h:1796

TUnicodeDef::UnicodeDef
static TUnicodeDef UnicodeDef
Definition: unicodestring.h:5

TStr::GetFPath
TStr GetFPath() const
Definition: dt.cpp:1389

TUStr::GetChNm
static TStr GetChNm(const int &UniCh)
Definition: unicodestring.cpp:104

TVec::Len
TSizeTy Len() const
Returns the number of elements in the vector.
Definition: ds.h:547

TUniChInfo::IsAlphabetic
bool IsAlphabetic() const
Definition: unicode.h:1071

TUStr::ToUpperCase
void ToUpperCase()
Definition: unicodestring.cpp:23

TUniChDb::GetScriptName
const TStr & GetScriptName(const int scriptId) const
Definition: unicode.h:1321

TChA::Len
int Len() const
Definition: dt.h:259

TUniChDb::GetScript
int GetScript(const TUniChInfo &ci) const
Definition: unicode.h:1323

TUnicode::ucd
TUniChDb ucd
Definition: unicode.h:1775

TUnicodeDef::GetDef
static TUnicode * GetDef()
Definition: unicodestring.h:23

TUnicode::ToSimpleLowerCase
void ToSimpleLowerCase(TIntV &src) const
Definition: unicode.h:1978

TUnicode::GetSimpleLowerCase
void GetSimpleLowerCase(const TIntV &src, TIntV &dest) const
Definition: unicode.h:1972

TUStr::GetStarterLowerCaseStr
TStr GetStarterLowerCaseStr() const
Definition: unicodestring.cpp:79

TUStr::GetChScriptNm
static TStr GetChScriptNm(const int &UniCh)
Definition: unicodestring.cpp:100

TUnicodeDef::GetDfFNm
static TStr GetDfFNm()
Definition: unicodestring.cpp:6

TUniChInfo::IsUppercase
bool IsUppercase() const
Definition: unicode.h:1072

TUStr::GetChTypeStr
static TStr GetChTypeStr(const int &UniCh)
Definition: unicodestring.cpp:109

TVec::Empty
bool Empty() const
Tests whether the vector is empty.
Definition: ds.h:542

TUnicode::FindWordBoundaries
void FindWordBoundaries(const TIntV &src, TBoolV &dest) const
Definition: unicode.h:1907

TUniChInfo::IsLowercase
bool IsLowercase() const
Definition: unicode.h:1073

TUStr::IsLowerCase
static bool IsLowerCase(const int &UniCh)
Definition: unicodestring.cpp:136

TUnicode::GetCharNameS
TStr GetCharNameS(const int cp) const
Definition: unicode.h:2025

TVec::Clr
void Clr(const bool &DoDel=true, const TSizeTy &NoDelLim=-1)
Clears the contents of the vector.
Definition: ds.h:971

TUStr::TUStr
TUStr()
Definition: unicodestring.h:38

TUStr::IsMath
static bool IsMath(const int &UniCh)
Definition: unicodestring.cpp:150

TChA::LastCh
char LastCh() const
Definition: dt.h:281

TUnicode::ExtractStarters
int ExtractStarters(const TIntV &src, TIntV &dest) const
Definition: unicode.h:1951

TUStr::GetChScriptId
static int GetChScriptId(const int &UniCh)
Definition: unicodestring.cpp:96

TVec::Last
const TVal & Last() const
Returns a reference to the last element of the vector.
Definition: ds.h:551

TUStr::IsUpperCase
static bool IsUpperCase(const int &UniCh)
Definition: unicodestring.cpp:129

TUStr::GetScriptId
static int GetScriptId(const TStr &ScriptNm)
Definition: unicodestring.cpp:88

TUStr::GetWordUStrV
void GetWordUStrV(TUStrV &UStrV)
Definition: unicodestring.cpp:37

TUStr::GetWordBoundPV
void GetWordBoundPV(TBoolV &WordBoundPV)
Definition: unicodestring.cpp:33

TUnicode::DecodeUtf8
int DecodeUtf8(const TIntV &src, TIntV &dest) const
Definition: unicode.h:1787

TChA
Definition: dt.h:201

TUnicodeDef
Definition: unicodestring.h:3

TUniChInfo
Definition: unicode.h:985

TStr
Definition: dt.h:412

TUStr::UniChV
TIntV UniChV
Definition: unicodestring.h:34

TUStr::GetScriptNm
static TStr GetScriptNm(const int &ScriptId)
Definition: unicodestring.cpp:92

TUniChInfo::IsCased
bool IsCased() const
Definition: unicode.h:1142

TUnicode::Decompose
void Decompose(const TIntV &src, TIntV &dest, bool compatibility) const
Definition: unicode.h:1934

TUStr::ToLowerCase
void ToLowerCase()
Definition: unicodestring.cpp:19

TVec< TInt >::GetV
static TVec< TInt, TSizeTy > GetV(const TInt &Val1)
Returns a vector on element Val1.
Definition: ds.h:817

TUStr::GetStarterStr
TStr GetStarterStr() const
Definition: unicodestring.cpp:71

TUStr::EncodeUtf8
static TStr EncodeUtf8(const int &UniCh)
Definition: unicodestring.cpp:157

TUStr::AssertUnicodeDefOk
static void AssertUnicodeDefOk()
Definition: unicodestring.h:35

TUniChInfo::IsMath
bool IsMath() const
Definition: unicode.h:1074

TVec::Add
TSizeTy Add()
Adds a new element at the end of the vector, after its current last element.
Definition: ds.h:574

TUStr::Len
int Len() const
Definition: unicodestring.h:57

TVec< TInt >

TUStr::GetStr
TStr GetStr() const
Definition: unicodestring.cpp:66

TUStr::IsCase
static bool IsCase(const int &UniCh)
Definition: unicodestring.cpp:122