一、关于不同字符的宏定义
typedef gunichar
UT_UCS4Char;
typedef guint16
UT_UCS2Char;
typedef UT_UCS4Char UT_UCSChar; /* Unicode
*/
typedef guint32 gunichar;
typedef guint16 gunichar2;
AbiWord is now fully converted to using 32-bit Unicode internally
在Abiword内部完全转换成32-bit Unicode 表示。
二、针对UT_UCS*Char 的常用函数,参考:af\util\xp\ut_string.cpp
UT_UCS4_strcmp 比较两个字符串
UT_UCS4_strlen 取字符串的长度
UT_UCS4_strcpy 复制字符串
UT_UCS4_strcpy_char 从char到UT_UCS4Char的复制
UT_UCS4_strcpy_to_char 从UT_UCS4Char到char的复制
对UT_UCS2Char有对应的操作
三、编码转换
AP_Win32App::s_fromWinLocaleToUTF8,将本地编码转换成UTF-8
AP_Win32App::s_fromUTF8ToWinLocale,将UTF-8转换成本地编码
AP_Win32App::s_fromUCS4ToWinLocale
AP_Win32App::s_fromWinLocaleToUCS4
四、Abiword对字符类型的封装
1、UT_String,UT_String, a simple wrapper for zero terminated ‘char‘ strings.对char类型的封装。
////////////////////////////////////////////////////////////////////////
//
8-bit string
// String is built of 8-bit units (bytes)
//
Encoding could be any single-byte or multi-byte
encoding
////////////////////////////////////////////////////////////////////////
2、UT_UTF8String,UT_UTF8String, a simple wrapper for zero terminated ‘UTF-8‘ strings.UTF-8编码的字符封装
////////////////////////////////////////////////////////////////////////
//
UTF-8 string: encoding is *always*
UTF-8
////////////////////////////////////////////////////////////////////////
3、UT_UCS4String,UT_UCS4String, a simple wrapper for zero terminated ‘UCS4‘ strings.USC4字符的封装
////////////////////////////////////////////////////////////////////////
//
UCS-4 string
// String is built of 32-bit units (longs)
//
NOTE: Ambiguity between UCS-2 and UTF-16 above makes no difference
//
NOTE: in the case of UCS-4 and UTF-32 since they really are
//
NOTE:
identical
////////////////////////////////////////////////////////////////////////
四、MSDN Generic-Text Mappings
MSDN中"Generic-Text Routine
Mappings."标题下有完整的宏列表。
原文:http://www.cnblogs.com/songtzu/p/3539777.html