当前位置:首页 » 编程语言 » 汉字转unicodec语言
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

汉字转unicodec语言

发布时间: 2022-02-11 17:04:15

‘壹’ 100财富给牛逼之人!就没人知道在linux下用c语言如何将汉字的unicode编码转化为汉字吗

试试这个四个函数,C 里面的,Linux 可用:
mbtowc
wctomb
mbstowcs
wcstombs
在 Linux 下试试看吧:
#include <stdio.h>
#include <stdlib.h>
#include <locale.h>
int main(void)
{
size_t cch;
char psz[1024];
wchar_t pwsz[] = { 0x52B3, 0x788C, 0x788C, 0 };
setlocale(LC_ALL, "");
cch = wcstombs(psz, pwsz, 1024);
if (cch != 0 && cch != -1) {
printf("%s", psz);
}
return 0;
}
zdl_361 说的 "utf8 劳碌碌" 不对,因为我也输出 "劳碌碌",而我是用 Unicode 编码的。在 Windows 上,char 是 ANSI,Unicode (wchar_t) 是 UTF-16;在 Linux 上,char 是 UTF-8,Unicode (wchar_t) 是 UTF-32。不过对于这个函数来说,在哪个平台上都不会因为字符编码而影响使用。

‘贰’ 如何将一个汉字用C语言将其转换成Unicode编码最好直接编成UTF-8,是不是vc里面有函数可以直接编求程序

对,有。

#define_CONVERSION_USES_THREAD_LOCALE

#include<atlbase.h>
#include<atlconv.h>
#include<stdio.h>
#include<string.h>

intmain()
{
USES_CONVERSION;
_acp=CP_ACP;
charbuf[3]={0};
buf[0]=getchar();
buf[1]=getchar();
wchar_ttmpbuf[2]={0};
tmpbuf[0]=A2W(buf)[0];
_acp=CP_UTF8;
charutf8buf[4];
strcpy(utf8buf,W2A(tmpbuf));

inti=0;
while(utf8buf[i]!=0)
{
printf("%02x",(unsignedchar)utf8buf[i]);
++i;
}
return0;
}

如果不是VC6.0而是新的VC的话是新的写法。

你可以输入一个日进去看看

‘叁’ 各位大侠: 在linux下如何用C实现汉字转unicode码。比如:“中国”转成“5E5D 66EF”,在线等~~

/* Copyright (C) 2010 by Xingyou Chen <[email protected]>
*
* Test OS is Debian squeese AMD64 , source file stored in UTF-8
* If another encoding is used, this program may fail
*/
#include <stdio.h> /* printf() from here */

int main()
{
int i = 0; /* for loop */
char orig[6] = "中国"; /* demo text, Chinese char is 3 byte long */
unsigned short dest[2]; /* two 2-byte variable */
for(i = 0; i < 2; i++)
{ /* Don't understand? See UTF-8 and Unicode encoding */
dest[i] = (orig[3*i] & 0x1F) << 12;
dest[i] |= (orig[3*i + 1] & 0x3F) << 6;
dest[i] |= (orig[3*i + 2] & 0x3F);
printf("%x", dest[i]);
}
printf("\n");
return 0;
}
====================================================
“中国”: UTF-8 e4b8ad e59bbd Unicode 4e2d 56fd
你给出的那个编码该是不正确的。这里只做了UTF-8到UCS-2的转换,
中文编码不少,没功夫全写出来(也写不全),UTF-8是我平时用的。

在开源环境中,这个根本不是问题,可以参考zh-autoconvert的源代码:
http://ftp.de.debian.org/debian/pool/main/z/zh-autoconvert/zh-autoconvert_0.3.16.orig.tar.gz
它提供了多种中文编码间相互转换的C语言代码,找你需要的吧。

‘肆’ 怎样用C语言实现汉字和ASCII码到UNICODE码的转换

用MultiByteToWideChar和WideCharToMultiByte可以做到编码的转换。

  1. MultiByteToWideChar是一个windows API 函数,该函数映射一个字符串到一个宽字符(unicode)的字符串。

    函数原型:
    int MultiByteToWideChar(
    UINT CodePage,
    DWORD dwFlags,
    LPCSTR lpMultiByteStr,
    int cchMultiByte,
    LPWSTR lpWideCharStr,
    int cchWideChar
    );

    参数:
    CodePage:指定执行转换的字符集,这个参数可以为系统已安装或有效的任何字符集所给定的值。你也可以指定其为下面的任意一值:
    CP_ACP:ANSI字符集;CP_MACCP:Macintosh代码页;CP_OEMCP:OEM代码页;
    CP_SYMBOL:符号字符集(42);CP_THREAD_ACP:当前线程ANSI代码页;
    CP_UTF7:使用UTF-7转换;CP_UTF8:使用UTF-8转换。
    dwFlags:一组位标记用以指出是否未转换成预作或宽字符(若组合形式存在),是否使用象形文字替代控制字符,以及如何处理无效字符。你可以指定下面是标记常量的组合,含义如下:
    MB_PRECOMPOSED:通常使用预作字符——就是说,由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与
    MB_COMPOSITE值一起使用。
    MB_COMPOSITE:通常使用组合字符——就是说,由一个基本字符和一个非空字符组成的字符分别有不同的字符值。不能与MB_PRECOMPOSED值一起使用。
    MB_ERR_INVALID_CHARS:如果函数遇到无效的输入字符,它将运行失败,且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。
    MB_USEGLYPHCHARS:使用象形文字替代控制字符。
    组合字符由一个基础字符和一个非空字符构成,每一个都有不同的字符值。每个预作字符都有单一的字符值给基础/非空字符的组成。在字符è中,e就是基础字符,而重音符标记就是非空字符。
    函数的缺省动作是转换成预作的形式。如果预作的形式不存在,函数将尝试转换成组合形式。
    标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的,而标记MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。
    lpMultiByteStr:指向将被转换字符串的字符。
    cchMultiByte:指定由参数lpMultiByteStr指向的字符串中字节的个数。如果lpMultiByteStr指定的字符串以空字符终止,可以设置为-1(如果字符串不是以空字符中止,设置为-1可能失败,可能成功),此参数设置为0函数将失败。
    lpWideCharStr:指向接收被转换字符串的缓冲区。
    cchWideChar:指定由参数lpWideCharStr指向的缓冲区的宽字符个数。若此值为零,函数返回缓冲区所必需的宽字符数,在这种情况下,lpWideCharStr中的缓冲区不被使用。

    返回值:
    如果函数运行成功,并且cchWideChar不为零,返回值是由lpWideCharStr指向的缓冲区中写入的宽字符数;如果函数运行成功,并且cchWideChar为零,返回值是接收到待转换字符串的缓冲区所需求的宽字符数大小。如果函数运行失败,返回值为零。若想获得更多错误信息,请调用GetLastError函数。它可以返回下面所列错误代码:
    ERROR_INSUFFICIENT_BUFFER;ERROR_INVALID_FLAGS;
    ERROR_INVALID_PARAMETER;ERROR_NO_UNICODE_TRANSLATION。

  2. WideCharToMultiByte,该函数映射一个unicode字符串到一个多字节字符串。
    函数原型:
    int WideCharToMultiByte(
    UINT CodePage, //指定执行转换的代码页
    DWORD dwFlags, //允许你进行额外的控制,它会影响使用了读音符号(比如重音)的字符
    LPCWSTR lpWideCharStr, //指定要转换为宽字节字符串的缓冲区
    int cchWideChar, //指定由参数lpWideCharStr指向的缓冲区的字符个数
    LPSTR lpMultiByteStr, //指向接收被转换字符串的缓冲区
    int cchMultiByte, //指定由参数lpMultiByteStr指向的缓冲区最大值
    LPCSTR lpDefaultChar, //遇到一个不能转换的宽字符,函数便会使用pDefaultChar参数指向的字符
    LPBOOL pfUsedDefaultChar //至少有一个字符不能转换为其多字节形式,函数就会把这个变量设为TRUE
    );
    参数:
    CodePage:指定执行转换的代码页,这个参数可以为系统已安装或有效的任何代码页所给定的值。你也可以指定其为下面的任意一值:
    CP_ACP:ANSI代码页;CP_MACCP:Macintosh代码页;CP_OEMCP:OEM代码页;
    CP_SYMBOL:符号代码页(42);CP_THREAD_ACP:当前线程ANSI代码页;
    CP_UTF7:使用UTF-7转换;CP_UTF8:使用UTF-8转换
    返回值:
    如果函数运行成功,并且cchMultiByte不为零,返回值是由 lpMultiByteStr指向的缓冲区中写入的字节数;如果函数运行成功,并且cchMultiByte为零,返回值是接收到待转换字符串的缓冲区所必需的字节数。如果函数运行失败,返回值为零。若想获得更多错误信息,请调用GetLastError函数。它可以返回下面所列错误代码:
    ERROR_INSUFFICIENT_BJFFER;ERROR_INVALID_FLAGS;
    ERROR_INVALID_PARAMETER;ERROR_NO_UNICODE_TRANSLATION。
    注意:指针lpMultiByteStr和lpWideCharStr必须不一样。如果一样,函数将失败,GetLastError将返回ERROR_INVALID_PARAMETER的值。
    Windows CE:不支持参数CodePage中的CP_UTF7和CP_UTF8的值,以及参数dwFlags中的WC_NO_BEST_FIT_CHARS值。

‘伍’ C语言怎么把汉字转换为对应的unicode码...

网上有汉字内码表的,你可以去看一下,

‘陆’ c语言怎么把UTF-8转换成Unicode

下面程序给出的是UTF-8转成Unicode(UCS-2)的函数:

#include <stdio.h>

#include <stdlib.h>

#include <memory.h>

#include <string.h>

int utf8_to_unicode(char* pInput, char** ppOutput)

{

int outputSize = 0; //记录转换后的Unicode字符串的字节数

*ppOutput = (char *)malloc(strlen(pInput) * 2); //为输出字符串分配足够大的内存空

memset(*ppOutput, 0, strlen(pInput) * 2);

char *tmp = *ppOutput; //临时变量,用于遍历输出字符串

while (*pInput)

{

if (*pInput > 0x00 && *pInput <= 0x7F) //处理单字节UTF8字符(英文字母、数字)

{

*tmp = *pInput;

tmp++;

*tmp = 0; //小端法表示,在高地址填补0

}

else if (((*pInput) & 0xE0) == 0xC0) //处理双字节UTF8字符

{

char high = *pInput;

pInput++;

char low = *pInput;

if ((low & 0xC0) != 0x80) //检查是否为合法的UTF8字符表示

{

return -1; //如果不是则报错

}

*tmp = (high << 6) + (low & 0x3F);

tmp++;

*tmp = (high >> 2) & 0x07;

}

else if (((*pInput) & 0xF0) == 0xE0)//处理三字节UTF8字符

{

char high = *pInput;

pInput++;

char middle = *pInput;

pInput++;

char low = *pInput;

if (((middle & 0xC0) != 0x80) || ((low & 0xC0) != 0x80))

{

return -1;

}

*tmp = (middle << 6) + (low & 0x7F);

tmp++;

*tmp = (high << 4) + ((middle >> 2) & 0x0F);

}

else //对于其他字节数的UTF8字符不进行处理

{

return -1;

}

pInput ++;

tmp ++;

outputSize += 2;

}

*tmp = 0;

tmp++;

*tmp = 0;

return outputSize;

}

(6)汉字转unicodec语言扩展阅读

UTF-8:互联网的普及, 强烈要求出现一种统一的编码方式。 UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8的编码规则:

UTF-8的编码规则很简单,只有两条:

1、对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2、对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

‘柒’ 请问如何用C语言实现汉字,和Unicode编码的转换

字转换:wctomb、mbtowc,wc 指 Wide charactor,mb 指 Multi-byte。
字符串转换:wcstombs、mbstowcs,wcs 和 mbs 的 s 指 string。

这 4 个函数是 C 标准函数库函数中的。如果只是在 Windows 平台下编程,可直接调用 Windows API 函数 WideCharToMultiByte 和 MultiByteToWideChar 实现。但是如果调用标准库函数的话,在 Linux 下也是有效的。调用标准库函数,首先必须包含 locale.h 并调用 setlocale(LC_ALL, "") 后才能正确转换。Windows 下的 Multi-byte 是 ANSI 编码的,Wide charactor 是 Unicode (UTF-16) 编码,而 Linux 下的 Multi-byte 是 UTF-8 编码的,Wide charactor 是 Unicode (UTF-32) 编码。

#include <stdio.h>
#include <stdlib.h>
#include <locale.h>

int main(void)
{
char str[12];
wchar_t wstr[] = { 0x52B3, 0x788C, 0 };
setlocale(LC_ALL, "");
wcstombs(str, wstr, sizeof(str)/sizeof(char));
printf("%s", str);
return 0;
}

‘捌’ C语言中如何输出unicode编码

  1. Unicode编码
    在计算机科学领域中,Unicode(统一码、万国码、单一码、标准万国码)是业界的一种标准,它可以使电脑得以呈现世界上数十种文字的系统。Unicode是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版,ISBN-10: 0321480910)对外发表。Unicode包含了超过十万个字符(在2005年,Unicode的第十万个字符被采纳且认可成为标准之一)、一组可用以作为视觉参考的代码图表、一套编码方法与一组标准字符编码、一套包含了上标字、下标字等字符特性的列举等。
    Unicode的编码方式与ISO 10646的通用字符集(Universal Character Set,UCS)概念相对应,目前实际应用的Unicode版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用2个字节。这样理论上一共最多可以表示216即65536个字符。基本满足各种语言的使用。实际上目前版本的Unicode尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。

  2. C++处理Unicode编码
    为了处理Unicode编码C++为每个字符处理函数提供了宽字符(wchar_t)处理函数。

    在ANSI/ISO 9899--1990也就是美国国家为程序设计语言C指定的标准(也称为ANSI C)中是这样定义的:用多个字节来代表的字符称之为宽字符,而Unicode只是宽字符编码的一种实现,宽字符并不一定是Unicode。

  3. C语言中输出unicode编码可以是用宽字符输出函数。

    下面是宽字符常用的输入输出函数表:
    打印和扫描字符串:
    宽字符函数 描述
    fprintf()/fwprintf() 使用vararg参量的格式化输出
    fscanf()/fwscanf() 格式化读入
    printf() 使用vararg参量的格式化输出到标准输出
    scanf() 从标准输入的格式化读入
    sprintf()/swprintf() 根据vararg参量表格式化成字符串
    sscanf() 以字符串作格式化读入
    vfprintf()/vfwprintf() 使用stdarg参量表格式化输出到文件
    vprintf() 使用stdarg参量表格式化输出到标准输出
    vsprintf()/vswprintf() 格式化stdarg参量表并写到字符串

    输入和输出:
    宽字符函数 普通C函数 描述
    fgetwc() fgetc() 从流中读入一个字符并转换为宽字符
    fgetws() fgets() 从流中读入一个字符串并转换为宽字符串
    fputwc() fputc() 把宽字符转换为多字节字符并且输出到标准输出
    fputws() fputs() 把宽字符串转换为多字节字符并且输出到标准输出串
    getwc() getc() 从标准输入中读取字符, 并且转换为宽字符
    getwchar() getchar() 从标准输入中读取字符, 并且转换为宽字符
    None gets() 使用fgetws()
    putwc() putc() 把宽字符转换成多字节字符并且写到标准输出
    putwchar() putchar() 把宽字符转换成多字节字符并且写到标准输出
    None puts() 使用fputws()
    ungetwc() ungetc() 把一个宽字符放回到输入流中

‘玖’ 用C语言怎么样把Unicode编码转换成(汉字)assic码

c里没有。找os的。windows 有相应的API。
WideCharToMultiByte和MultiByteToWideChar吧,大概是这两个。具体怎么用到网上搜吧。