当前位置:首页 » 编程语言 » c语言转utf8函数
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

c语言转utf8函数

发布时间: 2022-02-09 12:58:10

c语言如何生成UTF-8编码格式的文件

下面的Unix下函数可以会帮到你

getenv(取得环境变量内容)
相关函数 putenv,setenv,unsetenv
表头文件 #include<stdlib.h>
定义函数 char * getenv(const char *name);
函数说明 getenv()用来取得参数name环境变量的内容。参数name为环境变量的名称,如果该变量存在则会返回指向该内容的指针。环境变量的格式为name=value。
返回值 执行成功则返回指向该内容的指针,找不到符合的环境变量名称则返回NULL。
范例 #include<stdlib.h>
mian()
{
char *p;
if((p = getenv(“USER”)))
printf(“USER=%s\n”,p);
}

执行 USER = root

putenv(改变或增加环境变量)
相关函数 getenv,setenv,unsetenv
表头文件 #include4<stdlib.h>
定义函数 int putenv(const char * string);
函数说明 putenv()用来改变或增加环境变量的内容。参数string的格式为name=value,如果该环境变量原先存在,则变量内容会依参数string改变,否则此参数内容会成为新的环境变量。
返回值 执行成功则返回0,有错误发生则返回-1。
错误代码 ENOMEM 内存不足,无法配置新的环境变量空间。
范例 #include<stdlib.h>
main()
{
char *p;
if((p = getenv(“USER”)))
printf(“USER =%s\n”,p);
putenv(“USER=test”);
printf(“USER+5s\n”,getenv(“USER”));
}

执行 USER=root
USER=root

setenv(改变或增加环境变量)
相关函数 getenv,putenv,unsetenv
表头文件 #include<stdlib.h>
定义函数 int setenv(const char *name,const char * value,int overwrite);
函数说明 setenv()用来改变或增加环境变量的内容。参数name为环境变量名称字符串。
参数 value则为变量内容,参数overwrite用来决定是否要改变已存在的环境变量。如果overwrite不为0,而该环境变量原已有内容,则原内容会被改为参数value所指的变量内容。如果overwrite为0,且该环境变量已有内容,则参数value会被忽略。
返回值 执行成功则返回0,有错误发生时返回-1。
错误代码 ENOMEM 内存不足,无法配置新的环境变量空间
范例 #include<stdlib.h>
main()
{
char * p;
if((p=getenv(“USER”)))
printf(“USER =%s\n”,p);
setenv(“USER”,”test”,1);
printf(“USER=%s\n”,getenv(“USEr”));
unsetenv(“USER”);
printf(“USER=%s\n”,getenv(“USER”));
}

执行 USER = root
USER = test
USER = (null)

❷ C语言有专门把ASCII转换成UTF的函数么

C语言里有十六位Unicode的直接数据定义。

比如char可以扩展成wschar
定义时
8位数据char a='n';
16位数据wschar a=L'n';
这样的话,汉字也可以直接写进去。何必一心求转换。。。

❸ 如何在c语言中操作UTF-8字符

那你就去了解一下 UTF-8 的编码规则啊,
简单来说读取某个字节, 判断它是多字节的还是单字节的,甚至是多字节的非首字节...
如果怕是一些标点符号,再把这些标点符号的判断值加进去 。

❹ 如何将一个汉字用C语言将其转换成Unicode编码最好直接编成UTF-8,是不是vc里面有函数可以直接编求程序

对,有。

#define_CONVERSION_USES_THREAD_LOCALE

#include<atlbase.h>
#include<atlconv.h>
#include<stdio.h>
#include<string.h>

intmain()
{
USES_CONVERSION;
_acp=CP_ACP;
charbuf[3]={0};
buf[0]=getchar();
buf[1]=getchar();
wchar_ttmpbuf[2]={0};
tmpbuf[0]=A2W(buf)[0];
_acp=CP_UTF8;
charutf8buf[4];
strcpy(utf8buf,W2A(tmpbuf));

inti=0;
while(utf8buf[i]!=0)
{
printf("%02x",(unsignedchar)utf8buf[i]);
++i;
}
return0;
}

如果不是VC6.0而是新的VC的话是新的写法。

你可以输入一个日进去看看

❺ C语言UTF8要怎样转gb2312

一、这个转换关键要有码表,而不是什么语言。UTF-8不一定总能转换成GB2312、GBK、GB-18030等。GB2312实际上是UTF-8(Unicode的一种形式)的一个子集。
常用的基本方式有两个类别:
1、iconv,这个是通用的,具体的看手册
2、Windows的WideCharToMultiByte、MultiByteToWideChar。WideChar就是Unicode(UTF-16),UTF-8、GB2312等同属于MultiByte,先要将UTF-8变成WideChar,然后将WideChar再变成GB2312。
二、如果只有一两个文件,用记事本打开UTF8文件,然后保存,保存时点击“保存选项”按钮,选择文件格式为ANSI,在中文Windows环境下,这个新文件就是GB2312格式的了。

❻ 求:C语言utf8转utf16详细源码和教程

哈哈,选我吧!运气不错,不就前做过这个,不过是C++的稍微改了一下,给你看能不能用
请先阅读一下给你的参考网址
http://blog.csdn.net/dengyunze/article/details/160958
-------------------------------------------------------------------------------------------
voidUtf162UTF8(constwchat_tszIn[],intnSourceLen,charszOut[])
{
unsignedcharfirstchar=0;//临时变量存储3字节utf-8编码的三个字节中的一个
unsignedcharsecondchar=0;//同上
unsignedcharthirdchar=0;//同上
wchat_tvalue=0;
intindex=0;//将转换过的字符存入szOut的索引
for(inti=0;i=0x0080&&(unsignedchar)szIn[i]>6)&0xef)|0xc0;
secondchar=(value&0x3f)|0x80;
szOut[index++]=firstchar;
szOut[index++]=secondchar;
}
//同两字节utf-8编码这里进行的操作即为将后面的[1110xxxx10xxxxxx10xxxxxx]中的16位x分别取出来然后组成一个16位的数,既为utf-16编码
elseif((unsignedchar)szIn[i]>=0x0800&&(unsignedchar)szIn[i]>12)|0xe0;
secondchar=((value>>6)&0x3f)|0x80;
thirdchar=(value&0x3f)|0x80;
szOut[index++]=firstchar;
szOut[index++]=secondchar;
szOut[index++]=thirdchar;
}
}
}
--------------------------------------------------------------------------------------------------
voidUTF82utf16(constchar*szIn,wchat_tszOut[])
{
wchar_tvalue=0;//
unsignedcharfirstchar=0;//临时变量存储3字节utf-8编码的三个字节中的一个
unsignedcharsecondchar=0;//临时变量存储3字节utf-8编码的三个字节中的一个
unsignedcharthirdchar=0;//临时变量存储3字节utf-8编码的三个字节中的一个
intindex=0;
for(unsignedinti=0;i=127//若字符不是普通字符则对齐进行解码,
&&(unsignedchar)szIn[i+1]>=127//判断后面的2个字符是否也不是普通字符若都不是则为3字节utf-8编码
&&(unsignedchar)szIn[i+2]>=127)//此过程为上面编码过程的逆过程
{
firstchar=szIn[i];
secondchar=szIn[i+1];
thirdchar=szIn[i+2];
value=(firstchar&0x1f)=127
&&(unsignedchar)szIn[i+1]>=127)
{
firstchar=szIn[i];
secondchar=szIn[i+1];
value=(firstchar&0x1f)<<6;<br>value|=(secondchar&0x3f)
szOut[index++]=value;
i+=2;
}
else
{
szOut[index++]=value;
++i;
}
}
}
代码写得不好,见谅
有问题Email:[email protected]

❼ 求助,C语言里如何把GBK码转换为UTF8

你是想要在linux下显示汉字吧,输入下面的指令就行了,记得改文件名啊,别无脑复制
iconv -f gbk -t utf8 shujujiegou.txt > shujujiegou.txt.utf8

❽ C语言下实现对字符串进行utf-8格式的转换

标准库里没有。但搜了一下网上应该找到不少,比如这个:

std::stringiso_8859_1_to_utf8(std::string&str)
{
stringstrOut;
for(std::string::iteratorit=str.begin();it!=str.end();++it)
{
uint8_tch=*it;
if(ch<0x80){
strOut.push_back(ch);
}
else{
strOut.push_back(0xc0|ch>>6);
strOut.push_back(0x80|(ch&0x3f));
}
}
returnstrOut;
}

http://stackoverflow.com/questions/4059775/convert-iso-8859-1-strings-to-utf-8-in-c-c

❾ c语言怎么把UTF-8转换成Unicode

下面程序给出的是UTF-8转成Unicode(UCS-2)的函数:

#include <stdio.h>

#include <stdlib.h>

#include <memory.h>

#include <string.h>

int utf8_to_unicode(char* pInput, char** ppOutput)

{

int outputSize = 0; //记录转换后的Unicode字符串的字节数

*ppOutput = (char *)malloc(strlen(pInput) * 2); //为输出字符串分配足够大的内存空

memset(*ppOutput, 0, strlen(pInput) * 2);

char *tmp = *ppOutput; //临时变量,用于遍历输出字符串

while (*pInput)

{

if (*pInput > 0x00 && *pInput <= 0x7F) //处理单字节UTF8字符(英文字母、数字)

{

*tmp = *pInput;

tmp++;

*tmp = 0; //小端法表示,在高地址填补0

}

else if (((*pInput) & 0xE0) == 0xC0) //处理双字节UTF8字符

{

char high = *pInput;

pInput++;

char low = *pInput;

if ((low & 0xC0) != 0x80) //检查是否为合法的UTF8字符表示

{

return -1; //如果不是则报错

}

*tmp = (high << 6) + (low & 0x3F);

tmp++;

*tmp = (high >> 2) & 0x07;

}

else if (((*pInput) & 0xF0) == 0xE0)//处理三字节UTF8字符

{

char high = *pInput;

pInput++;

char middle = *pInput;

pInput++;

char low = *pInput;

if (((middle & 0xC0) != 0x80) || ((low & 0xC0) != 0x80))

{

return -1;

}

*tmp = (middle << 6) + (low & 0x7F);

tmp++;

*tmp = (high << 4) + ((middle >> 2) & 0x0F);

}

else //对于其他字节数的UTF8字符不进行处理

{

return -1;

}

pInput ++;

tmp ++;

outputSize += 2;

}

*tmp = 0;

tmp++;

*tmp = 0;

return outputSize;

}

(9)c语言转utf8函数扩展阅读

UTF-8:互联网的普及, 强烈要求出现一种统一的编码方式。 UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8的编码规则:

UTF-8的编码规则很简单,只有两条:

1、对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2、对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。