LINUX处理GBK编码（C语言）

2021/7/13 7:08:26

编程Tag： 字符字节 GBK linux c语言编码 ascii sGBK

本文主要是介绍LINUX处理GBK编码（C语言），对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

基础知识

C语言使用char类型保存字符。一个char类型字符占用一个字节。

字节是一个八位的存储单元，每一位是0或者1，所以一个包含8位的字节有2的8次幂共256种组合。每种不同组合就表示不同字符。

00000000到11111111也就是从0到255，所以，一个char类型最多就能保存256个不同字符。

ASCII 码

标准ASCII 码，也叫基础ASCII码。

ASCII码占用一个字节，使用7 位二进制数来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。

00000000到01111111表示ASCII，从0开始到127，目前为止共定义了128个字符。

for(i=0;i<128;i++)
    printf("%c",i);

128到256，后128个称为扩展ASCII码。一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。

汉字编码

GB2312、GBK、GB18030 是汉字字符编码方案的国家标准。 Unicode 都是全球字符编码的国际标准。

GBK和GB2312使用双字节编码，GB18030和Unicode使用可变字节编码。都兼容ASCII编码。

GBK编码空间为 0x8140～0xFEFE。

printf("result=[%c%c]",0xc4,0xe3);

打印结果

result=[你]

两个字节组成一个GBK字。

为了区分ASCII码和汉字，在汉字的高位补1。

注意这块，测试打印，不是按某些博客写的，算负数的补码。而是所有高位都补1。

char sGBK=“你”;
printf("%x,%x",sGBK[0],sGBK[1]);
printf("%d,%d",sGBK[0],sGBK[1]);

打印结果

ffffffc4,ffffffe3
-60,-29

了解GBK的原理之后，就可以使用c语言处理汉字字符串。

本篇文章，如有疑问欢迎大家讨论，如有问题请大神指正。

这篇关于LINUX处理GBK编码（C语言）的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！