LINUX处理GBK编码(C语言)
2021/7/13 7:08:26
本文主要是介绍LINUX处理GBK编码(C语言),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
文章目录
- 基础知识
- ASCII 码
- 汉字编码
C语言使用char类型保存字符。一个char类型字符占用一个字节。
字节是一个八位的存储单元,每一位是0或者1,所以一个包含8位的字节有2的8次幂共256种组合。每种不同组合就表示不同字符。
00000000到11111111也就是从0到255,所以,一个char类型最多就能保存256个不同字符。
ASCII 码标准ASCII 码,也叫基础ASCII码。
ASCII码占用一个字节,使用7 位二进制数来表示所有的大写和小写字母, 数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。
00000000到01111111表示ASCII,从0开始到127,目前为止共定义了128个字符。
for(i=0;i<128;i++) printf("%c",i);
128到256,后128个称为扩展ASCII码。 一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。
GB2312、GBK、GB18030 是汉字字符编码方案的国家标准。 Unicode 都是全球字符编码的国际标准。
GBK和GB2312使用双字节编码,GB18030和Unicode使用可变字节编码。都兼容ASCII编码。
GBK编码空间为 0x8140~0xFEFE。
printf("result=[%c%c]",0xc4,0xe3);
打印结果
result=[你]
两个字节组成一个GBK字。
为了区分ASCII码和汉字,在汉字的高位补1。
注意这块,测试打印,不是按某些博客写的,算负数的补码。而是所有高位都补1。
char sGBK=“你”; printf("%x,%x",sGBK[0],sGBK[1]); printf("%d,%d",sGBK[0],sGBK[1]);
打印结果
ffffffc4,ffffffe3 -60,-29
了解GBK的原理之后,就可以使用c语言处理汉字字符串。
本篇文章,如有疑问欢迎大家讨论,如有问题请大神指正。
这篇关于LINUX处理GBK编码(C语言)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-12如何创建可引导的 ESXi USB 安装介质 (macOS, Linux, Windows)
- 2024-11-08linux的 vi编辑器中搜索关键字有哪些常用的命令和技巧?-icode9专业技术文章分享
- 2024-11-08在 Linux 的 vi 或 vim 编辑器中什么命令可以直接跳到文件的结尾?-icode9专业技术文章分享
- 2024-10-22原生鸿蒙操作系统HarmonyOS NEXT(HarmonyOS 5)正式发布
- 2024-10-18操作系统入门教程:新手必看的基本操作指南
- 2024-10-18初学者必看:操作系统入门全攻略
- 2024-10-17操作系统入门教程:轻松掌握操作系统基础知识
- 2024-09-11Linux部署Scrapy学习:入门级指南
- 2024-09-11Linux部署Scrapy:入门级指南
- 2024-08-21【Linux】分区向左扩容的方法