字符编码¶
概述¶
字符编码
将字符转换为计算机可处理的二进制编码。
ASCII编码¶
ASCII编码
美国信息交换标准代码,7位编码。
特点:
- 7位编码,128个字符
- 0-31: 控制字符
- 32-126: 可打印字符
- 127: DEL删除符
常用字符:
- '0'-'9': 48-57
- 'A'-'Z': 65-90
- 'a'-'z': 97-122
扩展ASCII¶
扩展ASCII
8位编码,256个字符。
- 0-127: 标准ASCII
- 128-255: 扩展字符
Unicode编码¶
Unicode编码
统一字符编码标准,支持全球文字。
特点:
- 统一编码方案
- 支持多种语言
- 向后兼容ASCII
UTF-8¶
UTF-8
Unicode的可变长编码。
编码规则:
- 0xxxxxxx: 1字节(ASCII)
- 110xxxxx 10xxxxxx: 2字节
- 1110xxxx 10xxxxxx 10xxxxxx: 3字节
- 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx: 4字节
UTF-16¶
UTF-16
双字节或四字节编码。
中文编码¶
中文编码
- GB2312: 简体中文,6763个汉字
- GBK: 扩展GB2312,20902个汉字
- GB18030: 最新中文编码标准