跳转至

字符编码

概述

字符编码

将字符转换为计算机可处理的二进制编码。

ASCII编码

ASCII编码

美国信息交换标准代码,7位编码。

特点:

  • 7位编码,128个字符
  • 0-31: 控制字符
  • 32-126: 可打印字符
  • 127: DEL删除符

常用字符:

  • '0'-'9': 48-57
  • 'A'-'Z': 65-90
  • 'a'-'z': 97-122

扩展ASCII

扩展ASCII

8位编码,256个字符。

  • 0-127: 标准ASCII
  • 128-255: 扩展字符

Unicode编码

Unicode编码

统一字符编码标准,支持全球文字。

特点:

  • 统一编码方案
  • 支持多种语言
  • 向后兼容ASCII

UTF-8

UTF-8

Unicode的可变长编码。

编码规则:

  • 0xxxxxxx: 1字节(ASCII)
  • 110xxxxx 10xxxxxx: 2字节
  • 1110xxxx 10xxxxxx 10xxxxxx: 3字节
  • 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx: 4字节

UTF-16

UTF-16

双字节或四字节编码。

中文编码

中文编码

  • GB2312: 简体中文,6763个汉字
  • GBK: 扩展GB2312,20902个汉字
  • GB18030: 最新中文编码标准

参考资料