编码办法有哪些_简述常用的编码办法
1、ASCII码
学过计算机的人都知道ASCII码,一共有128个,用一个字节的低7位表明,0~31是操控字符如换行回车删去等;32~126是打印字符,能够经过键盘输入并且能够显示出来。
2、ISO-8859-1
128个字符显然是不够用的,所以ISO安排在ASCII码根底上又拟定了一些列标准用来扩展ASCII编码,它们是ISO-8859-1~ISO-8859-15,其间ISO-8859-1涵盖了大多数西欧言语字符,一切运用的最广泛。ISO-8859-1仍然是单字节编码,它一共能表明256个字符。
3、GB2312
它的全称是《信息交换用汉字编码字符集基本集》,它是双字节编码,总的编码规模是A1-F7,其间从A1-A9是符号区,一共包括682个符号,从B0-F7是汉字区,包括6763个汉字。
4、GBK
全称叫《汉字内码扩展标准》,是国家技能监督局为windows95所拟定的新的汉字内码标准,它的呈现是为了扩展GB2312,参加更多的汉字,它的编码规模是8140~FEFE(去掉XX7F)一共有23940个码位,它能表明21003个汉字,它的编码是和GB2312兼容的,也就是说用GB2312编码的汉字能够用GBK来解码,并且不会有乱码。
5、GB18030
全称是《信息交换用汉字编码字符集》,是我国的强制标准,它可能是单字节、双字节或许四字节编码,它的编码与GB2312编码兼容,这个虽然是国家标准,可是实践运用体系中运用的并不广泛。
6、UTF-16
说到UTF必需求说到Unicode(UniversalCode一致码),ISO企图想创立一个全新的超言语字典,世界上一切的言语都能够经过这本字典来彼此翻译。可想而知这个字典是多么的杂乱,关于Unicode的详细标准能够参阅相应文档。Unicode是Java和XML的根底,下面详细介绍Unicode在计算机中的存储方式。
UTF-16详细界说了Unicode字符在计算机中存取办法。UTF-16用两个字节来表明Unicode转化格局,这个是定长的表明办法,不论什么字符都能够用两个字节表明,两个字节是16个bit,所以叫UTF-16。UTF-16表明字符十分便利,每两个字节表明一个字符,这个在字符串操作时就大大简化了操作,这也是Java以UTF-16作为内存的字符存储格局的一个很重要的原因。
7、UTF-8
UTF-16一致选用两个字节表明一个字符,虽然在表明上十分简略便利,可是也有其缺陷,有很大一部分字符用一个字节就能够表明的现在要两个字节表明,存储空间扩大了一倍,在现在的网络带宽还十分有限的今日,这样会增大网络传输的流量,并且也没必要。而UTF-8选用了一种变长技能,每个编码区域有不同的字码长度。不同类型的字符能够是由1~6个字节组成。
UTF-8有以下编码规矩:
假如一个字节,最高位(第8位)为0,表明这是一个ASCII字符(00-7F)。可见,一切ASCII编码已经是UTF-8了。
假如一个字节,以11最初,接连的1的个数暗示这个字符的字节数,例如:110xxxxx代表它是双字节UTF-8字符的首字节。
假如一个字节,以10开端,表明它不是首字节,需求向前查找才干得到当时字符的首字节。