表音汉字编码只须一个字节 汉字 字节

汉字编码在ASII中使用的是数字符号,当有了表音汉字后,就可利用26个拉丁字母编码。利用拉丁字母编码时,就只须一个字节,不需要两个字节。

一、计算机如何保存拼音文字

大家知道,计算机屏幕上的文字是由一个一个的像素点组成的,每一个字符用一组像素点拼接出来,这些像素点组成一幅图像,形成了文字。一个汉字就是一幅图像;一个拼音字母也是一幅图像。计算机又是如何将文字保存起来的呢?是用一个个的点组成的图像将文字保存起来的吗?当然不是。例如英文,它是拼音文字,一篇文章实际上是由英文字母和标点符号所组成。英文中的每个词,都是由26个英文字母排列组合而成。在英文中存在着大量的重复字母符号,这就意味着保存每个字符的图像会有大量的重复,比如e就是出现最多的符号等等。所以在计算机中,实际上只须保存26个英文字母和其它的标点符号的图像即可,加起来也不会超过100个。汉字就不同了,一篇千字文,不同的汉字就会有七、八百之多。汉字是个庞大的体系,《新华字典》上就有一万三千五百字。

计算机天生就是用来处理数字的,为了减少我们需要保存的信息量,人们使用一个数字编码来表示每一个字符,通过对每一个字符规定一个唯一的数字代号,然后,对应每一个代号,建立其相对应的图形,这样,在每一个文件中,只需要保存每一个字符的编码就相当于保存了文字,在需要显示出来的时候,先取得保存起来的编码,然后通过编码表,就可以查到字符对应的图形,然后将这个图形显示出来,这样就可以看到文字了。这些用来规定每一个字符所使用的代码的表格,就称为编码表。编码就是对我们日常使用字符的一种数字编号。

(一)、ASCII的产生

在最初的时候,美国人制定了第一张编码表《美国标准信息交换码》,简称ASCII,它总共规定了128个符号所对应的数字代号,使用了7位二进制的位来表示这些数字。其中包含了英文的大小写字母、数字、标点符号等常用的字符,数字代号从0至127,ASCII的表示内容如下:
 0–31控制符号,32空格,33-47常用符号,48-57数字,58-64符号,65-90大写字母,91-96符号,97-127小写字母。
  请注意,32表示空格,33-127共95个编码用来表示符号,例如44表示逗号,数字和拉丁文的大写和小写字母。比如数字1所对应的数字代号为49,大写字母A对应的代号为65,小写字母a对应的代号为97。所以,我们所写的代码“hello,world”保存在文件中时,实际上是保存了一组数字:“1041011081081114432119111114108100”。我们在程序中比较英文字符串的大小时,实际上也是比较字符对应的ASCII的编码大小。

(二)、ASCII存在的问题

美国人顺利解决了字符的问题,可是欧洲的各个国家还没有,比如法语中就有许多英语中没有的字符,因此ASCII不能帮助欧洲人解决编码问题。
  为了解决这个问题,人们借鉴ASCII的设计思想,创造了许多使用8位二进制数来表示字符的扩充字符集,这样我们就可以使用256种数字代号了,表示更多的字符了。在这些字符集中,从0-127的代码与ASCII保持兼容,从128到255用于其它的字符和符号。由于各个国家的语言不同,所以有各种不同的字符,于是人们为不同的语言制定了大量不同的编码表,在这些码表中,128-255表示各自不同的字符,其中,国际标准化组织的ISO8859标准得到了广泛的使用。
  在ISO8859的编码表中,编号0–127与ASCII保持兼容,编128–159共32个编码保留给扩充定义的32个扩充控制码,160为空格,161-255的95个数字用于新增加的字符代码。编码的布局与ASCII的设计思想如出一辙,由于在一张码表中只能增加95种字符的代码,所以ISO8859实际上不是一张码表,而是一系列标准,包括14个字符码表。例如,西欧的常用字符就包含在ISO8859-1字符表中。在ISO8859-7种则包含了ASCII和现代希腊语字符。

ISO的8859标准解决了大量的字符编码问题,但也带来了新的问题,比如说,没有办法在一篇文章中同时使用ISO8859-1和ISO8859-7,也就是说,在同一篇文章中不能同时出现希腊文和法文,因为他们的编码范围是重合的。例如:在ISO8859-1中217号编码表示字符Ù,而在ISO8859-7中则表示希腊字符Ω,这样一篇使用ISO8859-1保存的文件,在使用ISO8859-7编码的计算机上打开时,将看到错误的内容。为了同时处理一种以上的文字,甚至还出现了一些同时包含原来不属于同一张码表的字符的新码表。

二、计算机如何保存表意汉字

无论如何,欧洲的拼音文字都还可以用一个字节来保存,一个字节由8个二进制的位组成,用来表示无符号的整数的话,范围正好是0–255。
  但是,更严重的问题出现在东方,中国,朝鲜和日本的文字包含大量的符号。例如,中国的文字不是拼音文字,汉字的个数有数万之多,远远超过区区256个字符,因此,ISO的8859标准实际上不能处理中文的字符。中国的专家通过借鉴ISO8859的编码思想,灵巧的解决了中文的编码问题。

(一)、用两个字节表示一个汉字
表音汉字编码只须一个字节 汉字 字节
  既然一个字节的256种字符不能表示中文,那么,就使用两个字节来表示一个汉字,在每个字符的256种可能中,低于128的为了与ASCII保持兼容,我们不使用,借鉴ISO8859的设计方案,只使用从160以后的96个数字,两个字节分成高位和低位,高位的取值范围从176-247共72个,低位从161–254共94这样,两个字节就有72*94=6768种可能,也就是可以表示6768个汉字,这个标准我们称为GB2312-80。
  但是,6768个汉字显然不能包括全部的汉字,这个标准是在1980年制定的,那时候,计算机的处理能力,存储能力都还很有限,所以在制定这个标准的时候,实际上只包含了常用的汉字,这些汉字是通过对日常生活中的报纸、电视、电影等使用的汉字进行统计得出的,大概占常用汉字的99%。因此,我们时常会碰到一些名字中的特殊汉字无法输入到计算机中的问题,就是由于这些生僻的汉字不在GB2312的常用汉字之中的缘故。
  由于GB2312规定的字符编码实际上与ISO8859是冲突的,所以,当我们在中文环境下看一些西文的文章,使用一些西文的软件的时候,时常就会发现许多古怪的汉字出现在屏幕上,这就是因为西文中使用了与汉字编码冲突的字符,被我们的系统生硬的翻译成中文造成的。
  不过,GB2312统一了中文字符编码的使用,我们现在所使用的各种电子产品实际上都是基于GB2312来处理中文的。

GB2312-80仅收汉字6763个,这大大少于现有汉字,随着时间推移及汉字文化的不断延伸推广,有些原来很少用的字,现在变成了常用字,例如:朱镕基的“镕”字,未收入GB2312-80,现在大陆的报业出刊只得使用(金+容)、(金容)、(左金右容)等来表示,形式不一而同,这使得表示、存储、输入、处理都非常不方便,而且这种表示没有统一标准。

(二)、汉字内码扩展规范
  为了解决这些问题,全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK向下与GB2312完全兼容,向上支持ISO10646国际标准,在前者向后者过渡过程中起到的承上启下的作用。GBK亦采用双字节表示,总体编码范围为8140-FEFE之间,高字节在81-FE之间,低字节在40-FE之间,不包括7F。在GBK1.0中共收录了21886个符号,汉字有21003个。
  GBK共收入21886个汉字和图形符号,包括:
  *GB2312中的全部汉字、非汉字符号。
  *BIG5中的全部汉字。
  *与ISO10646相应的国家标准GB13000中的其它CJK汉字,以上合计20902个汉字。
  *其它汉字、部首、符号,共计984个。
  微软公司自Windows95简体中文版开始支持GBK代码,但目前的许多软件都不能很好地支持GBK汉字。

(三)、汉字是东方文化的源头
 汉字的编码问题好像是解决了,其实不然。中国的台湾省也是使用中文,由于历史的原因,那里没有使用大陆的简体字,还在使用繁体字,而且台湾省也制定了一套表示繁体中文的字符编码,称为BIG5。不幸的是,虽然台湾也使用两个字节来表示一个汉字,但没有像我们兼容ASCII一样兼容简体字,他们使用了大致相同的编码范围来表示繁体的汉字。所以ISO8859的悲剧又出现在同样使用汉字的中国人身上了。同样的编码在大陆和台湾的编码中实际上表示不同的字符,大陆的玩家在玩台湾的游戏时,经常会遇到乱码的问题,问题根源就在于,大陆的计算机默认字符的编码就是GB2312,当碰到台湾使用BIG5编码的文字时,就会做出错误的转换。
  由于历史和文化的原因,日文和韩文中也包含许多的汉字,像汉字一样拥有大量的字符,可是,他们的字符编码同样与中文编码有冲突,日文的游戏在大陆上一样也会出现无法理解的乱码。
  在二十世纪八十年代后期,互联网出现了,一夜之间,地球村上的人们可以直接访问远在天边的服务器,电子文件在全世界传播,在一切都在数字化的今天,文件中的数字到底代表什么字?这可真是一个问题。
三、表音汉字适应信息时代的要求

当汉字表音化后,由于汉字与拼音文字兼容,以汉字为载体的东方文字就可以一个编码表出现在互联网上,由于表音汉字与简体、繁体汉字兼容,所以,中国的大陆和台湾省的汉字编码是同一的、一致的。日文和韩文中的许多的汉字也与繁体汉字兼容,少数古汉字尽管现今少用,也可包容在同一编码表中。

当今世界上,只存在东方的汉字和西方的拼音文字,现在,汉字与拼音文字兼容了,那么,世界文字进入了并轨期,互联网将不需要因文字的复杂性而产生的层层编码。互联网将变得简单易行。

2011年7月24日

  

爱华网本文地址 » http://www.413yy.cn/a/25101014/208500.html

更多阅读

所有漢字拼音表 所有汉字拼音大全图片

所有漢字拼音表【a1】 吖 阿 呵 啊 錒 醃 【a2】 啊 嗄 【a3】 阿 啊 【a4】 阿 啊 【a】 呵 啊 【ai1】 哎 哀 埃 挨 唉 娭 誒 噯 鎄 【ai2】 挨 騃 皚 癌 【ai3】 佁 欸 噯 矮 藹 靄 【ai4】 艾 阨 砹 唉 愛 僾 餲 隘

中国汉字草字表 中华汉字草书表

您的文章“中国汉字草字表”已被标精馆友“健君文荟”:您好!您的文章“中国汉字草字表”深受广大馆友的喜爱,于2011年11月16日进入“阅览室”频道的“图片/艺术”下“绘画/书法/剪纸”类别的精华区。360doc代表全体馆友感谢您的辛勤劳

笑容可以给任何人,但你的心,只须给一个人就好。 只需 只须

【1】见过白头到老的,没见过恩爱如初的【2】笑容可以给任何人,但你的心,只须给一个人就好。【3】每晚和你说:晚安,只是让自己有一个借口明天再和你说:早安.【4】你带走我的思念,却没说抱歉。我们约好的明天,你留给昨天【5】我有絕對濃烈且強

《只剩一个角落的繁华》读后感受 角落里的阳光读后感

《只剩一个角落的繁华》读后感在网上买书的时候看到《只剩一个角落的繁华》,顿时眼前一亮,直接买下。这本书相当的好啊。我读完这本书之后,首先感觉自己的世界观发生了很大的变化。如果原先的我是站在平地上看世界,看我之后我发现我脚下

声明:《表音汉字编码只须一个字节 汉字 字节》为网友豹纹绣花鞋分享!如侵犯到您的合法权益请联系我们删除