「java西文字符」java中字符是什么
本篇文章给大家谈谈java西文字符,以及java中字符是什么对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
- 1、Java语言所使用的字符集是什么?
- 2、java中jar打包后中文文件全部乱码,如何解决?
- 3、如何判断java中char是中文字符还是英文字符
- 4、java里为什么只有汉字出现乱码,而英文不会乱码?请具体说明
- 5、使用java jdk编程在DOS状态下运行时,无法显示程序输出的汉字,该怎么办?
Java语言所使用的字符集是什么?
Java语言所使用的字符集是16位Unicode编码。另外再介绍一些常见的字符集:
1、最早在dos下写pascal的时候,就遇到ASCII字符集,后来还是dos下写c,也是ascii字符集
特点:目前最通用的单字节编码字符集
表示:单字节
最早ascii用7bit表示,总共能表示2^7=128个字符,后来扩展到8bit,就表示2^8=256个字符
2、GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。
特点:当然是能表示99%的中国汉字,还包括拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母等
表示:双字节
3、GBK是汉字编码标准之一,全称《汉字内码扩展规范》,GBK 向下与GB2312编码兼容,向上支持ISO10646.1国际标准。可以认为GBK是在GB2313基础上通过内码扩展出来的一个标准。
特点:完全兼容GB2312标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字
表示:双字节
4、Big5,台湾那边使用比较多。
5、GB 18030,全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。
特点:就是强大。覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
表示:单字节、双字节、四字节三种方式
6、Unicode野心更大(当然有一个国际统一标准当然是好事)
特点:Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
表示:utf-8,utf-16,utf-32
这里可能有点不好理解,举个例子
首先,把unicode理解成对所有字符做了一个统一的编号,比如:“字”这个字符,编号是23383,这个是unicode定义的
但是,在计算机中,如何存储这个编号呢?方式就有很多,存储unicode的方式,就是utf-8,utf-16,utf-32
23383数值的16进制表示:0x5b57
utf-8用3个字节来表示汉字,所以utf-8的表示为:0xE5AD97
utf-16用2个字节来表示汉字,所以utf-16的表示为:0x5b57 刚好和数值是一样的
utf-32用4个字节来表示汉字,所以utf-32的表示为:0x00005b57 和数值是一样的,不过浪费空间
7、再来讲讲utf-8,它是一种变长的字符集
表示:单字节来表示字母,双字节来表示一些希腊字母,三字节来表示汉字,当然也有四字节的
这么做当然会增加表示和识别的难度,不过,可以节省空间。这也是为什么utf-8在网络编码中流行的原因。
java中jar打包后中文文件全部乱码,如何解决?
1、用代码混淆器,混淆后一般都是一些西文字符,这些字符在GBK和UTF8中映射键应该是一样的。但是上网搜索老半天就是找不到好用的针对源代码的工具。
2、转化源代码编码。这个我试过了,但是文件名在打包后仍变成乱码。不知道如何改变文件名的编码格式。
3、自己做一个转化程序,把源代码中的中文名转化为任意的西文。但是自己的正则表达式基础太差,写不好这种程序,特别是区分哪个是String里的内容还是标识符。。
可以了
如何判断java中char是中文字符还是英文字符
Java文件流有字符流和字节流两种,分别对应char和byte类型
如果是字符流的read,一次读取两个字节,也就是一个char,需要注意的是Java采用Unicode编码,无论中文还是西文只要是char类型都是2字节。英文字符在Unicode以asc码存储,高位应该是0.使用这种方法需注意若字节为奇数则可能出错。
如果是字节流,一次性读1个字节,适用于任何场景,尤其是图片等二进制文件的读取,缺点是对文本文件识别率不高
java里为什么只有汉字出现乱码,而英文不会乱码?请具体说明
因为西文字符都在前面,字符集很小,所以编码都一样。
而中文字符集就好几个,几个字符集中同一个汉字对应的编码可能不一样,所以在你选择错了码制的时候,就有可能跳到“乱码”所在的索引上了,于是就出现“乱码”了。其实“乱码”的字符也都是正常的字符,只不过出现在不应该出现的地方,组合在一起看起来就乱了。
使用java jdk编程在DOS状态下运行时,无法显示程序输出的汉字,该怎么办?
cmd乱码,一般是代码页问题,
chcp 936,切换为简体中文,chcp 437,切换为英文
或者直接在cmd默认属性中修改,
对应注册表项:HKEY_CURRENT_USER\Console 中的codepage,删除即可,
在中文Windows系统中,如果一个文本文件是UTF-8编码的,那么在CMD.exe命令行窗口(所谓的DOS窗口)中不能正确显示文件中的内容。在默认情况下,命令行窗口中使用的代码页是中文或者美国的,即编码是中文字符集或者西文字符集。
如果想正确显示UTF-8字符,可以按照以下步骤操作:
1、打开CMD.exe命令行窗口
2、通过 chcp命令改变代码页,UTF-8的代码页为65001
chcp 65001
执行该操作后,代码页就被变成UTF-8了。但是,在窗口中仍旧不能正确显示UTF-8字符。
3、修改窗口属性,改变字体
在命令行标题栏上点击右键,选择"属性"-"字体",将字体修改为True Type字体"Lucida Console",然后点击确定将属性应用到当前窗口。
这时使用type命令就可以显示UTF-8文本文件的内容了:
type filename.txt
4、通过以上操作并不能完全解决问题,因为显示出来的内容有可能不完全。可以先最小化,然后最大化命令行窗口,文件的内容就完整的显示出来了。
java西文字符的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于java中字符是什么、java西文字符的信息别忘了在本站进行查找喔。