「java获取字符的编码」java使用的字符集编码

admin 2022-11-25 07:25:09 2896

本篇文章给大家谈谈java获取字符的编码，以及java使用的字符集编码对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、怎么知道 java字符串编码格式
2、java中如何获得一个字符的unicode编码
3、java如何获取正确的字符编码
4、java 中如何查看字符串的编码类型
5、java中如何输出字符变量的Unicode编码值
6、java 怎么获得文件编码格式

怎么知道 java字符串编码格式

这样的测试方法是不正确的。getBytes(charset)是解码，new String(byte[], charset)是编码。new String(str.getBytes(charset),charset)是解码再编码，无论charset是什么编码格式，返回的字符串内容原始str是一致，因此equals方法都是返回true，达不到测试字符串编码格式的目的。个人观点：正确的测试姿势应该是这样的：

String charset ="xxx"; //假定编码格式

String str = "中文"；

boolean flag = str.equals(new String(str.getBytes(),charset));

flag为true则表明str的编码格式是假定的编码格式。其中说明str.getBytes()该方法就是按其自身编码格式去解码。其自身编码格式跟你的操作系统编码格式或你使用的IDE设置的文件的Text file encoding有关。

java中如何获得一个字符的unicode编码

java中可以使用char类提供的charAt()方法来获得字符的unicode的编码值，示例如下：

public static String getUnicode(String source){ String returnUniCode=null; String uniCodeTemp=null; for(int i=0;isource.length();i++){ uniCodeTemp = "\\u"+Integer.toHexString((int)source.charAt(i));//使用char类的charAt()的方法 returnUniCode=returnUniCode==null?uniCodeTemp:returnUniCode+uniCodeTemp; } System.out.print(source +" 's unicode = "+returnUniCode); return returnUniCode;//返回一个字符的unicode的编码值}

java如何获取正确的字符编码

如果是修改文件的编码方式，可以按以下步骤：

选中文件右键--Properties--Resource--Text file encoding--选中Other，然后选择自己想要的编码格式就可以了。

如果是修改MyEclipse的编码方式，可以按以下步骤：

菜单栏的Window--Perferences--General--Work Space--Text file encoding--选中Other，然后选择自己想要的编码格式就可以了。

java 中如何查看字符串的编码类型

可以通过以下方法来进行编码格式判断，输入一个字符串，之后返回字符串编码类型。

public static String getEncoding(String str) {

String encode = "GB2312";

try {

if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是GB2312

String s = encode;

return s; //是的话，返回“GB2312“，以下代码同理

}

} catch (Exception exception) {

}

encode = "ISO-8859-1";

try {

if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是ISO-8859-1

String s1 = encode;

return s1;

}

} catch (Exception exception1) {

}

encode = "UTF-8";

try {

if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是UTF-8

String s2 = encode;

return s2;

}

} catch (Exception exception2) {

}

encode = "GBK";

try {

if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是GBK

String s3 = encode;

return s3;

}

} catch (Exception exception3) {

}

return ""; //如果都不是，说明输入的内容不属于常见的编码格式。

}

java中如何输出字符变量的Unicode编码值

java中可以使用char类提供的charAt()方法来获得字符的unicode的编码值，示例如下：

扩展资料：

Java是一门面向对象编程语言，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、指针等概念，因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表，极好地实现了面向对象理论，允许程序员以优雅的思维方式进行复杂的编程。

Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。Java可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等。

参考资料：百度百科-java

java 怎么获得文件编码格式

java课程设计例子

Java如何获取文件编码格式

1：简单判断是UTF-8或不是UTF-8，因为一般除了UTF-8之外就是GBK，所以就设置默认为GBK。

按照给定的字符集存储文件时，在文件的最开头的三个字节中就有可能存储着编码信息，所以，基本的原理就是只要读出文件前三个字节，判定这些字节的值，就可以得知其编码的格式。其实，如果项目运行的平台就是中文操作系统，如果这些文本文件在项目内产生，即开发人员可以控制文本的编码格式，只要判定两种常见的编码就可以了：GBK和UTF-8。由于中文Windows默认的编码是GBK，所以一般只要判定UTF-8编码格式。

对于UTF-8编码格式的文本文件，其前3个字节的值就是-17、-69、-65，所以，判定是否是UTF-8编码格式的代码片段如下：

File file = new File(path);

InputStream in= new java.io.FileInputStream(file);

byte[] b = new byte[3];

in.read(b);

in.close();

if (b[0] == -17 b[1] == -69 b[2] == -65)

System.out.println(file.getName() + "：编码为UTF-8");

else

System.out.println(file.getName() + "：可能是GBK，也可能是其他编码");

2：若想实现更复杂的文件编码检测，可以使用一个开源项目cpdetector，它所在的网址是：。它的类库很小，只有500K左右，cpDetector是基于统计学原理的，不保证完全正确，利用该类库判定文本文件的代码如下：

读外部文件(先利用cpdetector检测文件的编码格式，然后用检测到的编码方式去读文件):

/**

* 利用第三方开源包cpdetector获取文件编码格式

* @param path

* 要判断文件编码格式的源文件的路径

* @author huanglei

* @version 2012-7-12 14:05

public static String getFileEncode(String path) {

* detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

* cpDetector内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法加进来，如ParsingDetector、

* JChardetFacade、ASCIIDetector、UnicodeDetector。

* detector按照“谁最先返回非空的探测结果，就以该结果为准”的原则返回探测到的

* 字符集编码。使用需要用到三个第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar

* cpDetector是基于统计学原理的，不保证完全正确。

CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();

* ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于

* 指示是否显示探测过程的详细信息，为false不显示。

detector.add(new ParsingDetector(false));

* JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成大多数文件的编码

* 测定。所以，一般有了这个探测器就可满足大多数项目的要求，如果你还不放心，可以

* 再多加几个探测器，比如下面的ASCIIDetector、UnicodeDetector等。

detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar

// ASCIIDetector用于ASCII编码测定

detector.add(ASCIIDetector.getInstance());

// UnicodeDetector用于Unicode家族编码的测定

detector.add(UnicodeDetector.getInstance());

java.nio.charset.Charset charset = null;

File f = new File(path);

try {

charset = detector.detectCodepage(f.toURI().toURL());

} catch (Exception ex) {

ex.printStackTrace();

}

if (charset != null)

return charset.name();

else

return null;

}

String charsetName = getFileEncode(configFilePath);

System.out.println(charsetName);

inputStream = new FileInputStream(configFile);

BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

读jar包内部资源文件(先利用cpdetector检测jar内部的资源文件的编码格式，然后以检测到的编码方式去读文件)：

/**

* 利用第三方开源包cpdetector获取URL对应的文件编码

* @param path

* 要判断文件编码格式的源文件的URL

* @author huanglei

* @version 2012-7-12 14:05

public static String getFileEncode(URL url) {

* detector是探测器，它把探测任务交给具体的探测实现类的实例完成。

* cpDetector内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法加进来，如ParsingDetector、

* JChardetFacade、ASCIIDetector、UnicodeDetector。

* detector按照“谁最先返回非空的探测结果，就以该结果为准”的原则返回探测到的

* 字符集编码。使用需要用到三个第三方JAR包：antlr.jar、chardet.jar和cpdetector.jar

* cpDetector是基于统计学原理的，不保证完全正确。

CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();

* ParsingDetector可用于检查HTML、XML等文件或字符流的编码,构造方法中的参数用于

* 指示是否显示探测过程的详细信息，为false不显示。

detector.add(new ParsingDetector(false));

* JChardetFacade封装了由Mozilla组织提供的JChardet，它可以完成大多数文件的编码

* 测定。所以，一般有了这个探测器就可满足大多数项目的要求，如果你还不放心，可以

* 再多加几个探测器，比如下面的ASCIIDetector、UnicodeDetector等。

detector.add(JChardetFacade.getInstance());// 用到antlr.jar、chardet.jar

// ASCIIDetector用于ASCII编码测定

detector.add(ASCIIDetector.getInstance());

// UnicodeDetector用于Unicode家族编码的测定

detector.add(UnicodeDetector.getInstance());

java.nio.charset.Charset charset = null;

try {

charset = detector.detectCodepage(url);

} catch (Exception ex) {

ex.printStackTrace();

}

if (charset != null)

return charset.name();

else

return null;

}

URL url = CreateStationTreeModel.class.getResource("/resource/" + "配置文件");

URLConnection urlConnection = url.openConnection();

inputStream=urlConnection.getInputStream();

String charsetName = getFileEncode(url);

System.out.println(charsetName);

BufferedReader in = new BufferedReader(new InputStreamReader(inputStream, charsetName));

3：探测任意输入的文本流的编码，方法是调用其重载形式：

charset=detector.detectCodepage(待测的文本输入流,测量该流所需的读入字节数);

上面的字节数由程序员指定，字节数越多，判定越准确，当然时间也花得越长。要注意，字节数的指定不能超过文本流的最大长度。

4：判定文件编码的具体应用举例：

属性文件(.properties)是Java程序中的常用文本存储方式，象STRUTS框架就是利用属性文件存储程序中的字符串资源。它的内容如下所示：

#注释语句

属性名=属性值

读入属性文件的一般方法是：

FileInputStream ios=new FileInputStream(“属性文件名”);

Properties prop=new Properties();

prop.load(ios);

String value=prop.getProperty(“属性名”);

ios.close();

利用java.io.Properties的load方法读入属性文件虽然方便，但如果属性文件中有中文，在读入之后就会发现出现乱码现象。发生这个原因是load方法使用字节流读入文本，在读入后需要将字节流编码成为字符串，而它使用的编码是“iso-8859-1”,这个字符集是ASCII码字符集，不支持中文编码，

方法一：使用显式的转码：

String value=prop.getProperty(“属性名”);

String encValue=new String(value.getBytes(“iso-8859-1″),”属性文件的实际编码”);

方法二：象这种属性文件是项目内部的，我们可以控制属性文件的编码格式，比如约定采用Windows内定的GBK，就直接利用”gbk”来转码，如果约定采用UTF-8，就使用”UTF-8″直接转码。

方法三：如果想灵活一些，做到自动探测编码，就可利用上面介绍的方法测定属性文件的编码，从而方便开发人员的工作

补充：可以用下面代码获得Java支持编码集合：

Charset.availableCharsets().keySet();

可以用下面的代码获得系统默认编码：

Charset.defaultCharset();

java获取字符的编码的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于java使用的字符集编码、java获取字符的编码的信息别忘了在本站进行查找喔。

标签：java获取字符的编码

本文目录一览：

怎么 知道 java字符串 编码格式

java中如何获得一个字符的unicode编码

java如何获取正确的字符编码

java 中如何查看字符串的编码类型

java中如何输出字符变量的Unicode编码值

java 怎么获得文件编码格式

怎么知道 java字符串编码格式