java获取utf-8的简单介绍

admin 2022-12-10 17:18:07 1197

今天给各位分享java获取utf-8的知识，其中也会对进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、java怎么设置utf8
2、java如何把string转为utf-8
3、java 按行读取utf-8文件且处理每行string，将处理后的string写到一个新的utf-8格式文件，不能有乱码
4、Java 按行读取UTF-8文件，开头第一行总会有一个不可见字符
5、java实现将文件格式转换为UTF-8？

java怎么设置utf8

服务器端

修改数据库配置文件/etc/my.cnf

character-set-server=utf8mb4

collation_server=utf8mb4_unicode_ci

重启MySQL（按照官方文档，这两个选项都是可以动态设置的，但是实际的经验是Server必须重启一下）

已有的表修改编码为utf8mb4

ALTER TABLE

tbl_name

CONVERT TO CHARACTER SET

charset_name；

使用下面这个语句只是修改了表的default编码

ALTER TABLE table_name CONVERT TO CHARACTER SET utf8mb4;

客户端

jdbc的连接字符串不支持utf8mb4，这个这种方式来解决的，如果服务器端设置了character_set_server=utf8mb4，则客户端会自动将传过去的utf-8视作utf8mb4。

Connector/J did not support utf8mb4 for servers 5.5.2 and newer.

Connector/J now auto-detects servers configured with character_set_server=utf8mb4 or treats the Java encoding utf-8 passed using characterEncoding=... as utf8mb4 in the SET NAMES= calls it makes when establishing the connection. (Bug #54175)

其他的client端，比如php、python需要看下client是否支持，如果不能在连接字符串中指定的话，可以在获取连接之后，执行”set names utf8mb4″来解决这个问题；

因为utf8mb4是utf8的超集，理论上即使client修改字符集为utf8mb4，也会不会对已有的utf8编码读取产生任何问题。

java如何把string转为utf-8

java不同编码之间进行转换，都需要使用unicode作为中转。

String str = "任意字符串";

str = new String(str.getBytes("gbk"),"utf-8");

备注说明：

str.getBytes("UTF-8"); 意思是以UTF-8的编码取得字节

new String(XXX,"UTF-8"); 意思是以UTF-8的编码生成字符串

举例：

public static String getUTF8XMLString(String xml) {

// A StringBuffer Object

StringBuffer sb = new StringBuffer();

sb.append(xml);

String xmString = "";

String xmlUTF8="";

try {

xmString = new String(sb.toString().getBytes("UTF-8"));

xmlUTF8 = URLEncoder.encode(xmString, "UTF-8");

System.out.println("utf-8 编码：" + xmlUTF8) ;

} catch (UnsupportedEncodingException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

// return to String Formed

return xmlUTF8;

扩展资料:

UTF-8编码规则：

如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。

实际表示ASCII字符的UNICODE字符，将会编码成1个字节，并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列，由n位连续的1加一位0组成，首字节连续的1的个数表示字符编码所需的字节数。

Unicode转换为UTF-8时，可以将Unicode二进制从低位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下示例所示的格式，前面按格式填补，不足8位用0填补。

参考资料来源：百度百科:UTF-8

java 按行读取utf-8文件且处理每行string，将处理后的string写到一个新的utf-8格式文件，不能有乱码

代码没问题，检测一下你的xml文件是否是真正的utf-8编码的文件，不要说，xml文件内容里声明是utf-8编码就是utf-8编码。或者把encoding="UTF-8",改为encoding="GBK"，看一下乱不乱码，如果不乱码，说明你的xml文件其实是gbk编码。

Java 按行读取UTF-8文件，开头第一行总会有一个不可见字符

这个是叫做BOM（Byte Order Mark），字节顺序标记，出现在文本文件头部，Unicode编码标准中用于标识文件是采用哪种格式的编码。

没有BOM 则表示是默认的ASCII

BOM主要用途是给类似txt sublimetext notepad 之类的ide看的让它们能够知道用哪种编码显示里面的内容

java实现将文件格式转换为UTF-8？

问题描述不知道是不是需要改这个：

文件编码转换方法:ant

build.xml

代码

project name="encoding" default="build"

target name="build"

copy todir="e:/output" outputencoding="GBK"

fileset dir="."

include name="**/*.html"/

/fileset

/copy

/target

/project

先把源代码全部用GBK格式拷贝到e:/output,然后再把output中的所有文件拷贝到原先的地方就可以。

html内容显示编码：

meta http-equiv="content-type" content="text/html; charset=“utf-8" /

关于java获取utf-8和的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：java获取utf-8