「java解码html」Java解码Unicode

博主:adminadmin 2023-03-19 04:01:07 332

本篇文章给大家谈谈java解码html,以及Java解码Unicode对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

如何解码HTML字符实体在Java中像HttpUtility.HtmlDecode

response.setContentType("text/html");

PrintWriter out = response.getWriter();

out.println("HTML");

out.println(" BODY");

out.println(" /BODY");

out.println("/HTML");

out.flush();

out.close();

输出流写到页面就好了

求助,java代码怎么实现把html的编码格式从gb2312转换为UTF-8

Java中字符串转码,根据实际运用的环境有以下三种方式

使用Java.lang.String这是最常用的方法,先用对应编码获取字节,然后重新构造新编码,示例代码如下:String s = "清山";  

byte[] b = s.getBytes("utf-8");//编码  

String sa = new String(b, "gb2312");//解码:用什么字符集编码就用什么字符集解码

java.io.InputStreamReader/OutputStreamWriter:桥转换读写文件的应用中,可以使用这种方式,直接在IO流构造中转换,示例代码如下:

InputStream is = new FileInputStream("C:/项目进度跟踪.txt");//文件读取  

InputStreamReader isr = new InputStreamReader(is, "utf-8");//解码  

OutputStream os = new FileOutputStream("C:/项目进度跟踪_gb2312.txt");//文件输出  

OutputStreamWriter osw = new OutputStreamWriter(os, "gb2312");//开始编码

java.nio.Charset使用nio中的Charset转换字符,示例代码如下:Charset inSet = Charset.forName("utf-8");  // 解码字符集 

Charset outSet = Charset.forName("gb2312");  // 编码字符集  

CharsetDecoder de = inSet.newDecoder();  // 解码器

CharsetEncoder en = outSet.newEncoder();// 编码

java如何解析html文档

import java.io.*;

import java.util.*;

import javax.swing.text.*;

import javax.swing.text.html.*;

import javax.swing.text.html.parser.*;

import javax.swing.text.html.HTMLEditorKit.ParserCallback;

public class Parser extends ParserCallback {    //继承ParserCallback,解析结果驱动这些回调方法

 protected String base;

 protected boolean isImg = false;

 protected boolean isParagraph = false;

 protected static VectorString element = new VectorString();

 protected static String paragraphText = new String();

 public Parser() {

 }

 public static String getParagraphText() {

  return paragraphText;

 }

 public void handleComment(char[] data, int pos) {

 }

 public void handleEndTag(HTML.Tag t, int pos) {

  if (t == HTML.Tag.P) {

   if (isParagraph) {

    isParagraph = false;

   }

  } else if (t == HTML.Tag.IMG) {

   if (isImg) {

    isImg = false;

   }

  }

 }

 public void handleError(String errorMsg, int pos) {

 }

 public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {

  handleStartTag(t, a, pos);

 }

 public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {

  if (t == HTML.Tag.P) {

   isParagraph = true;

  } else if ((t == HTML.Tag.IMG)) {

   String src = (String) a.getAttribute(HTML.Attribute.SRC);

   if (src != null) {

    element.addElement(src);

    isImg = true;

   }

  }

 }

 public void handleText(char[] data, int pos) {

  if (isParagraph) {

   String tempParagraphText = new String(data);

   if (paragraphText != null) {

    element.addElement(tempParagraphText);

    ;

   }

  }

 }

 

 private static void startParse(String sHtml) {

  try {

   ParserDelegator ps = new ParserDelegator();//负责每次在调用其 parse 方法时启动一个新的 DocumentParser

   HTMLEditorKit.ParserCallback parser = new Parser();//解析结果驱动这些回调方法。

   ps.parse(new StringReader(sHtml), parser, true);//解析给定的流并通过解析的结果驱动给定的回调。

   //System.out.println(getParagraphText());

   Vector link = element;

   for (int i = 0; i  link.size(); i++) {

    System.out.println("----haha-----");

    System.out.println(link.get(i));

   }

  } catch (Exception e) {

   e.printStackTrace();

  }

 }

 public static void main(String args[]) {

  try {

   String filename = "D://blogbaby.htm";

   BufferedReader brd = new BufferedReader(new FileReader(filename));

   char[] str = new char[50000];

   brd.read(str);

   String sHtml = new String(str);

   startParse(sHtml);

  } catch (Exception e) {

   e.printStackTrace();

  }

 }

}

JAVA解析html

吧源文件找到,去掉html的符号就可以啦。给你看一段我写的,写的不好,还得改呢(*^__^*) 嘻嘻……:

public String HtmlToTextGb2312(String inputString)

{

String htmlStr = inputString; //含html标签的字符串

String textStr ="";

Pattern p_script;

Matcher m_script;

Pattern p_style;

Matcher m_style;

Pattern p_html;

Matcher m_html;

Pattern p_houhtml;

Matcher m_houhtml;

Pattern p_spe;

Matcher m_spe;

Pattern p_blank;

Matcher m_blank;

Pattern p_table;

Matcher m_table;

Pattern p_enter;

Matcher m_enter;

try {

String regEx_script = "[\\s]*?script[^]*?[\\s\\S]*?[\\s]*?\\/[\\s]*?script[\\s]*?";

//定义script的正则表达式.

String regEx_style = "[\\s]*?style[^]*?[\\s\\S]*?[\\s]*?\\/[\\s]*?style[\\s]*?";

//定义style的正则表达式.

String regEx_html = "[^]+";

//定义HTML标签的正则表达式

String regEx_houhtml = "/[^]+";

//定义HTML标签的正则表达式

String regEx_spe="\\[^;]+;";

//定义特殊符号的正则表达式

String regEx_blank=" +";

//定义多个空格的正则表达式

String regEx_table="\t+";

//定义多个制表符的正则表达式

String regEx_enter="\n+";

//定义多个回车的正则表达式

p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);

m_script = p_script.matcher(htmlStr);

htmlStr = m_script.replaceAll(""); //过滤script标签

p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);

m_style = p_style.matcher(htmlStr);

htmlStr = m_style.replaceAll(""); //过滤style标签

p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);

m_html = p_html.matcher(htmlStr);

htmlStr = m_html.replaceAll(""); //过滤html标签

p_houhtml = Pattern.compile(regEx_houhtml,Pattern.CASE_INSENSITIVE);

m_houhtml = p_houhtml.matcher(htmlStr);

htmlStr = m_houhtml.replaceAll(""); //过滤html标签

p_spe = Pattern.compile(regEx_spe,Pattern.CASE_INSENSITIVE);

m_spe = p_spe.matcher(htmlStr);

htmlStr = m_spe.replaceAll(""); //过滤特殊符号

p_blank = Pattern.compile(regEx_blank,Pattern.CASE_INSENSITIVE);

m_blank = p_blank.matcher(htmlStr);

htmlStr = m_blank.replaceAll(" "); //过滤过多的空格

p_table = Pattern.compile(regEx_table,Pattern.CASE_INSENSITIVE);

m_table = p_table.matcher(htmlStr);

htmlStr = m_table.replaceAll(" "); //过滤过多的制表符

p_enter = Pattern.compile(regEx_enter,Pattern.CASE_INSENSITIVE);

m_enter = p_enter.matcher(htmlStr);

htmlStr = m_enter.replaceAll(" "); //过滤过多的制表符

textStr = htmlStr;

}catch(Exception e)

{

System.err.println("Html2Text: " + e.getMessage());

}

return textStr;//返回文本字符串

}

java程序怎么读取html网页?

步骤:

一、使用java.net包下的URL类,可以将一个网页(链接)封装成一个URL对象。

二、URL对象有一个openStream()方法,使用该方法可以获取该网页的输入流,我们可以通过读取输入流的方式获得网页的内容,并通过输出流写入HTML文件中。

补充:

步骤:

1.通过URL对象的openStream()方法获得网页的字节输入流 。

2.为字节输入流加缓冲 。

3. 创建字节输出流对象 。

4. 为字节输出流加缓冲 。

5. 读取数据,并写入HTML文件 。

java怎样读取html文件

java可以使用jsoup、htmlparser等工具进行html的读取和解析,以下是详细说明:

1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下:

从一个URL,文件或字符串中解析HTML;

使用DOM或CSS选择器来查找、取出数据;

可操作HTML元素、属性、文本;

示例代码:

Document doc = Jsoup.parse(input, "UTF-8", "");

Element content = doc.getElementById("content");

Elements links = content.getElementsByTag("a");

for (Element link : links) {

String linkHref = link.attr("href");

String linkText = link.text();

}

关于java解码html和Java解码Unicode的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。