「html解析java」HTML解析器有哪些

admin 2022-11-22 07:54:08 3833

本篇文章给大家谈谈html解析java，以及HTML解析器有哪些对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、java如何解析html文档
2、Java解析html问题
3、java怎么把html中的数据解析出来
4、java解析html是jsoup还是htmlparse还是其他的什么
5、使用java怎么读取html文件内容

java如何解析html文档

import java.io.*;

import java.util.*;

import javax.swing.text.*;

import javax.swing.text.html.*;

import javax.swing.text.html.parser.*;

import javax.swing.text.html.HTMLEditorKit.ParserCallback;

public class Parser extends ParserCallback { //继承ParserCallback，解析结果驱动这些回调方法

protected String base;

protected boolean isImg = false;

protected boolean isParagraph = false;

protected static VectorString element = new VectorString();

protected static String paragraphText = new String();

public Parser() {

}

public static String getParagraphText() {

return paragraphText;

}

public void handleComment(char[] data, int pos) {

}

public void handleEndTag(HTML.Tag t, int pos) {

if (t == HTML.Tag.P) {

if (isParagraph) {

isParagraph = false;

}

} else if (t == HTML.Tag.IMG) {

if (isImg) {

isImg = false;

}

public void handleError(String errorMsg, int pos) {

}

public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {

handleStartTag(t, a, pos);

}

public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {

if (t == HTML.Tag.P) {

isParagraph = true;

} else if ((t == HTML.Tag.IMG)) {

String src = (String) a.getAttribute(HTML.Attribute.SRC);

if (src != null) {

element.addElement(src);

isImg = true;

}

public void handleText(char[] data, int pos) {

if (isParagraph) {

String tempParagraphText = new String(data);

if (paragraphText != null) {

element.addElement(tempParagraphText);

;

}

private static void startParse(String sHtml) {

try {

ParserDelegator ps = new ParserDelegator();//负责每次在调用其 parse 方法时启动一个新的 DocumentParser

HTMLEditorKit.ParserCallback parser = new Parser();//解析结果驱动这些回调方法。

ps.parse(new StringReader(sHtml), parser, true);//解析给定的流并通过解析的结果驱动给定的回调。

//System.out.println(getParagraphText());

Vector link = element;

for (int i = 0; i link.size(); i++) {

System.out.println("----haha-----");

System.out.println(link.get(i));

}

} catch (Exception e) {

e.printStackTrace();

}

public static void main(String args[]) {

try {

String filename = "D://blogbaby.htm";

BufferedReader brd = new BufferedReader(new FileReader(filename));

char[] str = new char[50000];

brd.read(str);

String sHtml = new String(str);

startParse(sHtml);

} catch (Exception e) {

e.printStackTrace();

}

Java解析html问题

感觉上你这里应该是有点问题的：

一、你在while判断的时候会让reader往后读一行的数据；然后在里面执行的时候又走一行；这就可能出现原本你的while里面判断的时候有值，但是在里面执行的时候已经没有值了。

二、如果你的文件里面有一行是空的，不满足while的条件，是不是程序到这里就被中断了呢？

其他的问题也没有发现什么。你看一下吧。

java怎么把html中的数据解析出来

给你一个思路，可能不是最好的，但可以解决这个问题，把这段html当成xml解析，然后以键值对的形式放到map里去，标签就作为键，标签里的内容就作为值，多个相同的标签名称比如span，可以这样命名当作键span、 span2、 span3、 span4。比如你要取时间的值就直接map.get("span2")就可以拿到了。

java解析html是jsoup还是htmlparse还是其他的什么

用jsoup解析html或者htmlparse，不过比较难用，jsoup是jquery语法比较方便。

使用java怎么读取html文件内容

java可以使用jsoup、htmlparser等工具进行html的读取和解析，以下是详细说明：

1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；

使用DOM或CSS选择器来查找、取出数据；

可操作HTML元素、属性、文本；

示例代码：

Document doc = Jsoup.parse(input, "UTF-8", "");

Element content = doc.getElementById("content");

Elements links = content.getElementsByTag("a");

for (Element link : links) {

String linkHref = link.attr("href");

String linkText = link.text();

}

html解析java的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于HTML解析器有哪些、html解析java的信息别忘了在本站进行查找喔。

标签：html解析java