「java解析html标签」html解析规则
本篇文章给大家谈谈java解析html标签,以及html解析规则对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
- 1、java如何解析html文档
- 2、java解析html是jsoup还是htmlparse还是其他的什么
- 3、java怎样读取html文件
- 4、java提取html标签信息里面的内容并排好序
- 5、如何使用java的正则表达式提取html标签
java如何解析html文档
import java.io.*;
import java.util.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
import javax.swing.text.html.HTMLEditorKit.ParserCallback;
public class Parser extends ParserCallback { //继承ParserCallback,解析结果驱动这些回调方法
protected String base;
protected boolean isImg = false;
protected boolean isParagraph = false;
protected static VectorString element = new VectorString();
protected static String paragraphText = new String();
public Parser() {
}
public static String getParagraphText() {
return paragraphText;
}
public void handleComment(char[] data, int pos) {
}
public void handleEndTag(HTML.Tag t, int pos) {
if (t == HTML.Tag.P) {
if (isParagraph) {
isParagraph = false;
}
} else if (t == HTML.Tag.IMG) {
if (isImg) {
isImg = false;
}
}
}
public void handleError(String errorMsg, int pos) {
}
public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
handleStartTag(t, a, pos);
}
public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
if (t == HTML.Tag.P) {
isParagraph = true;
} else if ((t == HTML.Tag.IMG)) {
String src = (String) a.getAttribute(HTML.Attribute.SRC);
if (src != null) {
element.addElement(src);
isImg = true;
}
}
}
public void handleText(char[] data, int pos) {
if (isParagraph) {
String tempParagraphText = new String(data);
if (paragraphText != null) {
element.addElement(tempParagraphText);
;
}
}
}
private static void startParse(String sHtml) {
try {
ParserDelegator ps = new ParserDelegator();//负责每次在调用其 parse 方法时启动一个新的 DocumentParser
HTMLEditorKit.ParserCallback parser = new Parser();//解析结果驱动这些回调方法。
ps.parse(new StringReader(sHtml), parser, true);//解析给定的流并通过解析的结果驱动给定的回调。
//System.out.println(getParagraphText());
Vector link = element;
for (int i = 0; i link.size(); i++) {
System.out.println("----haha-----");
System.out.println(link.get(i));
}
} catch (Exception e) {
e.printStackTrace();
}
}
public static void main(String args[]) {
try {
String filename = "D://blogbaby.htm";
BufferedReader brd = new BufferedReader(new FileReader(filename));
char[] str = new char[50000];
brd.read(str);
String sHtml = new String(str);
startParse(sHtml);
} catch (Exception e) {
e.printStackTrace();
}
}
}
java解析html是jsoup还是htmlparse还是其他的什么
用jsoup解析html或者htmlparse,不过比较难用,jsoup是jquery语法比较方便。
java怎样读取html文件
java可以使用jsoup、htmlparser等工具进行html的读取和解析,以下是详细说明:
1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。
jsoup的主要功能如下:
从一个URL,文件或字符串中解析HTML;
使用DOM或CSS选择器来查找、取出数据;
可操作HTML元素、属性、文本;
示例代码:
Document doc = Jsoup.parse(input, "UTF-8", "");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
java提取html标签信息里面的内容并排好序
如果懂一点Java知识就知道一共需要以下几个部分:
1.首先使用xml的一个dom解析获取到这个html后
2. 通过获取所有的A标签的Element
3.然后就可以根据这个Element获取到text信息了。
4.通过"java"或者空格作为分隔符使用split方法就可以区分出你的“提取出来的结果”和“百分比
”。
5.最后排序。
如何使用java的正则表达式提取html标签
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Test {
public static void main(String args[]) {
String html = "titleABCD/titlegsdggastitle/titlejklltitle005/title";
// 简单示例,相当于String html=getHtml(String urlString);
List resultList = getContext(html);
for (Iterator iterator = resultList.iterator(); iterator.hasNext();) {
String context = (String) iterator.next();
System.out.println(context);
}
}
/**
* 提取"titleXXXX/title"中的文字XXXX
* @param html 要解析的html文档内容
* @return 解析结果,可以多次匹配,每次匹配的结果按文档中出现的先后顺序添加进结果List
*/
public static List getContext(String html) {
List resultList = new ArrayList();
Pattern p = Pattern.compile("title([^/title]*)");//匹配title开头,/title结尾的文档
Matcher m = p.matcher(html );//开始编译
while (m.find()) {
resultList.add(m.group(1));//获取被匹配的部分
}
return resultList;
}
}
java解析html标签的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于html解析规则、java解析html标签的信息别忘了在本站进行查找喔。
发布于:2022-12-07,除非注明,否则均为
原创文章,转载请注明出处。