「java提取网址加标签」java获取标签的内容

admin 2022-11-23 23:31:08 2110

本篇文章给大家谈谈java提取网址加标签，以及java获取标签的内容对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、java提取html标签信息里面的内容并排好序
2、用java获取网页标签
3、如何使用java的正则表达式提取html标签
4、java语言获取网页标签中的内容

java提取html标签信息里面的内容并排好序

如果懂一点Java知识就知道一共需要以下几个部分：

1.首先使用xml的一个dom解析获取到这个html后

2. 通过获取所有的A标签的Element

3.然后就可以根据这个Element获取到text信息了。

4.通过"java"或者空格作为分隔符使用split方法就可以区分出你的“提取出来的结果”和“百分比

”。

5.最后排序。

用java获取网页标签

去看一下jsoup.jar和它的用法，用这个来获取网页内的指定标签还是和方便的

如何使用java的正则表达式提取html标签

//我随便写了一个工具类，getRegexData就是那个方法，你可以根据你的需求稍加改动即可因为我使用的

//URL 而不是HttpClient，所以数据是全部获取过来了，你自己改改吧！不懂再问我

package com.wdy.util;

import java.io.IOException;

import java.io.InputStream;

import java.net.URL;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

* 工具类

* @author WDY

public class Tool {

public static void main(String[] args) {

System.out.println(getRegexData("img[ ]*src.*?jpg\"", "img src=\"img1.jpg\"img src=\"img2.jpg\""));

try {

URL url=new URL("");

String stringData=getStringFromInputStream(url.openStream());

System.out.println(stringData+"----------------------------------------");

System.out.println();

System.out.println(getRegexData("http://.{6,70}?(png|jpg)", stringData));

} catch (IOException e) {

e.printStackTrace();

}

/**

* 给一个正则表达式，和数据，将正则匹配到的数据全数取出来

* @param regex

* @param data

* @return ListString

public static ListString getRegexData(String regex,String data){

Pattern pattern=Pattern.compile(regex);

Matcher matcher=pattern.matcher(data);

ListString resultList=new ArrayListString();

int index=0;//搜索的位置

String temp="";

/* 从指定位置查找，如果找到了，就继续执行下面的代码 */

while(matcher.find(index)){

temp=matcher.group();//将匹配到的数据取出来放到集合中去

resultList.add(temp);

index+=temp.length();//将查找位置放到此时找到的数据后面

System.out.println(index);

}

return resultList;

}

/**

* 将输入流装成字符串

* @param is

* @return

public static String getStringFromInputStream(InputStream is)throws IOException{

StringBuilder sbl=new StringBuilder();

byte[] buff=new byte[1024*8];

int len;

int i=0;

while((len=is.read(buff))!=-1){

sbl.append(new String(buff,0,len,"utf-8"));

System.out.println(i++);

}

System.out.println(sbl.length());

return sbl.toString();

}

java语言获取网页标签中的内容

新浪的那个天气的值是通过js动态加载的，原始html页面是div id="SI_Weather_Wrap" class="now-wea-wrap clearfix"/div 。

而jsoup只是对html进行解析，所以是找不到js动态生成的哪些信息的。

关于java提取网址加标签和java获取标签的内容的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：java提取网址加标签