「java提取网址加标签」java获取标签的内容
本篇文章给大家谈谈java提取网址加标签,以及java获取标签的内容对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
java提取html标签信息里面的内容并排好序
如果懂一点Java知识就知道一共需要以下几个部分:
1.首先使用xml的一个dom解析获取到这个html后
2. 通过获取所有的A标签的Element
3.然后就可以根据这个Element获取到text信息了。
4.通过"java"或者空格作为分隔符使用split方法就可以区分出你的“提取出来的结果”和“百分比
”。
5.最后排序。
用java获取网页标签
去看一下jsoup.jar和它的用法,用这个来获取网页内的指定标签还是和方便的
如何使用java的正则表达式提取html标签
//我随便写了一个工具类,getRegexData就是那个方法,你可以根据你的需求稍加改动即可因为我使用的
//URL 而不是HttpClient,所以数据是全部获取过来了,你自己改改吧!不懂再问我
package com.wdy.util;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* 工具类
* @author WDY
*
*/
public class Tool {
public static void main(String[] args) {
System.out.println(getRegexData("img[ ]*src.*?jpg\"", "img src=\"img1.jpg\"img src=\"img2.jpg\""));
try {
URL url=new URL("");
String stringData=getStringFromInputStream(url.openStream());
System.out.println(stringData+"----------------------------------------");
System.out.println();
System.out.println(getRegexData("http://.{6,70}?(png|jpg)", stringData));
} catch (IOException e) {
e.printStackTrace();
}
}
/**
* 给一个正则表达式,和数据,将正则匹配到的数据全数取出来
*
* @param regex
* @param data
* @return ListString
*/
public static ListString getRegexData(String regex,String data){
Pattern pattern=Pattern.compile(regex);
Matcher matcher=pattern.matcher(data);
ListString resultList=new ArrayListString();
int index=0;//搜索的位置
String temp="";
/* 从指定位置查找,如果找到了,就继续执行下面的代码 */
while(matcher.find(index)){
temp=matcher.group();//将匹配到的数据取出来放到集合中去
resultList.add(temp);
index+=temp.length();//将查找位置放到此时找到的数据后面
System.out.println(index);
}
return resultList;
}
/**
* 将输入流装成字符串
* @param is
* @return
*/
public static String getStringFromInputStream(InputStream is)throws IOException{
StringBuilder sbl=new StringBuilder();
byte[] buff=new byte[1024*8];
int len;
int i=0;
while((len=is.read(buff))!=-1){
sbl.append(new String(buff,0,len,"utf-8"));
System.out.println(i++);
}
System.out.println(sbl.length());
return sbl.toString();
}
}
java语言获取网页标签中的内容
新浪的那个天气的值是通过js动态加载的,原始html页面是div id="SI_Weather_Wrap" class="now-wea-wrap clearfix"/div 。
而jsoup只是对html进行解析,所以是找不到js动态生成的哪些信息的。
关于java提取网址加标签和java获取标签的内容的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
发布于:2022-11-23,除非注明,否则均为
原创文章,转载请注明出处。