「解析网页java」解析网页的方法

admin 2022-11-27 12:54:10 378

今天给各位分享解析网页java的知识，其中也会对解析网页的方法进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、java程序怎么读取html网页？
2、JAVA解析网页问题
3、Java语言编写提取网页信息！求高手指导！
4、java中网页解析的问题：过滤器的的使用（不太会用）
5、java中如何解析页面传入的url
6、网络爬虫解析网页怎样用java代码实现

java程序怎么读取html网页？

步骤:

一、使用java.net包下的URL类，可以将一个网页（链接）封装成一个URL对象。

二、URL对象有一个openStream()方法，使用该方法可以获取该网页的输入流，我们可以通过读取输入流的方式获得网页的内容，并通过输出流写入HTML文件中。

补充:

步骤：

1.通过URL对象的openStream()方法获得网页的字节输入流。

2.为字节输入流加缓冲。

3. 创建字节输出流对象。

4. 为字节输出流加缓冲。

5. 读取数据，并写入HTML文件。

JAVA解析网页问题

这些数据应该是存在数据库中，当下拉框选择“客场”的时候异步到数据库中取出来的吧。源码中不能获取吧

Java语言编写提取网页信息！求高手指导！

JSoup就是很好的第三方解析网页的工具

Document doc1 = Jsoup.connect("地址").get();//参数是地址

Document doc2 = Jsoup.parse(String html);//参数是网页字符串

//然后就是利用JSoup解析网页

优势:爬取网页快速. 解析网页方便

强烈推荐~

java中网页解析的问题：过滤器的的使用（不太会用）

试试把多个HasAttributeFilter先用一个AndFilter套起来呢？

NodeFilter Filter = new AndFilter((new TagNameFilter("a"),new AndFilter(new HasAttributeFilter("id", "thread_subject"),new HasAttributeFilter("class

", "s xst"))；

java中如何解析页面传入的url

public class CRequest {

/**

* 解析出url请求的路径，包括页面

* @param strURL url地址

* @return url路径

public static String UrlPage(String strURL)

{

String strPage=null;

String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");

if(strURL.length()0)

{

if(arrSplit.length1)

{

if(arrSplit[0]!=null)

{

strPage=arrSplit[0];

}

return strPage;

}

/**

* 去掉url中的路径，留下请求参数部分

* @param strURL url地址

* @return url请求参数部分

private static String TruncateUrlPage(String strURL)

{

String strAllParam=null;

String[] arrSplit=null;

strURL=strURL.trim().toLowerCase();

arrSplit=strURL.split("[?]");

if(strURL.length()1)

{

if(arrSplit.length1)

{

if(arrSplit[1]!=null)

{

strAllParam=arrSplit[1];

}

return strAllParam;

}

/**

* 解析出url参数中的键值对

* 如 "index.jsp?Action=delid=123"，解析出Action:del,id:123存入map中

* @param URL url地址

* @return url请求参数部分

public static MapString, String URLRequest(String URL)

{

MapString, String mapRequest = new HashMapString, String();

String[] arrSplit=null;

String strUrlParam=TruncateUrlPage(URL);

if(strUrlParam==null)

{

return mapRequest;

}

//每个键值为一组

arrSplit=strUrlParam.split("[]");

for(String strSplit:arrSplit)

{

String[] arrSplitEqual=null;

arrSplitEqual= strSplit.split("[=]");

//解析出键值

if(arrSplitEqual.length1)

{

//正确解析

mapRequest.put(arrSplitEqual[0], arrSplitEqual[1]);

}

else

{

if(arrSplitEqual[0]!="")

{

//只有参数没有值，不加入

mapRequest.put(arrSplitEqual[0], "");

}

return mapRequest;

}

public class TestCRequest {

/**用于测试CRequest类

* @param args

public static void main(String[] args) {

// 请求url

String str = "index.jsp?Action=delid=123sort=";

//url页面路径

System.out.println(CRequest.UrlPage(str));

//url参数键值对

String strRequestKeyAndValues="";

MapString, String mapRequest = CRequest.URLRequest(str);

for(String strRequestKey: mapRequest.keySet()) {

String strRequestValue=mapRequest.get(strRequestKey);

strRequestKeyAndValues+="key:"+strRequestKey+",Value:"+strRequestValue+";";

}

System.out.println(strRequestKeyAndValues);

//获取无效键时，输出null

System.out.println(mapRequest.get("page"));

}

网络爬虫解析网页怎样用java代码实现

爬虫的原理其实就是获取到网页内容，然后对其进行解析。只不过获取的网页、解析内容的方式多种多样而已。

你可以简单的使用httpclient发送get/post请求，获取结果，然后使用截取字符串、正则表达式获取想要的内容。

或者使用像Jsoup/crawler4j等这些已经封装好的类库，更方便的爬取信息。

解析网页java的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于解析网页的方法、解析网页java的信息别忘了在本站进行查找喔。

标签：解析网页java