「解析网页java」解析网页的方法
今天给各位分享解析网页java的知识,其中也会对解析网页的方法进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
- 1、java程序怎么读取html网页?
- 2、JAVA解析网页问题
- 3、Java语言编写提取网页信息!求高手指导!
- 4、java中网页解析的问题:过滤器的的使用(不太会用)
- 5、java中如何解析页面传入的url
- 6、网络爬虫解析网页怎样用java代码实现
java程序怎么读取html网页?
步骤:
一、使用java.net包下的URL类,可以将一个网页(链接)封装成一个URL对象。
二、URL对象有一个openStream()方法,使用该方法可以获取该网页的输入流,我们可以通过读取输入流的方式获得网页的内容,并通过输出流写入HTML文件中。
补充:
步骤:
1.通过URL对象的openStream()方法获得网页的字节输入流 。
2.为字节输入流加缓冲 。
3. 创建字节输出流对象 。
4. 为字节输出流加缓冲 。
5. 读取数据,并写入HTML文件 。
JAVA解析网页问题
这些数据应该是存在数据库中,当下拉框选择“客场”的时候异步到数据库中取出来的吧。源码中不能获取吧
Java语言编写提取网页信息!求高手指导!
JSoup就是很好的第三方解析网页的工具
Document doc1 = Jsoup.connect("地址").get();//参数是地址
Document doc2 = Jsoup.parse(String html);//参数是网页字符串
//然后就是利用JSoup解析网页
优势:爬取网页快速. 解析网页方便
强烈推荐~
java中网页解析的问题:过滤器的的使用(不太会用)
试试把多个HasAttributeFilter先用一个AndFilter套起来呢?
NodeFilter Filter = new AndFilter((new TagNameFilter("a"),new AndFilter(new HasAttributeFilter("id", "thread_subject"),new HasAttributeFilter("class
", "s xst"));
java中如何解析页面传入的url
public class CRequest {
/**
* 解析出url请求的路径,包括页面
* @param strURL url地址
* @return url路径
*/
public static String UrlPage(String strURL)
{
String strPage=null;
String[] arrSplit=null;
strURL=strURL.trim().toLowerCase();
arrSplit=strURL.split("[?]");
if(strURL.length()0)
{
if(arrSplit.length1)
{
if(arrSplit[0]!=null)
{
strPage=arrSplit[0];
}
}
}
return strPage;
}
/**
* 去掉url中的路径,留下请求参数部分
* @param strURL url地址
* @return url请求参数部分
*/
private static String TruncateUrlPage(String strURL)
{
String strAllParam=null;
String[] arrSplit=null;
strURL=strURL.trim().toLowerCase();
arrSplit=strURL.split("[?]");
if(strURL.length()1)
{
if(arrSplit.length1)
{
if(arrSplit[1]!=null)
{
strAllParam=arrSplit[1];
}
}
}
return strAllParam;
}
/**
* 解析出url参数中的键值对
* 如 "index.jsp?Action=delid=123",解析出Action:del,id:123存入map中
* @param URL url地址
* @return url请求参数部分
*/
public static MapString, String URLRequest(String URL)
{
MapString, String mapRequest = new HashMapString, String();
String[] arrSplit=null;
String strUrlParam=TruncateUrlPage(URL);
if(strUrlParam==null)
{
return mapRequest;
}
//每个键值为一组
arrSplit=strUrlParam.split("[]");
for(String strSplit:arrSplit)
{
String[] arrSplitEqual=null;
arrSplitEqual= strSplit.split("[=]");
//解析出键值
if(arrSplitEqual.length1)
{
//正确解析
mapRequest.put(arrSplitEqual[0], arrSplitEqual[1]);
}
else
{
if(arrSplitEqual[0]!="")
{
//只有参数没有值,不加入
mapRequest.put(arrSplitEqual[0], "");
}
}
}
return mapRequest;
}
}
public class TestCRequest {
/**用于测试CRequest类
* @param args
*/
public static void main(String[] args) {
// 请求url
String str = "index.jsp?Action=delid=123sort=";
//url页面路径
System.out.println(CRequest.UrlPage(str));
//url参数键值对
String strRequestKeyAndValues="";
MapString, String mapRequest = CRequest.URLRequest(str);
for(String strRequestKey: mapRequest.keySet()) {
String strRequestValue=mapRequest.get(strRequestKey);
strRequestKeyAndValues+="key:"+strRequestKey+",Value:"+strRequestValue+";";
}
System.out.println(strRequestKeyAndValues);
//获取无效键时,输出null
System.out.println(mapRequest.get("page"));
}
}
网络爬虫解析网页怎样用java代码实现
爬虫的原理其实就是获取到网页内容,然后对其进行解析。只不过获取的网页、解析内容的方式多种多样而已。
你可以简单的使用httpclient发送get/post请求,获取结果,然后使用截取字符串、正则表达式获取想要的内容。
或者使用像Jsoup/crawler4j等这些已经封装好的类库,更方便的爬取信息。
解析网页java的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于解析网页的方法、解析网页java的信息别忘了在本站进行查找喔。
发布于:2022-11-27,除非注明,否则均为
原创文章,转载请注明出处。