「java获取网页信息」获取网页数据

admin 2022-12-09 14:33:08 1055

今天给各位分享java获取网页信息的知识，其中也会对获取网页数据进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、如何通过Java代码实现对网页数据进行指定抓取
2、java如何获取网页中的文字
3、如何用Java语言获得网页数据？
4、Java语言编写提取网页信息！求高手指导！
5、java网页获取

如何通过Java代码实现对网页数据进行指定抓取

通过Java代码实现对网页数据进行指定抓取方法步骤如下：

1在工程中导入Jsoup.jar包

2获取网址url指定HTML或者文档指定的body

3获取网页中超链接的标题和链接

4获取指定博客文章的内容

5获取网页中超链接的标题和链接的结果

java如何获取网页中的文字

package test;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.Authenticator;

import java.net.HttpURLConnection;

import java.net.PasswordAuthentication;

import java.net.URL;

import java.net.URLConnection;

import java.util.Properties;

public class URLTest {

// 一个public方法，返回字符串，错误则返回"error open url"

public static String getContent(String strUrl) {

try {

URL url = new URL(strUrl);

BufferedReader br = new BufferedReader(new InputStreamReader(url

.openStream()));

String s = "";

StringBuffer sb = new StringBuffer("");

while ((s = br.readLine()) != null) {

sb.append(s + "/r/n");

}

br.close();

return sb.toString();

} catch (Exception e) {

return "error open url:" + strUrl;

}

public static void initProxy(String host, int port, final String username,

final String password) {

Authenticator.setDefault(new Authenticator() {

protected PasswordAuthentication getPasswordAuthentication() {

return new PasswordAuthentication(username,

new String(password).toCharArray());

}

});

System.setProperty("http.proxyType", "4");

System.setProperty("http.proxyPort", Integer.toString(port));

System.setProperty("http.proxyHost", host);

System.setProperty("http.proxySet", "true");

}

public static void main(String[] args) throws IOException {

String url = "";

String proxy = "";

int port = 80;

String username = "username";

String password = "password";

String curLine = "";

String content = "";

URL server = new URL(url);

initProxy(proxy, port, username, password);

HttpURLConnection connection = (HttpURLConnection) server

.openConnection();

connection.connect();

InputStream is = connection.getInputStream();

BufferedReader reader = new BufferedReader(new

InputStreamReader(is));

while ((curLine = reader.readLine()) != null) {

content = content + curLine+ "/r/n";

}

System.out.println("content= " + content);

is.close();

System.out.println(getContent(url));

}

如何用Java语言获得网页数据？

你这个是不是A系统想了解B系统的页面信息？

如果是这样存在一个问题比较难解决，就是数据源问题，你A系统并不知道B系统的数据。

如果要获取招聘信息的公司名称，有几个思路

1、A系统做一个iframe，这个iframe里面嵌入你要访问的URL，然后你通过JS，获取这个iframe标签里面的所有内容，这样数据源就解决了

2、你可以做一个浏览器插件，这个插件的功能就是获取当前访问页面的所有字符数据，获取到数据后将数据发送到A系统

3、对网页进行截图，然后通过OCR软件获取图片中的文字，并将文字保存成文本，A系统读取这个文本信息，数据源问题也可以解决

以上上个只是我临时想到的，可能还可以运用JAVA的全文检索框架试试看，因为没有用过这个框架所以不知道是否能够实现

获取到数据源后，接下来就是业务处理了，业务处理就看具体业务进行处理就行了，技术方面就是一个文字处理的功能，技术好实现，业务比较复杂

Java语言编写提取网页信息！求高手指导！

JSoup就是很好的第三方解析网页的工具

Document doc1 = Jsoup.connect("地址").get();//参数是地址

Document doc2 = Jsoup.parse(String html);//参数是网页字符串

//然后就是利用JSoup解析网页

优势:爬取网页快速. 解析网页方便

强烈推荐~

java网页获取

StringBuffer用之前要初始化，eg：StringBuffer sb = new StringBuffer();

StringBuffer document=new StringBuffer();

String line; // 读入网页信息

while ((line = reader.readLine()) != null){

document.append(line+"\n");

}

String title = document.toString();

title = title.substring(title.indexOf("title") + 7,

title.indexOf("/title"));

System.out.println(title);

关于java获取网页信息和获取网页数据的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：java获取网页信息