「java怎么获取网页文本」java怎么获取网页文本文档

admin 2022-11-25 04:07:07 1809

今天给各位分享java怎么获取网页文本的知识，其中也会对java怎么获取网页文本文档进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、如何在java代码中获取页面内容
2、java如何获取网页中的文字
3、如何提取网页里的文本？
4、java如何获取网页中的文字比如这个网页 http://i.itpk.cn/api.php?question=%22+UR
5、使用java怎么读取html文件内容
6、如何使用Java抓取网页上指定部分的内容

如何在java代码中获取页面内容

import java.io.BufferedReader;

import java.io.DataInputStream;

import java.io.DataOutputStream;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;public class Test

{

public static void main(String[] args) throws Exception

{

PrintWriter pw = new PrintWriter("d:\\test.xml");//d:\\test.xml是你的xml文件路径

pw.println(getHtmlConentByUrl(" "));// 是你要访问的页面

pw.flush();

pw.close();

}

public static String getHtmlConentByUrl(

String ssourl) {

try {

URL url = new URL(ssourl);

HttpURLConnection con = (HttpURLConnection) url.openConnection();

con.setInstanceFollowRedirects(false);

con.setUseCaches(false);

con.setAllowUserInteraction(false);

con.connect(); StringBuffer sb = new StringBuffer();

String line = "";

BufferedReader URLinput = new BufferedReader(new InputStreamReader(con.getInputStream()));

while ((line = URLinput.readLine()) != null) {

sb.append(line);

}

con.disconnect();

return sb.toString().toLowerCase();

} catch (Exception e) {

return null;

}

}}

在获取到的页面内容是字符串，这里解析有两个办法，一是通过dom4j把字符串转化为dom进行解析，这样最好，但是对方的页面未必规范，符合dom结构。二是通过解析字符串过滤你想要的内容，该方法比较繁琐，需要一些技巧。我有的就是二；

java如何获取网页中的文字

package test;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.Authenticator;

import java.net.HttpURLConnection;

import java.net.PasswordAuthentication;

import java.net.URL;

import java.net.URLConnection;

import java.util.Properties;

public class URLTest {

// 一个public方法，返回字符串，错误则返回"error open url"

public static String getContent(String strUrl) {

try {

URL url = new URL(strUrl);

BufferedReader br = new BufferedReader(new InputStreamReader(url

.openStream()));

String s = "";

StringBuffer sb = new StringBuffer("");

while ((s = br.readLine()) != null) {

sb.append(s + "/r/n");

}

br.close();

return sb.toString();

} catch (Exception e) {

return "error open url:" + strUrl;

}

public static void initProxy(String host, int port, final String username,

final String password) {

Authenticator.setDefault(new Authenticator() {

protected PasswordAuthentication getPasswordAuthentication() {

return new PasswordAuthentication(username,

new String(password).toCharArray());

}

});

System.setProperty("http.proxyType", "4");

System.setProperty("http.proxyPort", Integer.toString(port));

System.setProperty("http.proxyHost", host);

System.setProperty("http.proxySet", "true");

}

public static void main(String[] args) throws IOException {

String url = "";

String proxy = "";

int port = 80;

String username = "username";

String password = "password";

String curLine = "";

String content = "";

URL server = new URL(url);

initProxy(proxy, port, username, password);

HttpURLConnection connection = (HttpURLConnection) server

.openConnection();

connection.connect();

InputStream is = connection.getInputStream();

BufferedReader reader = new BufferedReader(new

InputStreamReader(is));

while ((curLine = reader.readLine()) != null) {

content = content + curLine+ "/r/n";

}

System.out.println("content= " + content);

is.close();

System.out.println(getContent(url));

}

如何提取网页里的文本？

1、首先，我们打开浏览器，找到需要复制的文字。

2、右键点击网页内的空白处，如图所示，弹出菜单中选择“审查元素”。

3、此时，页面就会显示所有组成元素，我们只要选中我们需要复制的段落，右键点击，“copy element”(复制元素)就可以了。

4、打开记事本或者Word，点击粘贴，文字复制下来的效果如下图所示。

java如何获取网页中的文字比如这个网页 http://i.itpk.cn/api.php?question=%22+UR

import java.io.BufferedReader;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.URI;

import java.net.URLConnection;

public class TestGet {

public static void main(String[] args) throws Exception {

URI uri =

URI.create(";api_key=4f7b03d873715cc6908dc31866bfbc3dapi_secret=24bmj27d9hd3chl=qk0001");

URLConnection connection = uri.toURL().openConnection();

InputStream input = connection.getInputStream();

BufferedReader br = new BufferedReader(new InputStreamReader(input, "utf-8"));

String line;

while ((line = br.readLine()) != null) {

System.out.println(line);

}

input.close();

}

使用java怎么读取html文件内容

java可以使用jsoup、htmlparser等工具进行html的读取和解析，以下是详细说明：

1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；

使用DOM或CSS选择器来查找、取出数据；

可操作HTML元素、属性、文本；

示例代码：

Document doc = Jsoup.parse(input, "UTF-8", "");

Element content = doc.getElementById("content");

Elements links = content.getElementsByTag("a");

for (Element link : links) {

String linkHref = link.attr("href");

String linkText = link.text();

}

如何使用Java抓取网页上指定部分的内容

1. 你可以选择用Java代码来找到整个网页的html代码，如下

(注意在处理网页方面的内容时，需要导入htmlparser包来支持)

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.HtmlPage;

import org.htmlparser.Parser;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.util.NodeList;

public class htmlmover {

public static void main(String[] args){

NodeList rt= getNodeList("");

System.out.println(rt.toHtml());

}

public static NodeList getNodeList(String url){

Parser parser = null;

HtmlPage visitor = null;

try {

parser = new Parser(url);

parser.setEncoding("GBK");

visitor = new HtmlPage(parser);

parser.visitAllNodesWith(visitor);

} catch (ParserException e) {

e.printStackTrace();

}

NodeList nodeList = visitor.getBody();

return nodeList;

}

以上代码，public static NodeList getNodeList(String url) 为主体

传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)

这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了

注意： parser.setEncoding("GBK"); 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12 （刚开始没发现这个方法，于是傻乎乎地找上面的代码）

分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点

!--中行牌价开始--

div id="sw01_con1"

table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab"

thead

th width="85" align="center" class="th_l"交易币种/th

th width="80" align="center"交易单位/th

th width="130" align="center"现价(人民币)/th

th width="80" align="center"卖出价/th

th width="100" align="center"现汇买入价/th

th width="95" align="center"现钞买入价/th

/tr

/thead

tbody

tr align="center"

td 英镑/td

td100/td

td992.7/td

td1001.24/td

td993.26/td

td class="no"962.6/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 港币/td

td100/td

td81.54/td

td82.13/td

td81.81/td

td class="no"81.16/td

/tr

tr align="center"

td 美元/td

td100/td

td635.49/td

td639.35/td

td636.8/td

td class="no"631.69/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 瑞士法郎/td

td100/td

td710.89/td

td707.78/td

td702.14/td

td class="no"680.46/td

/tr

tr align="center"

td 新加坡元/td

td100/td

td492.45/td

td490.17/td

td486.27/td

td class="no"471.25/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 瑞典克朗/td

td100/td

td93.66/td

td93.79/td

td93.04/td

td class="no"90.17/td

/tr

tr align="center"

td 丹麦克朗/td

td100/td

td116.43/td

td115.59/td

td114.67/td

td class="no"111.13/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 挪威克朗/td

td100/td

td110.01/td

td109.6/td

td108.73/td

td class="no"105.37/td

/tr

!--{2011-10-01 23:16:00}--

/tbody

/table

/div

!--中行牌价结束--

大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）

大家想截取这些节点中的数据

以下代码仍需导入htmlparser Java支持包

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

public class Currencyrate {

public static void main(String[] args){

String url="";

ArrayListString rt= getNodeList(url);

for (int i = 0; i rt.size(); i++){

System.out.println(rt.get(i));

}

public static ArrayListString getNodeList(String url){

final ArrayListString result=new ArrayListString();

Parser parser = null;

NodeList nodeList=null;

try {

parser = new Parser(url);

parser.setEncoding("GBK");

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

Node need=node;

if(getStringsByRegex(node.getText())){

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

return true;

}

return false;

}

);

}catch (ParserException e) {

e.printStackTrace();

}

return result;

}

public static boolean getStringsByRegex(String txt) {

String regex="td class=\"no\"";

Pattern p = Pattern.compile(regex);

Matcher m = p.matcher(txt);

if (m.find()){

return true;

}

return false;

}

废话不多说，

public static ArrayListString getNodeList(String url) 主要方法

parser.setEncoding("GBK"); 需要注意，代码编码格式

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

}

｝

);

nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法

在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个

accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。

代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor); 就是获取所有节点

所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true。

于是

public boolean accept(Node node){

Node need=node;

if(getStringsByRegex(node.getText())){

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

return true;

}

return false;

}

Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持啊！

String regex="td class=\"no\"";

Pattern p = Pattern.compile(regex);

Matcher m = p.matcher(txt);

if (m.find()){

return true;

}

return false;

}

大家可以发现我们索要的每一段都是

tr align="center"

td 英镑/td

td100/td

td992.7/td

td1001.24/td

td993.26/td

td class="no"962.6/td

/tr

所以只要找到td class="no"这个节点就行了，我们用正则表达式去比较

String regex="td class=\"no\""; 这个是比较标准（正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示成\“ ）

变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7，100，英镑分别被add进result这个ArrayListString中去，返回，这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序，main()函数获得ArrayListString，就可以显示到我们所需要的Java widget上去了

关于java怎么获取网页文本和java怎么获取网页文本文档的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

标签：java怎么获取网页文本

本文目录一览：

如何在java代码中获取页面内容

java如何获取网页中的文字

如何提取网页里的文本？

java如何获取网页中的文字 比如这个网页 http://i.itpk.cn/api.php?question=%22+UR

使用java怎么读取html文件内容

如何使用Java抓取网页上指定部分的内容

java如何获取网页中的文字比如这个网页 http://i.itpk.cn/api.php?question=%22+UR