「java截取网页」Java 截取

admin 2022-11-29 05:25:06 1573

今天给各位分享java截取网页的知识，其中也会对Java 截取进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、如何使用Java抓取网页上指定部分的内容
2、java截屏有哪几种方法
3、java 怎么实现网页截图
4、java怎样截取网页字符串的指定部分内容
5、请大家帮帮忙. 使用java爬虫得到网页以后怎么提取里面自己需要的内容呢？如果会代码请您写一下.谢谢您

如何使用Java抓取网页上指定部分的内容

1. 你可以选择用Java代码来找到整个网页的html代码，如下

(注意在处理网页方面的内容时，需要导入htmlparser包来支持)

import org.htmlparser.util.ParserException;

import org.htmlparser.visitors.HtmlPage;

import org.htmlparser.Parser;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.util.NodeList;

public class htmlmover {

public static void main(String[] args){

NodeList rt= getNodeList("");

System.out.println(rt.toHtml());

}

public static NodeList getNodeList(String url){

Parser parser = null;

HtmlPage visitor = null;

try {

parser = new Parser(url);

parser.setEncoding("GBK");

visitor = new HtmlPage(parser);

parser.visitAllNodesWith(visitor);

} catch (ParserException e) {

e.printStackTrace();

}

NodeList nodeList = visitor.getBody();

return nodeList;

}

以上代码，public static NodeList getNodeList(String url) 为主体

传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)

这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了

注意： parser.setEncoding("GBK"); 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12 （刚开始没发现这个方法，于是傻乎乎地找上面的代码）

分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点

!--中行牌价开始--

div id="sw01_con1"

table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab"

thead

th width="85" align="center" class="th_l"交易币种/th

th width="80" align="center"交易单位/th

th width="130" align="center"现价(人民币)/th

th width="80" align="center"卖出价/th

th width="100" align="center"现汇买入价/th

th width="95" align="center"现钞买入价/th

/tr

/thead

tbody

tr align="center"

td 英镑/td

td100/td

td992.7/td

td1001.24/td

td993.26/td

td class="no"962.6/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 港币/td

td100/td

td81.54/td

td82.13/td

td81.81/td

td class="no"81.16/td

/tr

tr align="center"

td 美元/td

td100/td

td635.49/td

td639.35/td

td636.8/td

td class="no"631.69/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 瑞士法郎/td

td100/td

td710.89/td

td707.78/td

td702.14/td

td class="no"680.46/td

/tr

tr align="center"

td 新加坡元/td

td100/td

td492.45/td

td490.17/td

td486.27/td

td class="no"471.25/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 瑞典克朗/td

td100/td

td93.66/td

td93.79/td

td93.04/td

td class="no"90.17/td

/tr

tr align="center"

td 丹麦克朗/td

td100/td

td116.43/td

td115.59/td

td114.67/td

td class="no"111.13/td

/tr

tr align="center" bgcolor="#f2f3f4"

td 挪威克朗/td

td100/td

td110.01/td

td109.6/td

td108.73/td

td class="no"105.37/td

/tr

!--{2011-10-01 23:16:00}--

/tbody

/table

/div

!--中行牌价结束--

大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）

大家想截取这些节点中的数据

以下代码仍需导入htmlparser Java支持包

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

public class Currencyrate {

public static void main(String[] args){

String url="";

ArrayListString rt= getNodeList(url);

for (int i = 0; i rt.size(); i++){

System.out.println(rt.get(i));

}

public static ArrayListString getNodeList(String url){

final ArrayListString result=new ArrayListString();

Parser parser = null;

NodeList nodeList=null;

try {

parser = new Parser(url);

parser.setEncoding("GBK");

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

Node need=node;

if(getStringsByRegex(node.getText())){

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

return true;

}

return false;

}

);

}catch (ParserException e) {

e.printStackTrace();

}

return result;

}

public static boolean getStringsByRegex(String txt) {

String regex="td class=\"no\"";

Pattern p = Pattern.compile(regex);

Matcher m = p.matcher(txt);

if (m.find()){

return true;

}

return false;

}

废话不多说，

public static ArrayListString getNodeList(String url) 主要方法

parser.setEncoding("GBK"); 需要注意，代码编码格式

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

}

｝

);

nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法

在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个

accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。

代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor); 就是获取所有节点

所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true。

于是

public boolean accept(Node node){

Node need=node;

if(getStringsByRegex(node.getText())){

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

return true;

}

return false;

}

Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持啊！

String regex="td class=\"no\"";

Pattern p = Pattern.compile(regex);

Matcher m = p.matcher(txt);

if (m.find()){

return true;

}

return false;

}

大家可以发现我们索要的每一段都是

tr align="center"

td 英镑/td

td100/td

td992.7/td

td1001.24/td

td993.26/td

td class="no"962.6/td

/tr

所以只要找到td class="no"这个节点就行了，我们用正则表达式去比较

String regex="td class=\"no\""; 这个是比较标准（正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示成\“ ）

变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是

for(int i=0;i6;i++){

result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();

}

每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7，100，英镑分别被add进result这个ArrayListString中去，返回，这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序，main()函数获得ArrayListString，就可以显示到我们所需要的Java widget上去了

java截屏有哪几种方法

前台方式

1. 利用html2canvas实现前台截屏

html2canvas项目的gitHub地址

html2canvas示例

html2canvas可以将HTML代码块进行截取，并生成快照形式的canvas，然后可以利用html5的下载功能提供图片的下载接口，供用户下载。

优点：前台技术，实现比较容易。

缺点：此项目使用了html5的技术，因此在对IE的兼容上，只可以在IE9+的版本上使用。

使用时，需要引用jQuery.js和html2canvas.js。（html2canvas.js可以在github上下载）

具体JavaScript代码如下:

var canvas = function () {

html2canvas($("#chart"), {

onrendered: function (canvas) {

$("#class11").html(canvas);//将id为“class11”部分的代码转换为canvas

var type = 'png';//图片类型为png

var imgData = canvas.toDataURL('png');//将图片转换为png类型的流

var _fixType = function (type) {

type = type.toLowerCase().replace(/jpg/i, 'jpeg'); var r = type.match(/png|jpeg|bmp|gif/)[0]; return 'image/' + r;

}; var saveFile = function (data, filename) {

var save_link = document.createElementNS('', 'a');

save_link.href = data;

save_link.download = filename; var event = document.createEvent('MouseEvents');

event.initMouseEvent('click', true, false, window, 0, 0, 0, 0, 0, false, false, false, false, 0, null);

save_link.dispatchEvent(event);

}; //下载时的文件名

var filename = 'baidufe_' + (new Date()).getTime() + '.' + type; // 下载文件

saveFile(imgData, filename);

}

});

后台方式（java）

1. 利用html2image实现

html2image的地址（google）

html2image是可以识别html标签并将html转换成图片的java项目。

优点：后台转换，故对浏览器的版本基本没有要求。

缺点：对样式的识别不是很好，转换出来的图片比较简单，基本没有可以兼容的样式。

使用方式：maven中引用如下依赖：

dependency

groupIdcom.github.xuwei-k/groupId

artifactIdhtml2image/artifactId

version0.1.0/version/dependency12345

2. 利用DJNativeSwing项目实现

纯java代码实现。使用DJNativeSwing这个项目，构建一个swing浏览器，打开网址，之后截取图片。（需要eclipse的swt库支持）

优点：纯java实现。

缺点：需要多线程的支持，只在控制台方式实现过（由于本人对于多线程的掌握较弱，目前没有在spring项目中实现这个方法，求大神指导~~）

3. 利用phantomJs实现

phantomJs的GitHub地址

phantomJs官网

phantom利用的是webKit内核，全面支持web而不需浏览器支持，快速，原生支持各种Web标准。

优点：速度快，使用简单。

缺点：需要在项目的服务器端引用exe文件进行截图，并发性能有待考证。

java 怎么实现网页截图

代码如下

[java]

span style="font-size:18px;"package com.util;

import java.awt.AWTException;

import java.awt.Desktop;

import java.awt.Dimension;

import java.awt.Graphics;

import java.awt.Image;

import java.awt.Rectangle;

import java.awt.Robot;

import java.awt.Toolkit;

import java.awt.event.KeyEvent;

import java.awt.image.BufferedImage;

import java.io.File;

import java.io.IOException;

import java.net.URISyntaxException;

import java.net.URL;

import javax.imageio.ImageIO;

public class CutPicture {

public static void main(String[] args) throws Exception,

IOException, URISyntaxException, AWTException {

// 此方法仅适用于JdK1.6及以上版本

Desktop.getDesktop().browse(new URL("").toURI());

Robot robot = new Robot();

robot.delay(10000);

Dimension d = new Dimension(Toolkit.getDefaultToolkit().getScreenSize());

int width = (int) d.getWidth();

int height = (int) d.getHeight();

// 最大化浏览器

robot.keyRelease(KeyEvent.VK_F11);

robot.delay(2000);

Image image = robot.createScreenCapture(new Rectangle(0, 0, width,height));

BufferedImage bi = new BufferedImage(width, height,

BufferedImage.TYPE_INT_RGB);

Graphics g = bi.createGraphics();

g.drawImage(image, 0, 0, width, height, null);

// 保存图片

ImageIO.write(bi, "jpg", new File("c:/open.jpg"));

}

}/span

java怎样截取网页字符串的指定部分内容

在Java程序中

String str = "房估字(2014)第YPQD0006号";

String jieguo = str.substring(str.indexOf("第")+1,str.indexOf("号"));

在js中

函数：substring()

功能：字符串截取，比如想从"MinidxSearchEngine”中得到"Minidx”就要用到substring(0,6)

上面的用substr

也可以

substr(0,6)

substr 方法用于返回一个从指定位置开始的指定长度的子字符串。

请大家帮帮忙. 使用java爬虫得到网页以后怎么提取里面自己需要的内容呢？如果会代码请您写一下.谢谢您

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

java截取网页的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于Java 截取、java截取网页的信息别忘了在本站进行查找喔。

标签：java截取网页