「java截取网页」Java 截取
今天给各位分享java截取网页的知识,其中也会对Java 截取进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
- 1、如何使用Java抓取网页上指定部分的内容
- 2、java截屏有哪几种方法
- 3、java 怎么实现网页截图
- 4、java怎样截取网页字符串的指定部分内容
- 5、请大家帮帮忙. 使用java爬虫得到网页以后怎么提取里面自己需要的内容呢?如果会代码请您写一下.谢谢您
如何使用Java抓取网页上指定部分的内容
1. 你可以选择用Java代码来找到整个网页的html代码,如下
(注意在处理网页方面的内容时,需要导入htmlparser包来支持)
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;
public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}
以上代码,public static NodeList getNodeList(String url) 为主体
传入需要分析网页的 url(String类型),返回值是网页Html节点List(Nodelist类型)
这个方法我没有什么要说的,刚开始的时候没看懂(没接触过),后来用了几次也懂点皮毛了
注意: parser.setEncoding("GBK"); 可能你的工程编码格式是UTF-8,有错误的话需要改动
运行该程序
2.通过浏览器工具直接查看 IE是按F12 (刚开始没发现这个方法,于是傻乎乎地找上面的代码)
分析你所获得的html代码让人眼花缭乱,不要紧,找到自己需要趴取的内容,找到它上下文有特征的节点
!--中行牌价 开始--
div id="sw01_con1"
table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab"
thead
tr
th width="85" align="center" class="th_l"交易币种/th
th width="80" align="center"交易单位/th
th width="130" align="center"现价(人民币)/th
th width="80" align="center"卖出价/th
th width="100" align="center"现汇买入价/th
th width="95" align="center"现钞买入价/th
/tr
/thead
tbody
tr align="center"
td 英镑/td
td100/td
td992.7/td
td1001.24/td
td993.26/td
td class="no"962.6/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 港币/td
td100/td
td81.54/td
td82.13/td
td81.81/td
td class="no"81.16/td
/tr
tr align="center"
td 美元/td
td100/td
td635.49/td
td639.35/td
td636.8/td
td class="no"631.69/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 瑞士法郎/td
td100/td
td710.89/td
td707.78/td
td702.14/td
td class="no"680.46/td
/tr
tr align="center"
td 新加坡元/td
td100/td
td492.45/td
td490.17/td
td486.27/td
td class="no"471.25/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 瑞典克朗/td
td100/td
td93.66/td
td93.79/td
td93.04/td
td class="no"90.17/td
/tr
tr align="center"
td 丹麦克朗/td
td100/td
td116.43/td
td115.59/td
td114.67/td
td class="no"111.13/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 挪威克朗/td
td100/td
td110.01/td
td109.6/td
td108.73/td
td class="no"105.37/td
/tr
!--{2011-10-01 23:16:00}--
/tbody
/table
/div
!--中行牌价 结束--
大家可以看到这是一段很有规律,书写非常规范的Html代码(这只是第一部分,中行牌价,可以想像,接下来还会有并列的 相似的3部分)
大家想截取这些节点中的数据
以下代码仍需导入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class Currencyrate {
public static void main(String[] args){
String url="";
ArrayListString rt= getNodeList(url);
for (int i = 0; i rt.size(); i++){
System.out.println(rt.get(i));
}
}
public static ArrayListString getNodeList(String url){
final ArrayListString result=new ArrayListString();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}
public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}
废话不多说,
public static ArrayListString getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意,代码编码格式
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
}
);
nodelist是html节点的列表,现在使用NodeFilter ( 节点过滤器 )实例, 重载NodeFilter类中的accept()方法
在parser这个Parser类访问整个html页面的时候,每遇到一个html节点,就会访问这个
accept()方法,返回True的话就会将这个节点 放进nodelist中,否则就不会将这个节点放进去。这个就是NodeFilter功能。
代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor); 就是获取所有节点
所以现在我们要趴取网页上的内容,只要告诉accept()这个方法,哪些节点要放进nodelist去,即 遇到哪些节点需要返回true。
于是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser类在遇到节点,就把这个节点拿过去问accept(),于是accept()方法分析,如果满足getStringsByRegex(node.getText())就要了
接下来分析getStringsByRegex(),只剩下最后一步了,大家坚持啊!
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以发现我们索要的每一段都是
tr align="center"
td 英镑/td
td100/td
td992.7/td
td1001.24/td
td993.26/td
td class="no"962.6/td
/tr
所以只要找到td class="no"这个节点就行了,我们用正则表达式去比较
String regex="td class=\"no\""; 这个是比较标准(正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示 成\“ )
变量txt是我们传过去的需要比较的节点的node.getText(),如果符合的话m.find就是true,于是getStringsByRegex()返回true,说明这个节点就是我们所需要的哪些节点,于是
for(int i=0;i6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
每一段html,6个为一组,先是962.6,然后是993.26,1001.24,992.7,100,英镑分别被add进result这个ArrayListString中去,返回,这个ArrayList装的就是我们需要抓取的数据
大家可以把我们所获得的String数据数出来试试看,是不是我们需要的顺序,main()函数获得ArrayListString,就可以显示到我们所需要的Java widget上去了
java截屏有哪几种方法
前台方式
1. 利用html2canvas实现前台截屏
html2canvas项目的gitHub地址
html2canvas示例
html2canvas可以将HTML代码块进行截取,并生成快照形式的canvas,然后可以利用html5的下载功能提供图片的下载接口,供用户下载。
优点:前台技术,实现比较容易。
缺点:此项目使用了html5的技术,因此在对IE的兼容上,只可以在IE9+的版本上使用。
使用时,需要引用jQuery.js和html2canvas.js。(html2canvas.js可以在github上下载)
具体JavaScript代码如下:
var canvas = function () {
html2canvas($("#chart"), {
onrendered: function (canvas) {
$("#class11").html(canvas);//将id为“class11”部分的代码转换为canvas
var type = 'png';//图片类型为png
var imgData = canvas.toDataURL('png');//将图片转换为png类型的流
var _fixType = function (type) {
type = type.toLowerCase().replace(/jpg/i, 'jpeg'); var r = type.match(/png|jpeg|bmp|gif/)[0]; return 'image/' + r;
}; var saveFile = function (data, filename) {
var save_link = document.createElementNS('', 'a');
save_link.href = data;
save_link.download = filename; var event = document.createEvent('MouseEvents');
event.initMouseEvent('click', true, false, window, 0, 0, 0, 0, 0, false, false, false, false, 0, null);
save_link.dispatchEvent(event);
}; //下载时的文件名
var filename = 'baidufe_' + (new Date()).getTime() + '.' + type; // 下载文件
saveFile(imgData, filename);
}
});
后台方式(java)
1. 利用html2image实现
html2image的地址(google)
html2image是可以识别html标签并将html转换成图片的java项目。
优点:后台转换,故对浏览器的版本基本没有要求。
缺点:对样式的识别不是很好,转换出来的图片比较简单,基本没有可以兼容的样式。
使用方式:maven中引用如下依赖:
dependency
groupIdcom.github.xuwei-k/groupId
artifactIdhtml2image/artifactId
version0.1.0/version/dependency12345
2. 利用DJNativeSwing项目实现
纯java代码实现。使用DJNativeSwing这个项目,构建一个swing浏览器,打开网址,之后截取图片。(需要eclipse的swt库支持)
优点:纯java实现。
缺点:需要多线程的支持,只在控制台方式实现过(由于本人对于多线程的掌握较弱,目前没有在spring项目中实现这个方法,求大神指导~~)
3. 利用phantomJs实现
phantomJs的GitHub地址
phantomJs官网
phantom利用的是webKit内核,全面支持web而不需浏览器支持,快速,原生支持各种Web标准。
优点:速度快,使用简单。
缺点:需要在项目的服务器端引用exe文件进行截图,并发性能有待考证。
java 怎么实现网页截图
代码如下
[java]
span style="font-size:18px;"package com.util;
import java.awt.AWTException;
import java.awt.Desktop;
import java.awt.Dimension;
import java.awt.Graphics;
import java.awt.Image;
import java.awt.Rectangle;
import java.awt.Robot;
import java.awt.Toolkit;
import java.awt.event.KeyEvent;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.net.URISyntaxException;
import java.net.URL;
import javax.imageio.ImageIO;
public class CutPicture {
public static void main(String[] args) throws Exception,
IOException, URISyntaxException, AWTException {
// 此方法仅适用于JdK1.6及以上版本
Desktop.getDesktop().browse(new URL("").toURI());
Robot robot = new Robot();
robot.delay(10000);
Dimension d = new Dimension(Toolkit.getDefaultToolkit().getScreenSize());
int width = (int) d.getWidth();
int height = (int) d.getHeight();
// 最大化浏览器
robot.keyRelease(KeyEvent.VK_F11);
robot.delay(2000);
Image image = robot.createScreenCapture(new Rectangle(0, 0, width,height));
BufferedImage bi = new BufferedImage(width, height,
BufferedImage.TYPE_INT_RGB);
Graphics g = bi.createGraphics();
g.drawImage(image, 0, 0, width, height, null);
// 保存图片
ImageIO.write(bi, "jpg", new File("c:/open.jpg"));
}
}/span
java怎样截取网页字符串的指定部分内容
在Java程序中
String str = "房估字(2014)第YPQD0006号";
String jieguo = str.substring(str.indexOf("第")+1,str.indexOf("号"));
在js中
函数:substring()
功能:字符串截取,比如想从"MinidxSearchEngine”中得到"Minidx”就要用到substring(0,6)
上面的用substr
也可以
substr(0,6)
substr 方法用于返回一个从指定位置开始的指定长度的子字符串。
请大家帮帮忙. 使用java爬虫得到网页以后怎么提取里面自己需要的内容呢?如果会代码请您写一下.谢谢您
根据java网络编程相关的内容,使用jdk提供的相关类可以得到url对应网页的html页面代码。
针对得到的html代码,通过使用正则表达式即可得到我们想要的内容。
比如,我们如果想得到一个网页上所有包括“java”关键字的文本内容,就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容,只得到包括“java”这个关键字的内容的效果。
java截取网页的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于Java 截取、java截取网页的信息别忘了在本站进行查找喔。
发布于:2022-11-29,除非注明,否则均为
原创文章,转载请注明出处。