「爬虫java面试」java做爬虫

admin 2022-11-30 19:35:07 1357

本篇文章给大家谈谈爬虫java面试，以及java做爬虫对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、java爬虫读取某一张指定图片的url，求解答
2、如何用java爬虫爬取招聘信息
3、Java爬虫方向怎么样？

java爬虫读取某一张指定图片的url，求解答

使用jsoup解析到这个url就行，dom结构如下:

look-inside-cover类只有一个，所以直接找到这个img元素，获取src属性，就可以获取到图片路径。

代码实现如下：

Document doc = Jsoup.connect("").get();

Elements imgs = doc.select(".look-inside-cover");

String imgUrl = imgs.get(0).attr("src");

jsoup的jar包分享给你：

如何用java爬虫爬取招聘信息

1、思路：

明确需要爬取的信息

分析网页结构

分析爬取流程

优化

2、明确需要爬取的信息

职位名称

工资

职位描述

公司名称

公司主页

详情网页

分析网页结构

3、目标网站-拉勾网

网站使用json作为交互数据，分析json数据，需要的json关键数据

查看需要的信息所在的位置，使用Jsoup来解析网页

4、分析爬取流程

1.获取所有的positionId生成详情页，存放在一个存放网址列表中ListString joburls

2.获取每个详情页并解析为Job类，得到一个存放Job类的列表ListJob jobList

3.把ListJob jobList存进Excel表格中

Java操作Excel需要用到jxl

5、关键代码实现

public ListString getJobUrls(String gj,String city,String kd){

String pre_url="";

String end_url=".html";

String url;

if (gj.equals("")){

url=";city="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;

}else {

url=""+gj+"px=defaultcity="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;

}

String rs=getJson(url);

System.out.println(rs);

int total= JsonPath.read(rs,"$.content.positionResult.totalCount");//获取总数

int pagesize=total/15;

if (pagesize=30){

pagesize=30;

}

System.out.println(total);

// System.out.println(rs);

ListInteger posid=JsonPath.read(rs,"$.content.positionResult.result[*].positionId");//获取网页id

for (int j=1;j=pagesize;j++){ //获取所有的网页id

pn++; //更新页数

url=""+gj+"px=defaultcity="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;

String rs2=getJson(url);

ListInteger posid2=JsonPath.read(rs2,"$.content.positionResult.result[*].positionId");

posid.addAll(posid2); //添加解析的id到第一个list

}

ListString joburls=new ArrayList();

//生成网页列表

for (int id:posid){

String url3=pre_url+id+end_url;

joburls.add(url3);

}

return joburls;

}

public Job getJob(String url){ //获取工作信息

Job job=new Job();

Document document= null;

document = Jsoup.parse(getJson(url));

job.setJobname(document.select(".name").text());

job.setSalary(document.select(".salary").text());

String joball=HtmlTool.tag(document.select(".job_bt").select("div").html());//清除html标签

job.setJobdesc(joball);//职位描述包含要求

job.setCompany(document.select(".b2").attr("alt"));

Elements elements=document.select(".c_feature");

//System.out.println(document.select(".name").text());

job.setCompanysite(elements.select("a").attr("href")); //获取公司主页

job.setJobdsite(url);

return job;

}

void insertExcel(ListJob jobList) throws IOException, BiffException, WriteException {

int row=1;

Workbook wb = Workbook.getWorkbook(new File(JobCondition.filename));

WritableWorkbook book = Workbook.createWorkbook(new File(JobCondition.filename), wb);

WritableSheet sheet=book.getSheet(0);

for (int i=0;ijobList.size();i++){ //遍历工作列表，一行行插入到表格中

sheet.addCell(new Label(0,row,jobList.get(i).getJobname()));

sheet.addCell(new Label(1,row,jobList.get(i).getSalary()));

sheet.addCell(new Label(2,row,jobList.get(i).getJobdesc()));

sheet.addCell(new Label(3,row,jobList.get(i).getCompany()));

sheet.addCell(new Label(4,row,jobList.get(i).getCompanysite()));

sheet.addCell(new Label(5,row,jobList.get(i).getJobdsite()));

row++;

}

book.write();

book.close();

}

Java爬虫方向怎么样？

截止到 2007 年底，Internet 上网页数量超出 160 亿个，研究表明接近 30%的页面是重复的；动态页面的存在：客户端、服务器端脚本语言的应用使得指向相同 Web 信息的 URL 数量呈指数级增长。上述特征使得网络爬虫面临一定的困难，主要体现在 Web 信息的巨大容量使得爬虫在给定时间内只能下载少量网页。 Lawrence 和 Giles 的研究表明没有哪个搜索引擎能够索引超出 16%的Internet 上 Web 页面，即使能够提取全部页面，也没有足够的空间来存储 [1] 。

为提高爬行效率，爬虫需要在单位时间内尽可能多的获取高质量页面，是它面临的难题之一。当前有五种表示页面质量高低的方式[1]：Similarity（页面与爬行主题之间的相似度）、Backlink（页面在 Web 图中的入度大小）、PageRank（指向它的所有页面平均权值之和）、Forwardlink（页面在 Web 图中的出度大小）、Location（页面的信息位置）；Parallel（并行性问题）[3]。为了提高爬行速度，网络通常会采取并行爬行的工作方式，随之引入了新的问题：重复性（并行运行的爬虫或爬行线程同时运行时增加了重复页面）、质量问题（并行运行时，每个爬虫或爬行线程只能获取部分页面，导致页面质量下降）、通信带宽代价（并行运行时，各个爬虫或爬行线程之间不可避免要进行一些通信）。并行运行时，网络爬虫通常采用三种方式：独立方式（各个爬虫独立爬行页面，互不通信）、动态分配方式（由一个中央协调器动态协调分配 URL 给各个爬虫）、静态分配方式（URL 事先划分给各个爬虫） [1] 。

爬虫java面试的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于java做爬虫、爬虫java面试的信息别忘了在本站进行查找喔。

标签：爬虫java面试