使用webmagic实现爬虫程序示例分享
使用webmagic实现爬虫程序示例分享
发布时间:2016-12-28 来源:查字典编辑
摘要:复制代码代码如下:packagecom.letv.cloud.spider;importjava.util.HashSet;importja...

复制代码 代码如下:

package com.letv.cloud.spider;

import java.util.HashSet;

import java.util.List;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class MoviePaperPageProcessor implements PageProcessor {

private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

public Site getSite() {

return page;

}

public void process(Page page) {

List<String> links = page.getHtml().links().regex(

"http://posters.aa.com/poster/d+").all();

links = removeDuplicate(links);

page.addTargetRequests(links);

page.putField("title", page.getHtml().xpath(

"//div[@id='imdbleftsecc']/center/h1/text()").toString());

page.putField("imgurl", page.getHtml().xpath(

"//div[@id='imdbleftsecc']/center/img/@src").toString());

}

public static void main(String[] args) {

for (int i = 1; i <= 3; i++) {

Spider.create(new MoviePaperPageProcessor()).addUrl(

"http://posters.aa.co/poster_page/" + i).thread(5).run();

}

}

public static List removeDuplicate(List list) {

HashSet hs = new HashSet(list);

list.clear();

list.addAll(hs);

return list;

}

}

推荐文章
猜你喜欢
附近的人在看
推荐阅读
拓展阅读
相关阅读
网友关注
最新Java学习
热门Java学习
编程开发子分类