如题,本人在开发网站时需要一些数据,于是想到写一个爬虫直接去网上爬取,爬虫使用的webmagic框架,如下
(){
Spider.(InfoProcessor())
.addUrl()
.setScheduler(QueueScheduler().setDuplicateRemover(BloomFilterDuplicateRemover()))
.thread()
.addPipeline(.)
.run()}这里是爬虫运行的入口,我的想法是启动项目爬虫就会自动运行,但是具体不知道如何实现。
于是我又想到通过页面请求的方式执行:/spider/start,为此我又写了一个controller
SpiderController Controller {
InfoProcessor = InfoProcessor()(){
.process()render()}
}但还是没用,请波总指教@jfinal
public void onStart() {
这里是启动爬虫的代码
}
如果爬虫启动时会阻塞线程,需要在开启一个新的线程启动它