如何在Eclipse中搭建Heritrix 3.1

如题所述

在Eclipse中搭建Heritrix 3.1步骤:

    在eclipse下创建java project,命名为比如heritrix,进入其工程的目录。

    复制解压后的heritrix-1.14.1.zip文件夹下的lib,复制解压后的heritrix-1.14.1.src 文件夹下的heritrix-1.14.1\src\java下的org和st两个文件夹到安装包\workspace\Heritrix\src目录下

    修改src\heritrix.properties文件中的heritrix.cmdline.admin = 为 heritrix.cmdline.admin = admin:admin。

    把lib下的jar包全部添加到工程中(刷新一下就行),即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar。

    运行org.archive.crawler.Heritrix类,在地址栏输入http://127.0.0.1:8080/

    在heritrix中新建一个job(有四种方式),就可以抓取网页了。

温馨提示:内容为网友见解,仅供参考
无其他回答
相似回答