在Eclipse中搭建Heritrix 3.1步骤:
在eclipse下创建java project,命名为比如heritrix,进入其工程的目录。
复制解压后的heritrix-1.14.1.zip文件夹下的lib,复制解压后的heritrix-1.14.1.src 文件夹下的heritrix-1.14.1\src\java下的org和st两个文件夹到安装包\workspace\Heritrix\src目录下
修改src\heritrix.properties文件中的heritrix.cmdline.admin = 为 heritrix.cmdline.admin = admin:admin。
把lib下的jar包全部添加到工程中(刷新一下就行),即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar。
运行org.archive.crawler.Heritrix类,在地址栏输入http://127.0.0.1:8080/
在heritrix中新建一个job(有四种方式),就可以抓取网页了。