【本文涉及的网站只是用来测试所用,绝无其他意图】
转载请带上本文地址:http://blog.sina.com.cn/s/blog_a35991340101alk1.html
例如我们要采集http://b2b.youboy.com/class.html这个网站的信息!根据网址可以看出有2级网址需要采集!
起始网址就是http://b2b.youboy.com/class.html
一级网址是http://b2b.youboy.com/class2/1_1036/
二级网址是http://b2b.youboy.com/show0cp74986388.html也就是我们需要采集的内容页网址!
第一步添加起始网址,获取一级网址
第二步继续添加获取网址规则,获取第二级网址,因为这个页面不是一页的,有一个列表页分页的问题,我们把列表页分页那里设置下
测试采集就可以获取到第二级网址了