首页 > Python beautifulsoup 爬虫如何实现翻页啊?

Python beautifulsoup 爬虫如何实现翻页啊?


只想提取下一页上的href啊!


获取下一页的html,然后请求下一页就可以了


我简单说一下

  1. ul = soup.find('div',attr={'class':'page'}).ul

  2. lis = ul.find_all('li')

  3. next = lis[-2]['href'] 因为下一页在倒数第二个,直接[-2],得到href属性即可
    爬虫写的不多,函数可能用的不对,但大致思路差不多。


希望对你有帮助:http://imchenkun.com/archives/6/ (不是广告,只是提供一个思路)


这个很明显了吧,
下一页是list_1_2.html,最后一页是list_1_117.html
中间页数是3到116啊
用一个for循环

for page in range(1, 118):
    url = "..list_1_{}.html".format(page)
    ....
【热门文章】
【热门文章】