7行代码爬取本博客所有文章

 Lan   2021-01-05 17:13   267 人阅读  0 条评论

为了水篇博客,我也是尽力了。

如果报错,就新建一个文件夹abc

image.png

import requests, parsel
for i in range(1, 37):
    res = parsel.Selector(requests.get(f'https://www.lanol.cn/page_{i}.Html').text)
    titles = res.Xpath("//h2[@class='entry-title']/a/text()").extract()
    for index, value in enumerate(res.xpath("//h2[@class='entry-title']/a/@href").extract()):
        with open("./abc/" + titles[index] + '.html', 'a+', encoding='utf8')as f:
            f.write(parsel.Selector(requests.get(value).text).xpath("//div[@class='single-content']").extract_first())

image.png

本文地址:https://www.lanol.cn/post/432.html
版权声明:本文为原创文章,版权归 Lan 所有,欢迎分享本文,转载请保留出处!

 发表评论

还没有留言,还不快点抢沙发?