Scrapy怎么设置爬虫的起始URL

lewis 2024-05-01 28次阅读

在Scrapy中设置爬虫的起始URL可以通过修改Spider类的start_urls属性来实现。在Spider类中添加start_urls属性，将要爬取的URL链接添加到start_urls属性中即可。

例如：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://www.example.com']

    def parse(self, response):
        # 爬取逻辑
        pass

在上面的示例中，我们定义了一个Spider类MySpider，并设置了start_urls属性为[‘http://www.example.com’]，这样MySpider就会从’http://www.example.com’这个URL开始爬取数据。parse方法用于解析爬取到的网页数据，你可以在其中实现具体的爬取逻辑。

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。