欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品

主頁 > 知識庫 > Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

Python爬蟲實戰之使用Scrapy爬取豆瓣圖片

熱門標簽:儋州電話機器人 朝陽手機外呼系統 地圖標注面積 所得系統電梯怎樣主板設置外呼 北瀚ai電銷機器人官網手機版 北京電銷外呼系統加盟 小蘇云呼電話機器人 市場上的電銷機器人 佛山400電話辦理

使用Scrapy爬取豆瓣某影星的所有個人圖片

以莫妮卡·貝魯奇為例

1.首先我們在命令行進入到我們要創建的目錄,輸入 scrapy startproject banciyuan 創建scrapy項目

創建的項目結構如下

2.為了方便使用pycharm執行scrapy項目,新建main.py

from scrapy import cmdline

cmdline.execute("scrapy crawl banciyuan".split())

再edit configuration

然后進行如下設置,設置后之后就能通過運行main.py運行scrapy項目了

3.分析該HTML頁面,創建對應spider

from scrapy import Spider
import scrapy

from banciyuan.items import BanciyuanItem


class BanciyuanSpider(Spider):
    name = 'banciyuan'
    allowed_domains = ['movie.douban.com']
    start_urls = ["https://movie.douban.com/celebrity/1025156/photos/"]
    url = "https://movie.douban.com/celebrity/1025156/photos/"

    def parse(self, response):
        num = response.xpath('//div[@class="paginator"]/a[last()]/text()').extract_first('')
        print(num)
        for i in range(int(num)):
            suffix = '?type=Cstart=' + str(i * 30) + 'sortby=likesize=asubtype=a'
            yield scrapy.Request(url=self.url + suffix, callback=self.get_page)

    def get_page(self, response):
        href_list = response.xpath('//div[@class="article"]//div[@class="cover"]/a/@href').extract()
        # print(href_list)
        for href in href_list:
            yield scrapy.Request(url=href, callback=self.get_info)

    def get_info(self, response):
        src = response.xpath(
            '//div[@class="article"]//div[@class="photo-show"]//div[@class="photo-wp"]/a[1]/img/@src').extract_first('')
        title = response.xpath('//div[@id="content"]/h1/text()').extract_first('')
        # print(response.body)
        item = BanciyuanItem()
        item['title'] = title
        item['src'] = [src]
        yield item

4.items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class BanciyuanItem(scrapy.Item):
    # define the fields for your item here like:
    src = scrapy.Field()
    title = scrapy.Field()

pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline
import scrapy

class BanciyuanPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        yield scrapy.Request(url=item['src'][0], meta={'item': item})

    def file_path(self, request, response=None, info=None, *, item=None):
        item = request.meta['item']
        image_name = item['src'][0].split('/')[-1]
        # image_name.replace('.webp', '.jpg')
        path = '%s/%s' % (item['title'].split(' ')[0], image_name)

        return path

settings.py

# Scrapy settings for banciyuan project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'banciyuan'

SPIDER_MODULES = ['banciyuan.spiders']
NEWSPIDER_MODULE = 'banciyuan.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}


# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'banciyuan.middlewares.BanciyuanSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'banciyuan.middlewares.BanciyuanDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'banciyuan.pipelines.BanciyuanPipeline': 1,
}
IMAGES_STORE = './images'

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

5.爬取結果

reference

源碼

到此這篇關于Python爬蟲實戰之使用Scrapy爬取豆瓣圖片的文章就介紹到這了,更多相關Scrapy爬取豆瓣圖片內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲之教你利用Scrapy爬取圖片
  • Python爬取網站圖片并保存的實現示例
  • python制作微博圖片爬取工具
  • python繞過圖片滑動驗證碼實現爬取PTA所有題目功能 附源碼
  • 利用python批量爬取百度任意類別的圖片的實現方法
  • Python使用xpath實現圖片爬取
  • Python Scrapy圖片爬取原理及代碼實例
  • Python3直接爬取圖片URL并保存示例
  • python爬取某網站原圖作為壁紙
  • 用Python做一個嗶站小姐姐詞云跳舞視頻

標簽:金融催收 云南 酒泉 寧夏 江蘇 商丘 龍巖 定西

巨人網絡通訊聲明:本文標題《Python爬蟲實戰之使用Scrapy爬取豆瓣圖片》,本文關鍵詞  Python,爬蟲,實戰,之,使用,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python爬蟲實戰之使用Scrapy爬取豆瓣圖片》相關的同類信息!
  • 本頁收集關于Python爬蟲實戰之使用Scrapy爬取豆瓣圖片的相關信息資訊供網民參考!
  • 推薦文章
    欧美阿v视频在线大全_亚洲欧美中文日韩V在线观看_www性欧美日韩欧美91_亚洲欧美日韩久久精品
  • <rt id="w000q"><acronym id="w000q"></acronym></rt>
  • <abbr id="w000q"></abbr>
    <rt id="w000q"></rt>
    91国模大尺度私拍在线视频| 久久久久久99精品| 亚洲毛片av在线| 国产精品1024| 欧美人与禽zoz0善交| 精品久久久久久久久久久久久久久久久| 亚洲一级在线观看| 久久久久亚洲av无码麻豆| 欧美黑人性猛交xxx| 中文字幕国产精品一区二区| 极品少妇xxxx精品少妇偷拍| 六月婷婷七月丁香| 欧美xxxxx牲另类人与| 蜜桃视频在线观看一区| 插吧插吧综合网| 精品久久久久久久人人人人传媒 | 成人免费视频国产免费观看| 国产日韩av一区二区| 国产一区二区三区免费观看| 女教师淫辱の教室蜜臀av软件| www国产精品av| 国产一区二区美女| 在线观看天堂av| 国产精品丝袜一区| 高清成人免费视频| 色噜噜狠狠色综合中国| 亚洲精品欧美激情| 日本一级大毛片a一| 欧美一区二区视频在线观看| 日韩精品一卡二卡三卡四卡无卡| a天堂视频在线观看| 日韩精品影音先锋| 国产呦萝稀缺另类资源| 日韩福利小视频| 亚洲日韩欧美一区二区在线| 国产精品熟女一区二区不卡| 91.com在线观看| 麻豆91精品91久久久的内涵| 中文字幕第24页| 国产精品久久久久久久蜜臀| 99re这里只有精品首页| 欧美日韩大陆在线| 久久成人免费网| 精品国产欧美日韩不卡在线观看| 亚洲三级视频在线观看| 免费a v网站| 久久女同互慰一区二区三区| 成人app网站| 911精品产国品一二三产区| 狠狠狠色丁香婷婷综合激情| www青青草原| 天天av天天翘天天综合网 | 色婷婷久久综合| 亚洲国产精品一区二区www| 亚洲综合色一区| 日韩毛片高清在线播放| 一级黄色电影片| 久久久99久久精品欧美| 制服下的诱惑暮生| 精品国产三级电影在线观看| 成人短视频下载| 91精品国产综合久久久久| 国产原创一区二区| 色偷偷久久人人79超碰人人澡| 亚洲18色成人| 在线日韩国产网站| 亚洲gay无套男同| 久久人妻无码aⅴ毛片a片app| 亚洲一区二区三区四区在线| 欧美激情亚洲色图| 亚洲影院久久精品| 成人欧美一区二区三区黑人一| 一区二区三区免费在线观看| 麻豆精品免费视频| 一区二区三区欧美在线观看| 人人妻人人澡人人爽| 一区二区三区精品在线观看| 四虎国产精品成人免费入口| 亚洲欧美一区二区三区极速播放| 美国黄色一级毛片| 亚洲美女免费视频| 少妇久久久久久久久久| 夜夜精品视频一区二区| 最新黄色av网址| 天堂成人国产精品一区| 成人免费视频网站入口::| 免费精品99久久国产综合精品| 久草网站在线观看| 国产资源在线一区| 7777精品伊人久久久大香线蕉的| 成人激情免费电影网址| 亚洲精品一区在线观看| 亚洲黄色小说在线观看| 国产精品盗摄一区二区三区| 国产女主播喷水高潮网红在线| 亚洲综合在线视频| 日韩在线视频网址| 蜜桃精品在线观看| 欧美精品电影在线播放| 99在线精品免费| 亚洲国产精品二十页| 国产精品三级在线观看无码| 亚洲一区成人在线| 色综合久久久久久久久| 国产精品原创巨作av| 精品人在线二区三区| 色哟哟无码精品一区二区三区| 亚洲欧洲精品一区二区三区| 婷婷丁香综合网| 蓝色福利精品导航| 日韩一级免费一区| 午夜不卡久久精品无码免费| 亚洲视频你懂的| 天天看片中文字幕| 国产精品99久久久| 久久精品亚洲精品国产欧美kt∨| 一本色道综合久久欧美日韩精品| 亚洲国产欧美一区二区三区丁香婷| 色综合久久综合中文综合网| 国产精品亚洲午夜一区二区三区 | 麻豆传媒一区二区三区| 欧美一区二区三区四区高清| 日本精品一二三区| 亚洲国产婷婷综合在线精品| 欧美日韩中文字幕一区二区| 91亚洲精品久久久蜜桃网站| 亚洲欧美福利一区二区| 一本色道久久综合精品竹菊| 成人免费视频国产在线观看| 国产精品久久久久精k8| 91免费公开视频| 成人激情动漫在线观看| 一区二区中文视频| 色综合久久中文综合久久牛| 99免费精品视频| 一区二区三区高清在线| 欧美日韩中文字幕一区| 人妻 日韩 欧美 综合 制服| 亚洲高清视频的网址| 4438亚洲最大| 北岛玲一区二区| 久久精品国产在热久久| 久久久亚洲欧洲日产国码αv| 国产视频三区四区| 国产精品一区二区在线看| 国产精品人人做人人爽人人添 | 理论电影国产精品| 久久久蜜桃精品| sm捆绑调教视频| av在线不卡观看免费观看| 一区2区3区在线看| 91精品在线一区二区| 国产成人av一区二区三区不卡| 黑人巨大精品欧美黑白配亚洲| 欧美国产丝袜视频| av女名字大全列表| 91精品国产高清91久久久久久| 午夜欧美在线一二页| 欧美一区二区日韩一区二区| 免费人成又黄又爽又色| 国产乱子伦视频一区二区三区| 国产精品系列在线| 欧美三区免费完整视频在线观看| 五十路六十路七十路熟婆| 久久91精品国产91久久小草| 中文av一区二区| 欧美日韩电影在线播放| xxx在线播放| 不卡一区二区三区四区| 亚洲成av人片在线| 久久综合久久综合久久综合| 欧美在线视频第一页| 国产51自产区| 国内精品免费**视频| 亚洲欧洲日韩av| 欧美一级xxx| 亚洲色图27p| 国产精品成人免费一区久久羞羞| 麻豆一区二区三区| 国产精品国产馆在线真实露脸| 国产精品自拍网站| 亚洲影视在线播放| 久久久无码精品亚洲日韩按摩| 日本电影欧美片| 成人午夜福利一区二区| av亚洲精华国产精华| 日本欧洲一区二区| 中文字幕在线观看一区二区| 在线综合+亚洲+欧美中文字幕| 欧日韩不卡视频| 丝袜熟女一区二区三区| 国产成人a级片| 日本中文字幕一区二区视频| 国产精品久久久久久久久免费樱桃| 4438x成人网最大色成网站| 熟女少妇a性色生活片毛片| 日本不卡视频一区| 成人一级视频在线观看| 日本在线观看不卡视频| 亚洲人成在线播放网站岛国|