Python爬虫XXOO图片

更多教程请移步至:洛凉博客

求助请移步至:Python自学技术交流

今天分享的也是第二次成功爬虫网页上的图片了。
简单的说下运行环境吧:都是比较常用的模块
此代码在python3上撸的,用python2的朋友请自行修改代码在运行。
1:requests
2:re
3:os
4:hashlib
下面直接贴代码了。大家看代码的里注释吧。可能有的解释不到位。(怎么说呢,有的地方也真的不好解释,大家可以自己尝试查看这网站的结构和每步运行打印的结果,再看注释就更清晰了)
注释也只能给大家解释爬取的思路和遇到问题的解决办法。
下面是放把代码放在阿里云服务器上爬取28页的数据。


image.png
import requests,re,os,hashlib  #一次性引入需要用到的???headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}  #设置user-agent模拟浏览器
range1 = int(input('请输入需要爬取开始的页数(最少从第二页开始):'))
range2 = int(input('请输入需要爬取结束的页数:'))
url_all = []  #创建一个空列表,后续存放爬取到页面列表的URL链接
def qbl_urls():   #此函数就是获取所有页面上专辑汇总的链接
    for page in range(range1,range2): #使用for迭代获取需要爬取的页面数据
        html = requests.get('https://5555av.co/html/tupian/yazhou/index_'+str(page)+'.html') #这个就不多说了,大家应该都看得懂
        html.encoding = 'utf-8' #设置编码(其实我也没搞懂这是编码还是解码。反正每个??榈氖褂梅椒ú灰谎?,但是达到的效果都是一样的
        urls = re.findall('.*?\d\d\d\d/\d\d\d\d\d\d\.html',html.text)  #使用正则表达式需要的链接
        for url in urls: 
            h_urls = url.split('"') #将匹配到的数据切片,切成自己需要的数据
            full_url = 'https://5555av.co'+ h_urls[1] #然后用自己需要的链接和网站开头部分拼接(切片后不是完整的链接,所以这里拼接了下
            url_all.append(full_url) #将拼接成功的链接放入,开始创建的空列表
    return url_all #返回该列表,给后面的函数做参数使用
def pic_path():  #此函数为创建目录
    save_path = 'D:\qianbailu'  #首先自己定义一个目录
    if not os.path.isdir(save_path): #判断目录是否存在
        print('----------该目录不存在----------')
        print('----------正在创建该目录----------')
        os.makedirs(save_path) #不存在则创建该目录
    else:
        print('----------该目录已存在----------')
    return save_path #返回该目录,给后面的函数做参数使用
def save_pics(url_all,save_path): #此函数为保存图片的函数
    list_url = [] #创建一个空列表,存放需要保存图片的链接
    sull = 0 #创建一个参数,后面打印信息用到
    for pic_url in url_all: #迭代上面函数返回的专辑链接
        pic = requests.get(pic_url,headers=headers)
        pics = re.findall('//.*?\d\d\d\d\d\d/\d\d/.*\.jpg',pic.text) #正则匹配图片的链接
        for photos_url in pics: #迭代匹配的到的图片链接
            photo_url = photos_url.split('"') #切片匹配的的数据,切成真正的图片链接,大家也可以尝试去掉这行,打印出来。看看匹配到的列表是什么样的
            for save_url in photo_url: #再迭代切片好的图片链接
                if len(save_url) == 46: #放心真的得图片链接在列表里长度都是一致的,所有这里筛选下
                    list_url.append(save_url) #把筛选出来的真正图片链接放入上面创建的空列表中
    list_url = set(list_url) #用集合去重下
    for save_urls in list_url: #由于上面获得的也是一个列表,所以再迭代下访问真正的图片链接
        save_photo = requests.get('http:'+save_urls,headers=headers).content   #使用content方式访问链接
        filename = hashlib.md5(save_photo).hexdigest() #获取链接图片的MD5作为文件名
        with open(save_path+'\\'+str(filename)+'.jpg','wb')as f: #保存文件
            f.write(save_photo) #写入文件
            f.close() #关闭文件
            sull +=1 #每次成功一个此处加1
            print('成功保存第%d张图片:http:'%sull+save_urls) #打印出保存成功的信息
    print('----------成功保存%d张图片----------'%sull) #全部保存成功后打印此行信息
save_pics(qbl_urls(),pic_path()) #运行最后一个函数,里面两个参数就是上面两个函数运行返回的参数

今天就到这里了,志同道合的朋友可以互相关注下,互相学习。
有好的资料大家也可以一起分享。需要的也可以私聊我。
其实我也算半个收藏家了,遇到好资料都喜欢收藏,但是又不会全部去阅读。
因为没有那么多时间和精力。
我们还年轻,一起加油吧!??!

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351