3975传奇手游官网,散人打金单职业传奇手游下载,哪个传奇手游不氪金

学习用python写爬虫有几天了，下面写一个小爬虫验证下学习成果吧。本文适合小白食用，各位大佬您就图个乐~

Tip:本文仅供学习与交流，切勿用于非法用途?。?！

一、网页分析

爬取贝壳网石家庄二手房信息，先打开链接https://sjz.ke.com/ershoufang/。?

如果大家在学习中遇到困难，想找一个python学习交流环境，可以加入我们的python圈，裙号930900780，可领取python学习资料，会节约很多时间，减少很多遇到的难题。

不添加筛选条件，发现总共有42817套房子。我们点击第二页，再查看链接变成了https://sjz.ke.com/ershoufang/pg2/。所以，可发现/pg{i}，i就是页码。经过体育老师教授的数学，数了一下，一页30个，最多可选100页。?所以最多可爬取3000套房产信息，距离上面给出的4万多差的还很远，于是尝试把pg{i}的那个i人为改变一下，点击回车请求一下。

https://sjz.ke.com/ershoufang/pg200/

https://sjz.ke.com/ershoufang/pg300/

发现这两个请求，返回房产信息数据都一样。都是第100页的信息，于是乎，得出结论。通过贝壳网web端，查看某一条件下的房产信息，最多可以查看3000套。害，最多才能买3000套，有钱花不出去的感觉真难受啊~ 逃:)~~

?所以呢，我们增加一些条件，比如，满五唯一，2室的。请求之~?发现链接变成了https://sjz.ke.com/ershoufang/pg2mw1l2/。mw1l2这个玩意应该筛选条件。看到只有2399套，欧克，咱们就爬它了。

二、撸起袖子写代码

麻雀虽小五脏俱全，本爬虫设计三个部分，爬取，解析，储存。

爬取

爬取利用requests库，比python内置库urllib要好用很多。

import requests

def get_a_page(url):

? ? result = requests.get(url)

? ? print(result.text)

if __name__ == '__main__':

? ? for i in range(1, 101):

? ? ? ? get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

复制代码

for循环打印返回数据，发现没问题。其实i循环到81就好了，毕竟咱们知道了，只有不到2400套嘛。

解析

解析使用pyquery，这个库使用起来类似于Jquery。完整API，https://pythonhosted.org/pyquery/api.html?；褂幸桓鼋馕隹鈆bs4，下次再尝试。

发现读取如图所示ul里面一个div就可以拿到我们想要的数据。

import requests

from pyquery import PyQuery as pq

import json

def get_a_page(url):

? ? result = requests.get(url)

? ? doc = pq(result.text)

? ? ul = doc('.sellListContent')

? ? divs = ul.children('.clear .info.clear').items()

? ? for div in divs:

? ? ? ? count += 1

? ? ? ? title = div.children('.title a').text()

? ? ? ? place = div.children('.address .flood .positionInfo a').text()

? ? ? ? msg = div.children('.address .houseInfo').text()

? ? ? ? price = div.children('.address .priceInfo .totalPrice span').text()

? ? ? ? per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')

? ? ? ? dict = {

? ? ? ? ? ? 'title': title,

? ? ? ? ? ? 'place': place,

? ? ? ? ? ? 'msg': msg,

? ? ? ? ? ? 'price': price,

? ? ? ? ? ? 'per_meter': per_meter

? ? ? ? }

? ? ? ? print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

复制代码

代码如上，pyquery 的children方法是查找子标签，find方法是找子孙标签，此处我们只需要找下一代就好。然后通过text找到标签所包含的文本。attr是获取属性内容的，因为那个per_meter从属性中获取比较简单，标签中的内容还包含了“元/平米”。

储存

本次我们直接储存到csv中，一种类似于excel的文件格式。利用的是pandas库。

完整代码如下：

import requests

from pyquery import PyQuery as pq

import json

import pandas as pd

columns = ['title', 'msg', 'price', 'per_meter']

# 爬取某网页

def get_a_page(url):

? ? result = requests.get(url)

? ? doc = pq(result.text)

? ? ul = doc('.sellListContent')

? ? divs = ul.children('.clear .info.clear').items()

? ? count = 0

? ? titles = []

? ? places = []

? ? msgs = []

? ? prices = []

? ? per_meters = []

? ? for div in divs:

? ? ? ? count += 1

? ? ? ? title = div.children('.title a').text()

? ? ? ? place = div.children('.address .flood .positionInfo a').text()

? ? ? ? msg = div.children('.address .houseInfo').text()

? ? ? ? price = div.children('.address .priceInfo .totalPrice span').text()

? ? ? ? per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')

? ? ? ? dict = {

? ? ? ? ? ? 'title': title,

? ? ? ? ? ? 'place': place,

? ? ? ? ? ? 'msg': msg,

? ? ? ? ? ? 'price': price,

? ? ? ? ? ? 'per_meter': per_meter

? ? ? ? }

? ? ? ? titles.append(title)

? ? ? ? places.append(place)

? ? ? ? msgs.append(msg)

? ? ? ? prices.append(price)

? ? ? ? per_meters.append(per_meter)

? ? ? ? print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

? ? datas={

? ? ? ? 'title': titles,

? ? ? ? 'place': places,

? ? ? ? 'msg': msgs,

? ? ? ? 'price': prices,

? ? ? ? 'per_meter': per_meters

? ? }

? ? df = pd.DataFrame(data=datas, columns=columns)

? ? df.to_csv('sjz.csv', mode='a', index=False, header=False)

if __name__ == '__main__':

? ? for i in range(1, 101):

? ? ? ? get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

复制代码

多进程

由于get_a_page函数要运行100次，有点小慢，所以利用多进程加快速度，这部分代码，请直接copy。

将主函数改成如下所示

from multiprocessing.pool import Pool

if __name__ == '__main__':

? ? pool = Pool(5)

? ? group = ([f'https://sjz.ke.com/ershoufang/pg{x}mw1l2/' for x in range(1, 101)])

? ? pool.map(get_a_page,group)

? ? pool.close()

? ? pool.join()

复制代码

三、结束

查看下效果：

?效果还可以。有人会说，为什么不把msg信息拆分一下，分别储存楼层、几室几厅、建筑年代等等多好。刚开始，我是那么做的，结果发现这个msg数据那几项不是必填项，有的建筑年代、楼层什么的房主不填写，索性就整个拿过来了。

小编的第一个爬虫就这样结束了。虽然简单，但是写完，还是有点小小的满足感。今后还会继续学习爬虫，写一些博客发出来。小伙伴们，点个赞再走嘛~

最后多说一句，想学习Python可联系小编，这里有我自己整理的整套python学习资料和路线，想要这些资料的都可以进q裙930900780领取。

本文章素材来源于网络，如有侵权请联系删除。

传奇手游全部平台_三端传奇开服网址大全下载_三端传奇版本下载教程

零基础小白学python之【贝壳房价爬取】（一）

零基础小白学python之【贝壳房价爬取】（一）