Xpath解析器:
- 什么是XPath?
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。
- 什么是XML?
XML 指可扩展标记语言(EXtensible Markup Language)
XML 是一种标记语言,很类似 HTML
XML 的设计宗旨是传输数据,而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准
选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
- 下面列出了最常用的路径表达式:
nodename :选取此节点的所有子节点。
/ :从根节点选取。
// : 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. : 选取当前节点。
.. : 选取当前节点的父节点。
@ : 选取属性。
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:
bookstore :选取 bookstore 元素的所有子节点。
/bookstore : 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book : 选取属于 bookstore 的子元素的所有 book 元素。
//book : 选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book : 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang :选取名为 lang 的所有属性。
- 小案例:
案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。
import requests
from lxml import etree
import json
class Tieba:
def __init__(self,tieba_name):
self.tieba_name = tieba_name #接收贴吧名
#设置为手机端的UA,也可以是指为浏览器的UA
self.headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}
def get_total_url_list(self):
'''获取所有的urllist'''
url = "https://tieba.baidu.com/f?kw="+self.tieba_name+"&ie=utf-8&pn={}&"
url_list = []
for i in range(100): #通过循环拼接100个url
url_list.append(url.format(i*50))
return url_list #返回100个url的urllist
def parse_url(self,url):
'''一个发送请求,获取响应,同时etree处理html'''
print("parsing url:",url)
response = requests.get(url,headers=self.headers,timeout=10) #发送请求
html = response.content.decode() #获取html字符串
html = etree.HTML(html) #获取element 类型的html
return html
def get_title_href(self,url):
'''获取一个页面的title和href'''
html = self.parse_url(url)
li_temp_list = html.xpath("http://li[@class='tl_shadow']") #分组,按照li标签分组
total_items = []
for i in li_temp_list: #遍历分组
href = "https:"+i.xpath("./a/@href")[0] if len(i.xpath("./a/@href"))>0 else None
text = i.xpath("./a/div[1]/span[1]/text()")
text = text[0] if len(text)>0 else None
item = dict( #放入字典
href = href,
text = text
)
total_items.append(item)
return total_items #返回一个页面所有的item
def get_img(self,url):
'''获取一个帖子里面的所有图片'''
html = self.parse_url(url) #返回elemet累心的html,具有xpath方法
img_list = html.xpath('//div[@data-class="BDE_Image"]/@data-url')
img_list = [i.split("src=")[-1] for i in img_list] #提取图片的url
img_list = [requests.utils.unquote(i) for i in img_list]
return img_list
def save_item(self,item):
'''保存一个item'''
with open("teibatupian.txt","a") as f:
f.write(json.dumps(item,ensure_ascii=False,indent=2))
f.write("\n")
def run(self):
#1、找到了url规律,url list
url_list = self.get_total_url_list()
for url in url_list:
#2、遍历urllist 发送请求,获得响应,etree处理html
# 3、提取title,href
total_item = self.get_title_href(url)
for item in total_item:
href = item["href"]
img_list = self.get_img(href) #获取到了帖子的图片列表
item["img"] = img_list
# 4、保存到本地
print(item)
self.save_item(item)
if __name__ == "__main__":
tieba = Tieba("美女")
tieba.run()
BeautifulSoup4解析器
和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。
Beautiful Soup 3 目前已经停止开发,推荐现在的项目使用Beautiful Soup 4。使用 pip 安装即可:pip install beautifulsoup4
四大对象种类
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
- Tag :Tag 通俗点讲就是 HTML 中的一个个标签
- NavigableString
- BeautifulSoup:BeautifulSoup 对象表示的是一个文档的内容
- Comment:Comment 对象是一个特殊类型的 NavigableString 对象,其输出的内容不包括注释符号。
- 小案例
from bs4 import BeautifulSoup
import urllib
import json # 使用了json格式存储
def tencent():
url = 'http://hr.tencent.com/'
request = urllib.request.Request(url + 'position.php?&start=10#a')
response =urllib.request.urlopen(request)
resHtml = response.read()
output =open('tencent.json','w')
html = BeautifulSoup(resHtml,'lxml')
# 创建CSS选择器
result = html.select('tr[class="even"]')
result2 = html.select('tr[class="odd"]')
result += result2
items = []
for site in result:
item = {}
name = site.select('td a')[0].get_text()
detailLink = site.select('td a')[0].attrs['href']
catalog = site.select('td')[1].get_text()
recruitNumber = site.select('td')[2].get_text()
workLocation = site.select('td')[3].get_text()
publishTime = site.select('td')[4].get_text()
item['name'] = name
item['detailLink'] = url + detailLink
item['catalog'] = catalog
item['recruitNumber'] = recruitNumber
item['publishTime'] = publishTime
items.append(item)
# 禁用ascii编码,按utf-8编码
line = json.dumps(items,ensure_ascii=False)
output.write(line.encode('utf-8'))
output.close()
if __name__ == "__main__":
tencent()