之前一直以为"爬虫"是一门高大上的技术,但自从遇见goquery之后,发现爬取网站也可以这么简单。
goquery是一个使用go语言写的HTML解析库,它最大的特点就是可以像使用jQuery那样,来方便地操作DOM文档,相信做过web开发的人员很快就能掌握其使用方法。
selector(选择器)
我认为selector是这个框架的灵魂所在,就是因为实现了类似于jQuery的DOM选择功能,才使得框架非常容易使用。
以下是几个常用的选择器,看着是不是很熟悉:
s.Find("div") // 元素选择
s.Find("#Content") // id选择
s.Find(".content") // class选择
s.Find("div[id=Content]") // 属性选择
s.Find("div>p") // 子元素选择
s.Find("div+p") // 相邻元素选择
s.Find("div~p") // 兄弟元素选择
s.Find("#Content").Text() // 获取对象的文本内容
s.Find("#Content").Html() // 获取对象的html
s.Find("#Content").Attr("src") // 获取对象的src属性值
这里推荐一篇文章,非常详细地介绍了goquery选择器的各种用法。
实战
介绍方面网上有写的很好的文章,我也没有什么新的内容补充,所以直接进入实战部分了。
页面分析
这里我用goquery爬了豆瓣电影(心疼豆瓣,好多人把豆瓣电影当爬虫练手),通过对豆瓣电影主页进行分析,发现电影列表是通过ajax获取的,然而goquery针对的只是静态的DOM文档,对于动态的数据它就无能为力了。
通过观察,找到获取电影列表的url,发现是get方法获取的,那么我们就可以编程构造get请求获取电影列表进行处理了,其有type、tag、sort、page_limit、page_start这几个参数,操作一下页面很容易获取这几个参数值。
使用goquery爬取的是具体的电影详情页面,也没有搞得多复杂,只获取一些基本信息用于展示即可。
爬取电影详情页信息
其实文字上也没什么好描述的,看代码来的更直观明了,先讲一下步骤,首先自然是要get请求获取页面内容了,然后创建一个goquery解析器,最后使用选择器获取需要的数据即可。
func GetMovieInfo(url string) *MovieParam {
// get请求获取页面
res, err := http.Get(url)
if err != nil {
log.Println(err)
return nil
}
defer res.Body.Close()
if res.StatusCode != 200 {
log.Printf("status code error: %d %s", res.StatusCode, res.Status)
return nil
}
// 创建解析器
doc, err := goquery.NewDocumentFromReader(res.Body)
if err != nil {
log.Println(err)
return nil
}
param := MovieParam{}
doc.Find("#content").Each(func(i int, s *goquery.Selection) {
param.Year = s.Find("h1 .year").Text() // 年份
param.Img, _ = s.Find("#mainpic img").Attr("src") // 图片
param.Summary, _ = s.Find("#link-report span[property]").Html() // 摘要
param.Rating_people = comhelper.StringToInt(s.Find(".rating_people span[property]").Text()) // 评论人数
star, _ := s.Find(".bigstar").Attr("class") // 星级值
param.Bigstar = comhelper.StringToInt(star[len(star)-2 : len(star)])
stars_five := s.Find(".stars5+div+span").Text() // 5星的比例值
param.Stars_five = comhelper.StringToFloat(stars_five[0:len(stars_five)-1], 64)
stars_four := s.Find(".stars4+div+span").Text() // 4星的比例值
param.Stars_four = comhelper.StringToFloat(stars_four[0:len(stars_four)-1], 64)
stars_three := s.Find(".stars3+div+span").Text() // 3星的比例值
param.Stars_three = comhelper.StringToFloat(stars_three[0:len(stars_three)-1], 64)
stars_two := s.Find(".stars2+div+span").Text() // 2星的比例值
param.Stars_two = comhelper.StringToFloat(stars_two[0:len(stars_two)-1], 64)
stars_one := s.Find(".stars1+div+span").Text() // 1星的比例值
param.Stars_one = comhelper.StringToFloat(stars_one[0:len(stars_one)-1], 64)
// 图片转换成base64
img_url, _ := _download_img(param.Img)
new_img, err := comhelper.ImgToBase64(img_url)
if err == nil && new_img != "" {
param.Img = new_img
}
s.Find("#info").Each(func(ii int, ss *goquery.Selection) {
info, _ := ss.Html()
param.Director = ss.Find("a[rel*=directedBy]").Text() // 导演
film_length, _ := ss.Find("span[property*=runtime]").Attr("content") // 时长
param.Film_length = comhelper.StringToInt(film_length)
param.Release_date = ss.Find("span[property*=initialReleaseDate]").Text() // 上映日期
// 获取类型
tags := ""
ss.Find("span[property*=genre]").Each(func(i int, s *goquery.Selection) {
if tags == "" {
tags += s.Text()
} else {
tags += "/" + s.Text()
}
})
param.Tags = tags
// 获取主演
actor := ""
ss.Find("a[rel*=starring]").Each(func(i int, s *goquery.Selection) {
if actor == "" {
actor += s.Text()
} else {
actor += "/" + s.Text()
}
})
param.Actor = actor
c_start := strings.Index(info, "<span class=\"pl\">制片国家/地区:</span>")
c_end := strings.Index(info, "<span class=\"pl\">语言")
param.Country = comhelper.TrimHtml(info[c_start+44 : c_end])
})
})
return ¶m
}
那些有id、class或者特殊属性的字段最容易获取了,比较麻烦的是那些没有明显特征的字段,只能通过字符串截取的方法获取了,不过也都是些常规操作,整个流程下来没什么难点,这也说明了goquery的简单易用。
成果展示
成果展示以及源码点击这里(抱歉,服务器太贵了,已脱坑)
遇到的问题
频繁访问会导致ip被锁住,不过我也只是练习,所以只是爬取了一点数据用来展示。
图片会有访问权限的问题,所以我转换成了base64格式存到数据库里,不过在页面渲染的时候由于数据量过大导致页面加载巨慢。