爬虫:
平台或者机构不能够提供我们需要的数据,
这时就需要爬虫工程师,根据需求从互联网上抓取数据?
什么是爬虫?
就是一段自动抓取互联网数据的程序或脚本
爬虫最基本的步骤:
1.寻找目标url,发起请求
2.获取请求的响应结果,分析响应结果
3.从响应结果中提取数据
a.第一部分,从网页中提取的目标数据
b.如果存在新的url地址,则提取,继续发起请求
爬虫结束:所有的目标url全部请求完毕,爬虫结束
数据的用途:
1.可以爬取数据,写自己的网站
2.搜索引擎
3.购物助手
4.日常数据的基本分析(知乎数据冰山专栏)
做爬虫可以用python java php c/c++ switch ... 完成
爬虫的分类:
1.通用爬虫:是搜索引擎的重要组成部分
作用和目的:尽可能全的将互联网上所有的网页下载到
本地,通过分词,去噪等进行预处理,处理后进行数据的持久化(
镜像备份),然后提取检索系统
获取数据的步骤):
a.获取一些种子url,放入待爬取队列
b.从待爬取队列中取出url发起请求,将获取的响应结果
进行处理,之后存入本地,然后将已爬取的url,放入已爬
取队列
c.从响应结果中获取外链(url),将url放入待爬取队列中
2.聚焦爬虫
焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
DNS服务:将域名转换为ip的技术
搜索引擎获取网站的url:
1.向搜索引擎直接提交url地址(https://ziyuan.baidu.com/linksubmit/url)
2.通过网页的外链
3.跟DNS服务商合作,新网站注册的域对应的网
站将会迅速被搜索引擎抓取