你正在学习编程,那么“爬虫”肯定是你不行忽视的。那么,学习python爬虫之前需求哪些预备?
一颗酷爱学习,百折不挠的心
一台有键盘的电脑(什么体系都行。我用的os x,所以比方会以这个为准)
html相关的一些常识。不需求通晓,能懂一点就行
Python的根底语法常识 。
当这些你都具有了,这个时分你需求学习:
0.根本的爬虫作业原理
1.根本的http抓取东西:scrapy
2.Bloom Filter: Bloom Filters by Example
3.假如需求大规模网页抓取,你需求学习分布式爬虫的概念。简略来说,你只需学会怎样保护一个一切集群机器能够有用共享的分布式行列就好。最简略的实现是python-rq: https://github.com/nvie/rq
4.rq和Scrapy的结合:darkrho/scrapy-redis · GitHub
5.后续处理:网页析取(grangier/python-goose · GitHub),存储(Mongodb)
python的火,很大原因便是各种好用的模块,这些模块是居家游览爬网站常备的——
NO.1 F12 开发者东西
看源代码:快速定位元素
剖析xpath:1、此处主张谷歌系浏览器,能够在源码界面直接右键看
NO.2 抓包东西
引荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12东西都要好,能够便利检查网站收包发包的信息
NO.3 XPATH CHECKER (火狐插件)
十分不错的xpath测验东西,不过也有几个小缺陷,:
xpath checker生成的是肯定路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的肯定路径很有或许形成过错,所以这儿主张在真实剖析的时分,仅仅作为参阅
记得把如下图xpath框里的“x:”去掉,形似这个是前期版别xpath的语法,现在现已和一些模块不兼容(比方scrapy),仍是删去防止报错。
NO.4 正则表达测验东西
在线正则表达式测验 ,拿来多练练手,也辅佐剖析!里边有许多现成的正则表达式能够用,也能够进行参阅!