该如何循序渐进学习Python爬虫_自学python爬虫路线

admin 2024-05-08 22:47:04

如何入门python爬虫

#-*-coding:utf-8-*-

importre

该如何循序渐进学习Python爬虫_自学python爬虫路线-第1张-宠物相关-宝佳网

importurllib2

fromcollectionsimportdeque

queue=deque()

visited=set()

url='入口页面,可以换成别的

req_header={'User-Agent':'Mozilla/5.0(WindowsNT6.3;WOW64;Trident/7.0;rv:11.0)likeGecko'}

req_timeout=20

queue.append(url)

cnt=0

whilequeue:

url=queue.popleft()#队首元素出队

visited|={url}#标记为已访问

print(u'已经抓取:'+str(cnt)+u'正在抓取<---'+url)

cnt+=1

req=urllib2.Request(url,None,req_header)

urlop=urllib2.urlopen(req,None,req_timeout)

try:

data=urlop.read().decode('utf-8')

except:

continue

#正则表达式提取页面中所有队列,并判断是否已经访问过,然后加入待爬队列

linkre=re.compile('href=\"(.+?)\"')

forxinlinkre.findall(data):

print(x)

if'http'inxandxnotinvisited:

queue.append(x)

print(u'加入队列--->'+x)

该如何循序渐进学习Python爬虫_自学python爬虫路线

学习Python的三种境界

前言

王国维在《人间词话》中将读书分为了三种境界：“古今之成大事业、大学问者，必经过三种之境界：‘昨夜西风凋碧树，独上高楼，望尽天涯路’。此第一境也。‘衣带渐宽终不悔，为伊消得人憔悴。’此第二境也。‘众里寻他千百度，蓦然回首，那人却在灯火阑珊处’。此第三境也。我从入门Python到现在也没有多少时间，所以写如此大的一个题目必定会引发各种批判，当然我没有想造一个大新闻，只是想根据自己的学习历程做一个简单的总结，同时将这三个阶段对应的一些好的书籍简单介绍介绍。

正文

Python的用途十分广泛，不同的程序员将其用于不用的领域，不同的程序员将自己的代码打包成库，供其他程序员使用，从而少造轮子，各种库的使用，加之Python本身的灵活性、易读性，易写性，使用的人越来越多，tiobe统计编程语言的使用率如下：Python在一年之间使用排行榜中上升了3名，而且各大公司在招聘员工的时候如果能掌握Python，肯定是一个加分项，因为Python在文本处理，小程序的写作方面具有太强的优势，前段时间一个朋友让帮忙改下他们公司logo的颜色，第一个想到的就是用Python，女票让我帮她预处理大数据，第一个想到的仍然是Python等等，当然并没有说其他语言不好，也不是为了讨论哪种语言更好，只是Python确实是一门会让人幸福的语言，下面粗浅的说说我对Python学习过程中的境界划分以及推荐书籍。

第一个阶段：初级，掌握Python的语法和一些常用库的使用

这里首先推荐在腾讯官方课程平台上进行直播学习，有号就能无偿一直学，每天晚上都是高清直播(企鹅球球：1129中间是834最后加上这个903连在一起就可以了），除此之外基于python2.7在网上的书籍适合于重头开始一直读完，作为一个开发人员，除了基本的语法，这本书里面提到了一些其他的常用的库，看了廖老师写的很多东西，感觉他的思路，以及写博客写书的高度，概括性，原理性都十分好，这本书读完之后，相信就可以动手写很多东西了，可以尽情的玩转Python解释器了。

另外还有一本书《Python参考手册》，这本书也十分的有用，关于Python的方方面面基本都囊括在内，可以作为一本Python字典来查询使用方法，十分好用。

掌握一门语言最好的方法就是用它，所以我觉得边学语法边刷Leetcode是掌握Python最快的方式之一。

很多只需要将Python作为脚本或者就是写一些小程序处理处理文本的话，到这一个阶段就足够了，这个阶段已经可以帮我们完成很多很多的事情了。但是如果是一个专业学习Python的，恐怕还需要努力的升级：首先，国内的大多数人都是学习了其他语言（C，C,Java等）之后来学习Python的，所以Python和这些语言的不同，也就是pythonic的东西需要一些时间去学习了解和掌握；另外，对于自己领域的领域的库构架的掌握也需要很长的时间去掌握；最后，如果想独立完成一个Python的项目，项目的布局，发布，开源等都是需要考虑的问题。

第二个阶段：中级，掌握自己特定领域的库，掌握pythonic写法，非常熟悉Python的特性

推荐的第一本书是《编写高质量代码_改善python程序的91个建议》，这本书大概的提了下Python工程的文件布局，更多的总结了如何写出pythonic的代码，另外，也介绍了一些常用的库。

要想深入的了解Python，有的时候看看Python的源码也是很重要的，自己通过读懂源码，来彻底的了解Python的核心机制，这里推荐《Python源码剖析——深度探索动态语言核心技术》，这本书并没有看完，只是在需要深入了解Python某个功能或者数据结构的时候看看相关章节，也觉得受益匪浅。

自己领域的书籍和资料也肯定很多，比如web开发的构架都有很多，只有了解熟悉了所有构架，在选择的时候才能衡量利弊，然后深入掌握某些构架。

这个阶段过后，可以写出pythonic代码，可以通过PEP8的检查，可以为开源社区做贡献了，可以将一个Python文件写的十分好，但是如果要用Python开发一个大型项目，还是有很多东西需要掌握的，比如项目的文档，项目的发布，下载，项目性能和案例等等。

第三个阶段：高级，从整个工程项目着眼，考虑document，性能优化等

目前只看了一本书《thehackerguidetopython》，看的是英文版的，这本书对项目的布局，文档，性能，发布等做了很多详细的介绍，我觉得写的还是很不错，只不过本人还需要再读几遍。

对于大多数人来说，很难有机会从头开始一个有意义的大型工程项目，所以自己可以用Python实现一些简单的功能，简单的项目，这个灵感可以去知乎或者quora搜索，很多前辈都分享了自己的经验。

从大局入手，规划好项目的布局，设定好相应的文档说明，提供工程下载安装的方法，带几个demo，每个类，每个函数，每行代码都反复推敲，写出pythonic的程序，相信这时候Python于我们便是信手拈来了！

总结

本文只是我认为的学习Python的三种境界，以我粗浅之眼光，肯定有太多太多的不足，而且自己也就是一个介于初级和高级Python程序员的水平，写这个文章，也算是给自己设立的一个目标吧。

如何入门 Python 爬虫

“入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不会像学习模块一样慢慢学习。

如果你想要入门Python爬虫，你需要做很多准备。首先是熟悉python编程；其次是了解HTML；

还要了解网络爬虫的基本原理；最后是学习使用python爬虫库。

如果你不懂python，那么需要先学习python这门非常easy的语言。编程语言基础语法无非是数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理这些，学起来会显枯燥但并不难。

刚开始入门爬虫，你甚至不需要去学习python的类、多线程、模块之类的略难内容。找一个面向初学者的教材或者网络教程，花个十几天功夫，就能对python基础有个三四分的认识了。

网络爬虫的含义：

网络爬虫，其实也可以叫做网络数据采集更容易理解。就是通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。

这会涉及到数据库、网络服务器、HTTP协议、HTML、数据科学、网络安全、图像处理等非常多的内容。但对于初学者而言，并不需要掌握这么多。

如何入门Python爬虫

个人觉得：

新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定）

1.打开网页，下载文件：urllib

2.解析网页：，熟悉JQuery的可以用Pyquery

3.使用Requests来提交各种类型的请求，支持重定向，cookies等。

4.使用Selenium，模拟浏览器提交类似用户的操作，处理js动态产生的网页

这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。

做事情是要有驱动的，如果你没什么特别想抓取的，新手学习可以从这个闯关网站开始

目前更新到第五关，闯过前四关，你应该就掌握了这些库的基本操作。

实在闯不过去，再到这里看题解吧，第四关会用到并行编程。（串行编程完成第四关会很费时间哦），第四，五关只出了题，还没发布题解。。。

学完这些基础，再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。

python 爬虫(学了3天写出的代码)

importrequestsimportparselimportthreading,osimportqueue

classThread(threading.Thread):definit(self,queue,path):threading.Thread.init(self)self.queue=queueself.path=path

defdownload_novel(url,path):res=get_response(url)selctor=parsel.Selector(res)title=selctor.css('.bookname>h1::text').get()print(title)content=''.join(selctor.css('#content::text').getall())#使用join方法改变内容；withopen(path+title+".txt","w",encoding='utf-8')asf:f.write(content)print(title,'保存成功!')f.close()

defget_response(url):#获得网站源码；response=requests.get(url)response.encoding='utf-8'returnresponse.text

ifname=='main':#函数入口url=str(input('请输入你要下载小说的url:'))response=get_response(url)sel=parsel.Selector(response)novelname=sel.css('#info>h1::text').get()urllist=sel.css('.box_conpdldda::attr(href)').getall()queue=queue.Queue()path='./{}/'.format(novelname)

随机文章

狗狗喝水器，狗狗喝水器怎么开

鹦鹉鱼身上有黑色怎么回事，鹦鹉鱼身上出黑斑是怎么回事

罗汉鱼什么时候起头变色

小孩反胃呕吐吃什么缓解

求洛克王国中所有宠物的分布地点

成都宠物医院24小时急诊，成都24h宠物医院

本文地址： http://www.99baojianpin.com/post/95654.html