Python什么爬虫库好用

admin 2024-04-27 04:10:50

用Python写爬虫,用什么方式、框架比较好

我自己用scrapy比较多一些。当然小一点的项目直接就是requests。数据库的话看需求的，小一点的项目直接用sqlite，mysql和mongodb也是可以的

python爬虫用什么库

以下是爬虫经常用到的库

请求库

Python什么爬虫库好用-第1张-宠物相关-宝佳网

1.requests

requests库应该是现在做爬虫最火最实用的库了，非常的人性化。有关于它的使用我之前也写过一篇文章一起看看Python之Requests库，大家可以去看一下。

2.urllib3

urllib3是一个非常强大的http请求库，提供一系列的操作URL的功能。

3.selenium

自动化测试工具。一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

对于这个库并非只是Python才能用，像JAVA、Python、C#等都能够使用selenium这个库

4.aiohttp

基于asyncio实现的HTTP框架。异步操作借助于async/await关键字，使用异步库进行数据抓取，可以大大提高效率。

这个属于进阶爬虫时候必须掌握的异步库。有关于aiohttp的详细操作，可以去官方文档：https://aiohttp.readthedocs.io/en/stable/

Python学习网-专业的python自学、交流公益平台！

解析库

1、beautifulsoup

html和XML的解析,从网页中提取信息，同时拥有强大的API和多样解析方式。一个我经常使用的解析库，对于html的解析是非常的好用。对于写爬虫的人来说这也是必须掌握的库。

2、lxml

支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。

3、pyquery

jQuery的Python实现，能够以jQuery的语法来操作解析HTML文档，易用性和解析速度都很好。

数据存储

1、pymysql

官方文档：https://pymysql.readthedocs.io/en/latest/

一个纯Python实现的MySQL客户端操作库。非常的实用、非常的简单。

2、pymongo

官方文档：https://api.mongodb.com/python/

顾名思义，一个用于直接连接mongodb数据库进行查询操作的库。

3、redisdump

redis-dump是将redis和json互转的工具；redis-dump是基于ruby开发，需要ruby环境，而且新版本的redis-dump要求2.2.2以上的ruby版本，centos中yum只能安装2.0版本的ruby。需要先安装ruby的管理工具rvm安装高版本的ruby。

python爬虫框架哪个好用

爬虫框架中比较好用的是Scrapy和PySpider。pyspider上手更简单，操作更加简便，因为它增加了WEB界面，写爬虫迅速，集成了phantomjs，可以用来抓取js渲染的页面。Scrapy自定义程度高，比PySpider更底层一些，适合学习研究，需要学习的相关知识多，不过自己拿来研究分布式和多线程等等是非常合适的。

PySpider

PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是：

抓取、更新调度多站点的特定的页面

需要对页面进行结构化信息提取

灵活可扩展，稳定可监控

pyspider的设计基础是：以python脚本驱动的抓取环模型爬虫

通过python脚本进行结构化信息的提取，follow链接调度抓取控制，实现最大的灵活性

通过web化的脚本编写、调试环境。web展现调度状态

抓取环模型成熟稳定，模块间相互独立，通过消息队列连接，从单进程到多机分布式灵活拓展

pyspider的架构主要分为scheduler（调度器）,fetcher（抓取器）,processor（脚本执行）：

各个组件间使用消息队列连接，除了scheduler是单点的，fetcher和processor都是可以多实例分布式部署的。scheduler负责整体的调度控制

任务由scheduler发起调度，fetcher抓取网页内容，processor执行预先编写的python脚本，输出结果或产生新的提链任务（发往scheduler），形成闭环。

每个脚本可以灵活使用各种python库对页面进行解析，使用框架API控制下一步抓取动作，通过设置回调控制解析动作。

Python什么爬虫库好用

请求库：

1.requests这个库是爬虫最常用的一个库

2.SeleniumSelenium是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作对于一些用JS做谊染的页面来说，这种抓取方式是非常有效的。

3.ChomeDrive安装了这个库，才能驱动Chrome浏览器完成相应的操作

4.GeckoDriver使用W3CWebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJSPhantomJS是一个无界面、可脚本编程的WebKit浏览器引擎，它原生支持多种Web标准：Dom操作，css选择器，json，Canvas以及SVG。

6.aiohttp之前接收requests库是一个阻塞式HTTP请求库，当我们发送一个请求后。程序会一直等待服务器响应，直到服务器响应后，程序才会最下一步处理。其实，这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情，如进行请求的调度，响应的处理等，那么爬虫的效率就会比之前的那种方式有很大的提升。而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

解析库：

1.lxmllxml是python的一个解析库，这个库支持HTML和xml的解析，支持XPath的解析方式，而且效率也是非常高的，深受广大程序员的热爱

2.BeautifulSoupBeautifulSoup也是python里一个HTML或XMl的解析库，它可以很方便的懂网页中提取数据，拥有强大的API和多种解析方式。

3.pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文梢，

数据库：

1.mysql数据库

2.MongoDBMogoDB是由＋＋语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统内容存储形式类似JSON对象，它的字段值可以包含其他文档、数组及文档数组，非常灵活

3.Redis是一个基于存的高效的非关系型数据库，

存储库：

1.PyMySOL

2.PyMongo

3.redis-py