python爬虫常用工具库总结-流冠代理

首页

HOT

动态代理IP购买 

使用流量计费

使用IP数计费

使用带宽计费

NEW

长效IP购买

提取API

工具 

API提取-动态IP

API提取-长效IP

密码生成工具

代码生成工具

短信提醒免费

使用帮助 

接入说明

API接入通道账密固定账密使用指南

常见问题

购买问题发票问题实名认证使用问题白名单问题试用流程

产品介绍

流量计费提取计费长效IP

网站动态

更新日志网站公告

示例代码

隧道账密提取API

错误码一览

设置教程

搜狗浏览器教程谷歌浏览器教程手机设置代理电脑全局代理教程 proxifier全局代理

企业服务最新资讯

领取免费试用

领取优惠券

首页 > 最新资讯 > python爬虫常用工具库总结

发布时间 2019-12-30

      说起爬虫，大家可能第一时间想到的是python，今天就简单为大家介绍下pyhton常用的一些库。

    请求库：实现基础Http操作

        urllib:python内置基本库，实现了一系列用于操作url的功能。

        requests:基于 urllib 编写的，阻塞式 HTTP 请求库，发出一个请求，一直等待服务器响应后，程序才能进行下一步处理。(http://cn.python-requests.org/zh_CN/latest/)

        selenium:自动化测试工具。一个调用浏览器的 driver，通过这个库你可以直接调用浏览器完成某些操作。(https://www.seleniumhq.org/)

        phantomjs:一个基于webkit的javascript API。（http://phantomjs.org/）

    解析库：从网页中提取信息

        lxml：支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。(http://lxml.de/)

        beautifulsoup4:html 和 XML 的解析,从网页中提取信息，同时拥有强大的API和多样解析方式。(https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/)

        pyquery:jQuery 的 Python 实现，能够以 jQuery 的语法来操作解析 HTML 文档，易用性和解析速度都很好。(https://pythonhosted.org/pyquery/)

    数据库：数据存储

        mysql(https://dev.mysql.com/downloads/mysql/)

        redis(https://redis.io/m)

        mongobd(https://www.mongodb.com/)

    web框架:

        flask:轻量级的 web 服务程序，简单，易用，灵活，主要来做一些 API 服务。做代理时可能会用到。(http://docs.jinkan.org/docs/flask/)

        django:一个 web 服务器框架，提供了一个完整的后台管理，引擎、接口等，使用它可做一个完整网站。(https://www.djangoproject.com/)

        jupyter:能让你非常方便的在数据探索过程中有良好的实时交互效果(http://jupyter.org/)

    爬虫框架

        scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如 weibo 的页面信息，这个框架就满足不了需求了。

        crawley:高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为 JSON、XML 等。

        portia:可视化爬取网页内容。

        newspaper:提取新闻、文章以及内容分析。

        python-goose:java 写的文章提取工具。

        cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高

爬虫数据采集代理ip