数据挖掘--爬虫--解析库

XPath，全程XML Path Language，是一门在XML文档中查找信息的语言，也适用于HTML文档的搜索
XPath用法 lxml库用法

常用规则

运算符以及介绍

Beautiful Soup就是Python的一个HTML或XML的解析库

Beautiful soup在解析时实际上依赖解析库，支持的解析库如下

解析器	使用的方法	优势	劣势
Python标准库	BeautifulSoup(markup,”html.parser”)	Python内置标准库，执行速度适中，文档容错能力强	Python2.7.3以及3.2.2之前的版本文档容错能力差
lxml html解析器	BeautifulSoup(markup,”lxml”)	速度快，文档容错能力强	需要c语言库
lxml xml解析器	BeautifulSoup(markup,”xml”)	速度快，唯一支持xml的解析器	需要c语言库
html5lib	BeautifulSoup(markup,”html5lib”)	最好的容错性、以浏览器的方式解析文档、生成html5格式的文档	速度慢、不依赖扩展

获取元素方式和jquery类似

崔庆才大佬的《python3网络爬虫开发实战》