一路狂飙

利用python解析html代码

常用的用来解析html的库有 BeautifulSouplxml。bs比较重,语法比较全面,lxml比较轻量,用xpath的语法。下面就来分别介绍下这两个库的用法

首先,我们准备一段html代码

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

lxml

xpath语法 传送门

from lxml import etree
html = etree.HTML(text)
# 以下为一个列表
years = html.xpath('//year')
# 找到某一个节点的文字
print years[0].text

pyquery

官方文档地址 | 简易教程 | jquery选择器

BeautifulSoup