本站原创,欢迎转载;尊重他人劳动,转载时保留以下信息:
本文转自:360ITO技术社区
原文标题:使用python抓取并分析网页
原文地址:http://www.360ito.com/article/204.html
由于最近一直和数据和内容打交道,所以对网页内容的抓取与分析产生了兴趣。在google上搜了一些资料,发现借助python插件对网页内容的抓取还是很方便。下面简单介绍一下两个python插件:Beautiful Soup、pyquery。
Beautiful Soup 可以很好的处理不规范标记并生成剖析树(parse tree),功能非常的强大使用也很简单。
Beautiful Soup 安装
$ easy_install beautifulsoup4
$ easy_install lxml
from BeautifulSoup import BeautifulSoup doc = ['<html><head><title>PythonClub.org</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b> of ptyhonclub.org.', '<p id="secondpara" align="blah">This is paragraph <b>two</b> of pythonclub.org.', '</html>'] soup = BeautifulSoup(''.join(doc))
print soup.html.head.title #输出:<title>PythonClub.org</title>
from bs4 import BeautifulSoup import urllib2 url = 'http://www.google.com' page = urllib2.urlopen(url) soup = BeautifulSoup(page) #接下来想怎么处理,自己看着办吧
简单吧,想要深入学习吗?给你留几个链接吧!
好了,下面给大伙介绍另外一个比较火的python插件-pyquery。
pyquery之所以火爆,是因为他的使用和现在非常流行的js框架jquery非常相似。
未完,待续。。。
共有0个评论 我要评论»
网友回复/评论仅代表其个人看法,并不表明本社区同意其观点或证实其描述。
1.不欢迎无意义的回复/评论和类似“顶”、“沙发”之类没有营养的文字
如果只是想简单的表个态,请点 有用无用支持反对 等按钮
2.发言之前请再仔细看一遍文章,或许是您遗漏、误解了,理性讨论、切莫乱喷
3.严禁发布违法、违规的信息,请勿到处招贴广告、发布软文;
4.如果您发现自己的回复/评论不见了,请参考以上3条
5.不停制造违规、垃圾信息的,账户将被禁止