360ITO技术社区
  • 首页
  • 文章
  • 快讯
  • 讨论
  • 问答
  • 小贴士
  • 代码块
  • 开源
  • 老论坛
登录 | 注册

360ITO技术社区  > 文章

订阅文章

使用python抓取并分析网页

山猫 发布于 8年前 ( comment 0条评论  查看:5540  收藏:0 )

由于最近一直和数据和内容打交道,所以对网页内容的抓取与分析产生了兴趣。在google上搜了一些资料,发现借助python插件对网页内容的抓取还是很方便。下面简单介绍一下两个python插件:Beautiful Soup、pyquery。

Beautiful Soup

Beautiful Soup 可以很好的处理不规范标记并生成剖析树(parse tree),功能非常的强大使用也很简单。

Beautiful Soup 安装

$ easy_install beautifulsoup4
如果没有lxml也需要安装
$ easy_install lxml
好了简单使用下吧
from BeautifulSoup import BeautifulSoup
doc = ['<html><head><title>PythonClub.org</title></head>',
       '<body><p id="firstpara" align="center">This is paragraph <b>one</b> of ptyhonclub.org.',
       '<p id="secondpara" align="blah">This is paragraph <b>two</b> of pythonclub.org.',
       '</html>']
soup = BeautifulSoup(''.join(doc))
接下来就可以查找html中指定的标签了
print soup.html.head.title

#输出:<title>PythonClub.org</title>
那么如何抓取网页内容呢,也很简单哦
from bs4 import BeautifulSoup
import urllib2

url = 'http://www.google.com'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)

#接下来想怎么处理,自己看着办吧


简单吧,想要深入学习吗?给你留几个链接吧!

官方文档

中文帮助


好了,下面给大伙介绍另外一个比较火的python插件-pyquery。

pyquery

pyquery之所以火爆,是因为他的使用和现在非常流行的js框架jquery非常相似。

未完,待续。。。

0 有用 0 无用
本站原创,欢迎转载;尊重他人劳动,转载时保留以下信息:
本文转自:360ITO技术社区
原文标题:使用python抓取并分析网页
原文地址:http://www.360ito.com/article/204.html
360ito.com

共有0个评论 我要评论»

按时间排 按有用数排 按支持数排

网友回复/评论仅代表其个人看法,并不表明本社区同意其观点或证实其描述。

请尽量让自己的回复能够对别人有帮助

1.不欢迎无意义的回复/评论和类似“顶”、“沙发”之类没有营养的文字
如果只是想简单的表个态,请点 有用无用支持反对 等按钮
2.发言之前请再仔细看一遍文章,或许是您遗漏、误解了,理性讨论、切莫乱喷
3.严禁发布违法、违规的信息,请勿到处招贴广告、发布软文;
4.如果您发现自己的回复/评论不见了,请参考以上3条
5.不停制造违规、垃圾信息的,账户将被禁止

热门标签

  • android 20
  • Flash 15
  • 游戏 12
  • Linux 12
  • Python 11
  • 工作笔记 11
  • 社交游戏 7
  • delphi 5
  • jquery 5
  • 编程 4
  • 谷歌 4
  • git 4
  • Centos 4
  • JavaScript 3
  • 开发者 3
  • C/C++ 3
  • 安全 2
  • 代码 2
  • 浏览器 2
  • 移动应用 2

相关文章

周热点

月热点

Copyright ©2011-2012 360ITO技术社区 All Rights Reserved. | 关于 | 联系我们 | 杭州精创信息技术有限公司 浙ICP备09019653号-26|
▲