使用BeautifulSoup解析html页面 - - ITeye博客

`

riching

浏览: 261378 次
性别:
来自: 北京

最近访客更多访客>>

piaoliousihai

wj539h

xwttrenzhe

hzj451210895

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

chlhp： Session Option→选字体（新宋体）→再选Char ...
SecureCRT中文显示乱码的解决方法
Interceptor2013： org.wltea.analyzer.core.IKSegme ...
使用余弦相似性原理计算文本的相似度
renzhengzhi：我的maven版本是3.2.3，也报这个错误
maven com.github.goldin.plugins 报错
riching：君诩逸尘写道我想问下我把.project文件改了以后项目里 ...
MyEclipse buildpath 报错问题的解决方法
君诩逸尘：我想问下我把.project文件改了以后项目里面都报错啊 ...
MyEclipse buildpath 报错问题的解决方法

使用BeautifulSoup解析html页面

博客分类：

python

阅读更多

1、有很多开源库以及python自动的htmlparser库都可以解析html，简单的功能，用哪个都一样，看个人习惯，此处简单介绍一下BeautifulSoup的用法，详细的用法可以参考官方文档http://www.crummy.com/software/BeautifulSoup/
2、去上面的网址下载、解压安装，都有说明，我在python2.7的环境下面安装soup4一直报错，最后只好换成soup3的版本，具体原因没查明
3、代码示例

from BeautifulSoup import BeautifulSoup
import urllib2
content = urllib2.urlopen(url).read()
soup = BeautifulSoup(content)
构造soup对象之后，就可以按照soup的语法搜索标签了
sub_soup = soup.find(attrs={"class" : re.compile("a_con_text cont")})
sub_soup = soup.find(attrs={"class" : "t_f"})
sub_content = sub_soup.getText()
这个getText返回的是sub_soup标签之内的所有内容以及子标签的内容，不包括标签

分享到：

比较有用的java开源类库 | Python的urllib2的代理设置

2013-11-01 19:36
浏览 2079
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

BeautifulSoup解析HTML: 上传Python培训课件，关于文件相关ppt和相关代码如有需要请多多关注csdn博客http://blog.csdn.net/shenfuli

使用BeautifulSoup4解析XML的方法小结: Beautiful Soup 是一个用来从HTML或XML文件中提取数据的Python库，它利用大家所喜欢的解析器提供了许多惯用方法用来对文档树...我们以此为例，对如何使用BeautifulSoup解析HTML页面内容进行简单入门示例： from bs4

Python使用BeautifulSoup库解析HTML基本使用教程: BeautifulSoup是Python的一个第三方库，可用于帮助解析html/XML等内容，以抓取特定的网页信息。目前最新的是v4版本，这里主要总结一下我使用的v3版本解析html的一些常用方法。准备 1.Beautiful Soup安装为了能够对...

Python程序基础：解析利器beautifulsoup4库.pptx: 创建的BeautifulSoup对象是一个树形结构，它包含HTML页面中的标签元素，如、等。也就是说，HTML中的主要结构都变成了BeautifulSoup对象的一个属性，可通过“对象名.属性名”形式获取属性值。;每一个标签在...

说说如何利用 Python 的 BeautifulSoup 模块解析 HTML 页面: BeautifulSoup 是 Python 的一个模块，用于从 HTML 页面中提取信息。首先在命令行中运行 pip install beautifulsoup4 安装该模块，模块的名称是 bs4。 1 创建 BeautifulSoup 对象调用 bs4. BeautifulSoup () 函数...

要使用Python爬取网站的照片，通常可以分为以下几个步骤：: 解析HTML内容：使用beautifulsoup4库解析HTML内容，找到需要的图片所在的标签。获取图片链接：根据HTML标签中的属性，获取图片的链接。下载图片：使用urllib库下载图片并保存到本地文件。所需要的python库 ...

Python编写爬虫来获取热门文章: 上述代码首先发送了一个请求到知乎的热榜页面，并使用BeautifulSoup解析了页面的HTML代码。然后，我们找到了所有热门文章对应的HTML标签，并提取了它们的标题和摘要。本文介绍了如何使用Python编写爬虫来获取热门...

Python爬虫与Requests库笔记.md: 从分析目标网站结构，使用Requests库获取网页内容，到使用BeautifulSoup解析HTML并提取所需信息，文章完整地呈现了一个爬虫项目的流程。无论是对于初学者还是对于想要扩展网络数据获取技能的人群，本文都提供了...

Python爬虫知识及实现框架代码.rar: Python爬虫知识及实现框架代码.rar ...# 使用BeautifulSoup解析页面内容 soup = BeautifulSoup(html, 'html.parser') # 找到目标元素并提取信息 target_element = soup.find('div', class_='exampl

用python写网络爬虫: 接下来，你可以使用BeautifulSoup库来解析HTML页面。你需要将网页内容传递给BeautifulSoup的构造函数，并指定解析器类型，通常使用'html.p****r'。这样，你就可以使用BeautifulSoup对象来查找特定的HTML元素或提取感...

美图录爬虫实例(python源码): 使用BeautifulSoup库来解析HTML网页，提取所需的数据。发送HTTP请求并获取网页内容：使用requests.get()方法发送GET请求，获取美图录的首页或指定页面的内容。解析网页内容：使用BeautifulSoup库解析获取到的...

python爬取微博评论: 导入相关库：首先需要导入必要的Python库，如requests（用于发送HTTP请求）、BeautifulSoup（用于解析HTML内容）等。发送请求：使用requests库的get()方法发送GET请求，将目标微博的URL作为参数传递给该方法。可以...

python多线程爬虫爬取电影天堂资源: Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影...- 使用BeautifulSoup等库解析HTML

python网络爬虫零基础入门-思维导图合集，01-爬虫基础、02-requests模块、03-数据提取、04-selenium: 第二步,使用BeautifulSoup解析HTML源码,找到人物条目的内容;第三步,使用正则表达式提取人物条目的标题、出生年月日、职业等信息。具体代码如下: import requests from bs4 import BeautifulSoup import re url = '...

python爬取淘宝商品价格: 使用BeautifulSoup库解析HTML内容，提取商品列表中每个商品的URL。遍历商品URL列表，对每个URL发送GET请求，获取商品详情页的HTML内容。使用BeautifulSoup库解析商品详情页的HTML内容，定位到商品价格所在的元素。...

Python爬虫爬取壁纸示例: 解析页面内容：使用BeautifulSoup模块对页面进行解析，提取出壁纸的相关信息，如图片链接、名称等。下载壁纸：根据解析得到的壁纸链接，使用requests模块发送请求，将壁纸保存到本地。遍历多页：如果目标网站的...

【Python爬虫】基于 urllib 抓取指定贴吧的指定页的数据，保存到本地文件: HTML解析函数：使用正则表达式或HTML解析库（如：BeautifulSoup）解析HTML页面，提取帖子信息。数据存储函数：将提取的信息写入本地文件。使用说明：运行脚本前，需要安装Python环境，并安装urllib库（通常...

PythonSpider-master ，Python各网站爬虫脚本: Python是一种非常流行的编程语言，也被广泛用于编写网络爬虫。...解析HTML：使用BeautifulSoup库来解析HTML页面，提取出所需的数据。你可以使用CSS选择器或XPath来定位元素，并使用相应的方法获取文本、属性或链接等信

py练手实例小作业-爬取网易云音乐评论.zip: 一个网易云音乐歌曲热门评论爬取器，使用了requests库来发送网络请求，使用BeautifulSoup库来解析HTML页面和提取数据，使用正则表达式来进行字符串匹配。在代码中，首先定义了get_song_comments函数，用于获取歌曲...

Python 豆瓣爬取电影短评(最多爬取500多条短评）字段:评价等级、用户来自地区、评论时间、短评内容: 获取影评：get_comments函数通过发送HTTP请求到豆瓣电影的短评页面，使用BeautifulSoup解析HTML内容，提取短评文本、评价等级、用户所在地区和评论时间，并将这些数据添加到相应的列表中。预处理文本：preprocess_...

Global site tag (gtag.js) - Google Analytics