`
riching
  • 浏览: 261378 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用BeautifulSoup解析html页面

阅读更多
1、有很多开源库以及python自动的htmlparser库都可以解析html,简单的功能,用哪个都一样,看个人习惯,此处简单介绍一下BeautifulSoup的用法,详细的用法可以参考官方文档http://www.crummy.com/software/BeautifulSoup/
2、去上面的网址下载、解压安装,都有说明, 我在python2.7的环境下面安装soup4一直报错,最后只好换成soup3的版本,具体原因没查明
3、代码示例
from BeautifulSoup import BeautifulSoup
import urllib2
content = urllib2.urlopen(url).read()
soup = BeautifulSoup(content)
构造soup对象之后,就可以按照soup的语法搜索标签了
sub_soup = soup.find(attrs={"class" : re.compile("a_con_text cont")})
sub_soup = soup.find(attrs={"class" : "t_f"})
sub_content = sub_soup.getText()
这个getText返回的是sub_soup标签之内的所有内容以及子标签的内容,不包括标签
分享到:
评论

相关推荐

    BeautifulSoup解析HTML

    上传Python培训课件,关于文件相关ppt和相关代码如有需要请多多关注csdn博客http://blog.csdn.net/shenfuli

    使用BeautifulSoup4解析XML的方法小结

    Beautiful Soup 是一个用来从HTML或XML文件中提取数据的Python库,它利用大家所喜欢的解析器提供了许多惯用方法用来对文档树...我们以此为例,对如何使用BeautifulSoup解析HTML页面内容进行简单入门示例: from bs4

    Python使用BeautifulSoup库解析HTML基本使用教程

    BeautifulSoup是Python的一个第三方库,可用于帮助解析html/XML等内容,以抓取特定的网页信息。目前最新的是v4版本,这里主要总结一下我使用的v3版本解析html的一些常用方法。 准备 1.Beautiful Soup安装 为了能够对...

    Python程序基础:解析利器beautifulsoup4库.pptx

    创建的BeautifulSoup对象是一个树形结构,它包含HTML页面中的标签元素,如、等。也就是说,HTML中的主要结构都变成了BeautifulSoup对象的一个属性,可通过“对象名.属性名”形式获取属性值。;每一个标签在...

    说说如何利用 Python 的 BeautifulSoup 模块解析 HTML 页面

    BeautifulSoup 是 Python 的一个模块,用于从 HTML 页面中提取信息。 首先在命令行中运行 pip install beautifulsoup4 安装该模块,模块的名称是 bs4。 1 创建 BeautifulSoup 对象 调用 bs4. BeautifulSoup () 函数...

    要使用Python爬取网站的照片,通常可以分为以下几个步骤:

    解析HTML内容:使用beautifulsoup4库解析HTML内容,找到需要的图片所在的标签。 获取图片链接:根据HTML标签中的属性,获取图片的链接。 下载图片:使用urllib库下载图片并保存到本地文件。 所需要的python库 ...

    Python编写爬虫来获取热门文章

    上述代码首先发送了一个请求到知乎的热榜页面,并使用BeautifulSoup解析了页面的HTML代码。然后,我们找到了所有热门文章对应的HTML标签,并提取了它们的标题和摘要。本文介绍了如何使用Python编写爬虫来获取热门...

    Python爬虫与Requests库笔记.md

    从分析目标网站结构,使用Requests库获取网页内容,到使用BeautifulSoup解析HTML并提取所需信息,文章完整地呈现了一个爬虫项目的流程。 无论是对于初学者还是对于想要扩展网络数据获取技能的人群,本文都提供了...

    Python爬虫知识及实现框架代码.rar

    Python爬虫知识及实现框架代码.rar ...# 使用BeautifulSoup解析页面内容 soup = BeautifulSoup(html, 'html.parser') # 找到目标元素并提取信息 target_element = soup.find('div', class_='exampl

    用python写网络爬虫

    接下来,你可以使用BeautifulSoup库来解析HTML页面。你需要将网页内容传递给BeautifulSoup的构造函数,并指定解析器类型,通常使用'html.p****r'。这样,你就可以使用BeautifulSoup对象来查找特定的HTML元素或提取感...

    美图录爬虫实例(python源码)

    使用BeautifulSoup库来解析HTML网页,提取所需的数据。 发送HTTP请求并获取网页内容: 使用requests.get()方法发送GET请求,获取美图录的首页或指定页面的内容。 解析网页内容: 使用BeautifulSoup库解析获取到的...

    python爬取微博评论

    导入相关库:首先需要导入必要的Python库,如requests(用于发送HTTP请求)、BeautifulSoup(用于解析HTML内容)等。 发送请求:使用requests库的get()方法发送GET请求,将目标微博的URL作为参数传递给该方法。可以...

    python多线程爬虫爬取电影天堂资源

    Python多线程爬虫爬取电影天堂资源是一个实用且具有挑战的项目。以下是对该项目的详细说明: 1. 项目概述: 该项目旨在使用Python编写一个多线程爬虫程序,从电影天堂网站上爬取电影...- 使用BeautifulSoup等库解析HTML

    python网络爬虫零基础入门-思维导图合集,01-爬虫基础、02-requests模块、03-数据提取、04-selenium

    第二步,使用BeautifulSoup解析HTML源码,找到人物条目的内容;第三步,使用正则表达式提取人物条目的标题、出生年月日、职业等信息。具体代码如下: import requests from bs4 import BeautifulSoup import re url = '...

    python爬取淘宝商品价格

    使用BeautifulSoup库解析HTML内容,提取商品列表中每个商品的URL。 遍历商品URL列表,对每个URL发送GET请求,获取商品详情页的HTML内容。 使用BeautifulSoup库解析商品详情页的HTML内容,定位到商品价格所在的元素。...

    Python爬虫爬取壁纸示例

    解析页面内容:使用BeautifulSoup模块对页面进行解析,提取出壁纸的相关信息,如图片链接、名称等。 下载壁纸:根据解析得到的壁纸链接,使用requests模块发送请求,将壁纸保存到本地。 遍历多页:如果目标网站的...

    【Python爬虫】 基于 urllib 抓取指定贴吧的指定页的数据,保存到本地文件

    HTML解析函数:使用正则表达式或HTML解析库(如:BeautifulSoup)解析HTML页面,提取帖子信息。 数据存储函数:将提取的信息写入本地文件。 使用说明: 运行脚本前,需要安装Python环境,并安装urllib库(通常...

    PythonSpider-master ,Python各网站爬虫脚本

    Python是一种非常流行的编程语言,也被广泛用于编写网络爬虫。...解析HTML:使用BeautifulSoup库来解析HTML页面,提取出所需的数据。你可以使用CSS选择器或XPath来定位元素,并使用相应的方法获取文本、属性或链接等信

    py练手实例小作业-爬取网易云音乐评论.zip

    一个网易云音乐歌曲热门评论爬取器,使用了requests库来发送网络请求,使用BeautifulSoup库来解析HTML页面和提取数据,使用正则表达式来进行字符串匹配。 在代码中,首先定义了get_song_comments函数,用于获取歌曲...

    Python 豆瓣爬取电影短评(最多爬取500多条短评)字段:评价等级、用户来自地区、评论时间、短评内容

    获取影评:get_comments函数通过发送HTTP请求到豆瓣电影的短评页面,使用BeautifulSoup解析HTML内容,提取短评文本、评价等级、用户所在地区和评论时间,并将这些数据添加到相应的列表中。 预处理文本:preprocess_...

Global site tag (gtag.js) - Google Analytics