【Python】使用Beautiful Soup解析搜狐新闻网页,并从网页中抓取数据

发布时间:2024-12-08 16:52

编写Python爬虫抓取网页数据 #生活知识# #编程教程#

1、准备工作(安装bs4库,lxml库)

File  -> settings for new Project  ->  Project Interpreter  ->  点击右上方加号  ->  搜索框搜索bs4或lxml  ->  点击Install Package

2、打开搜狐新闻首页,定位数据

将鼠标光标停留在对应的数据位置并右击 --》在快捷键菜单中选择“检查“命令

随后在浏览器的右侧出现开发者界面,右击右侧高亮数据,在弹出的快捷菜单中选择”Copy“ -->"Copy Selector"命令,便可自动复制路径

将路径粘贴到文档中(编写代码会用到)

3、撰写代码

import requests

from bs4 import BeautifulSoup

url = 'http://news.sohu.com/'

strhtml = requests.get(url)

soup = BeautifulSoup(strhtml.text, 'lxml')

data = soup.select('body > div.wrapper-box > div.contentA.public.area.clearfix > '

'div.main.left > div > div.main-right.right > div > div.news > '

'p > a')

for item in data:

result = {

'title': item.get_text(),

'link': item.get('href')

}

print(result)

4、爬取数据结果

网址:【Python】使用Beautiful Soup解析搜狐新闻网页,并从网页中抓取数据 https://www.yuejiaxmz.com/news/view/415589

相关内容

告别重复任务!帮你实现自动化生活的4个网页抓取项目
推荐使用:Python驱动的个人助手
使用Python自动下载电视节目
分享4个方便且好用的Python自动化脚本
五个方便好用的Python自动化脚本
如何使用 Python 自动化日常任务
Python学习(一)
轻松实现日常任务自动化的6个Python脚本
掌握Python,高效生活:揭秘5个实用脚本,轻松解决日常编程难题!
使用手机凤凰网官网高效获取新闻资讯的五个技巧

随便看看