【Python】使用Beautiful Soup解析搜狐新闻网页，并从网页中抓取数据

发布时间：2024-12-08 16:52

编写Python爬虫抓取网页数据 #生活知识# #编程教程#

1、准备工作（安装bs4库，lxml库）

File -> settings for new Project -> Project Interpreter -> 点击右上方加号 -> 搜索框搜索bs4或lxml -> 点击Install Package

2、打开搜狐新闻首页，定位数据

将鼠标光标停留在对应的数据位置并右击 --》在快捷键菜单中选择“检查“命令

随后在浏览器的右侧出现开发者界面，右击右侧高亮数据，在弹出的快捷菜单中选择”Copy“ -->"Copy Selector"命令，便可自动复制路径

将路径粘贴到文档中（编写代码会用到）

3、撰写代码

import requests

from bs4 import BeautifulSoup

url = 'http://news.sohu.com/'

strhtml = requests.get(url)

soup = BeautifulSoup(strhtml.text, 'lxml')

data = soup.select('body > div.wrapper-box > div.contentA.public.area.clearfix > '

'div.main.left > div > div.main-right.right > div > div.news > '

'p > a')

for item in data:

result = {

'title': item.get_text(),

'link': item.get('href')

}

print(result)

4、爬取数据结果