bs4学习网址

2022年5月4日 星期三


bs4 学习网址

bs4学习网址

  1. BeautifulSoup 导入bs4库以后,你要告诉bs解析成何种代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import requests
from bs4 import BeautifulSoup

url='https://b.faloo.com/1134941.html/'
domain = "https://umei.net"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}

response=requests.get(url,headers=headers)
response.encoding='gbk'
html = BeautifulSoup(response.text,'html.parser')
# print(html)
ul=html.select("div .DivTd a")
print(type(ul)) #是一个bs4对象
print(ul)
print(html.a) #获取a标签,只能获取一个a标签,如果获取多个a标签,需要用到select或find_all
print(html.a.string) #获取a标签中的文本
print(html.a['href']) #获取里面的属性值
for a in ul:
print(a.text)
print(a.get('href').strip('//'))