问题

使用anaconda制作环境时,提示environment location direction is not empty,是因为之前已经创建过这个项目,导致有存留

C:\Anaconda\envs目录下删掉之前项目即可

开始

爬虫君子协议:robots.txt

image

尽量不做恶意爬虫

注意环境变量添加好

image

如果输入python打开了微软商店,记得将这个变量路径下移

image

注意编码方式

unicode不能作为存储和传输,需要编码 gbk或utf-8,所以爬取的内容是乱码就需要注意编码方式

win系统默认 gbk ,而多数内容默认utf-8,在爬取后要进行按utf-8编码打开

image

百度爬取是http协议,不是https

image

第一个爬虫

爬虫:通过编写程序来获取到互联网上的资源

b’代表字节,需要在python中解码,且下文中有提到 charset=utf-8

image

print(resp.read().decode("utf-8"))解码后

image

获取百度页面源代码

1
2
3
4
5
6
7
8
9
10
# 需求:用程序模拟浏览器。输入一个网址。从该网址中获取到资源或者内容

from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8") as f:
f.write(resp.read().decode("utf-8")) # 读取网页的页面源代码
print("over")