python爬虫学习之始

问题

使用anaconda制作环境时，提示environment location direction is not empty，是因为之前已经创建过这个项目，导致有存留

在C:\Anaconda\envs目录下删掉之前项目即可

开始

爬虫君子协议：robots.txt

尽量不做恶意爬虫

注意环境变量添加好

如果输入python打开了微软商店，记得将这个变量路径下移

注意编码方式

unicode不能作为存储和传输，需要编码 gbk或utf-8，所以爬取的内容是乱码就需要注意编码方式

win系统默认 gbk ，而多数内容默认utf-8，在爬取后要进行按utf-8编码打开

百度爬取是http协议，不是https

第一个爬虫

爬虫：通过编写程序来获取到互联网上的资源

b’代表字节，需要在python中解码，且下文中有提到 charset=utf-8

print(resp.read().decode("utf-8"))解码后

获取百度页面源代码

# 需求：用程序模拟浏览器。输入一个网址。从该网址中获取到资源或者内容

from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))  # 读取网页的页面源代码
print("over")