问题
使用anaconda制作环境时,提示environment location direction is not empty
,是因为之前已经创建过这个项目,导致有存留
在C:\Anaconda\envs
目录下删掉之前项目即可
开始
爬虫君子协议:robots.txt
尽量不做恶意爬虫
注意环境变量添加好
如果输入python打开了微软商店,记得将这个变量路径下移
注意编码方式
unicode不能作为存储和传输,需要编码 gbk或utf-8,所以爬取的内容是乱码就需要注意编码方式
win系统默认 gbk ,而多数内容默认utf-8,在爬取后要进行按utf-8编码打开
百度爬取是http协议,不是https
第一个爬虫
爬虫:通过编写程序来获取到互联网上的资源
b’代表字节,需要在python中解码,且下文中有提到 charset=utf-8
print(resp.read().decode("utf-8"))
解码后
获取百度页面源代码
1 | # 需求:用程序模拟浏览器。输入一个网址。从该网址中获取到资源或者内容 |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ZYU0.REALM!
评论
ValineDisqus