大多数情况下,我们并不需要整个网页的内容,只是需要那么一小部分,这就涉及到了数据提取的问题

re解析

正则表达式

抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容。用正则很合适

[[正则表达式]]

bs4解析

xpath解析