该篇文章适用于新手,让大家在刚接触爬虫的时候少踩点坑。作者接触python也有几个月时间了,最近要用python做数据采集的工作,因此要用爬虫去爬取各大门户网站。
好了,废话不多说,直接切入正题。
(声明:我整个工作都是在windows下进行的。)
1.环境配置。
python就够了,关于windows下环境搭建,网上教程很多。
这里我附一个。(http://www..com/windinsky/archive/2012/09/20/2695520.html)
python环境确定搭建成功,就可以开始写程序去爬虫了。
2.要明确你所要爬取的网站结构。
(1)url
爬虫,实际上就是解析页面的url, 以及每个页面的标签元素(html那些)。因此,要先对你所要爬取的页面 url和内容的布局非常了解。
比如,我爬取的是凤凰网的所有新闻。 凤凰网上,大部分新闻正文的页面链接,都是这种形式,ifeng前面是新闻的分类,http://news.ifeng.com/a/20170623/51308599_0.shtml。
找到了规律,就可以用正则表达式把这些页面提取出来。
关于正则表达式的学习,网上也有很多教程。这里给大家附一个比较好的链接 http://www.jb51.net/article/57150.htm
(2)页面中的标签元素
我要提取的是新闻的标题和正文内容。 如前面所说,我找到了我想要的新闻页面,可以在浏览器里用F12, 来观察页面布局。
比如凤凰网新闻正文页面, 标题都在
">