Python] 网络爬虫实战（一）：网站链接的初级爬取

发布时间：2016年11月02日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

闲来无事，想要学习一下Python，十月初的时候搭好了ubuntu的环境，用的是Ubuntu 16.04 32位+sublime Text3，轻量级的编程环境，感觉用起来还是比较舒服的。也陆陆续续地学习了一下python的语法和相关的知识点，并没有感觉到python有什么特别的地方，数据结构中的列表，元组和字典，还没有感到其特点在哪里比较明显，只是一个数据结构而已。恰好学院老师让搜集就业相关信息，所以就想尝试去先写一个爬虫，爬一下相关网站的相关链接。先提起兴趣，再去学习枯燥的知识点。

一开始以为会是很大的工程量，周五下午回到宿舍就开始查相关资料，看了一下链接，先Mark一下：汪海的实验室，很多笔记，感觉应该专业人士，而且很巧也是山大毕业的。看到了一个比较简单的教程，利用审查元素和一个python的requests模块发送请求,然后利用pyquery模块来解析数据。当然，具体的jquery语法是什么样的我还是不清楚的=，=。教程中大体的思路就是在审查元素中，先定位自己想要爬取信息的位置，找到div的id，再找到具体的标签，然后就获取到了标题。当然获取的是一个列表数据，不仅仅可以找出标题，也可以提取出来链接。具体代码和效果如下图所示：

当然，和教程还是有一点不一样的，教程中是先定位了模块的id，但是我们学校的就业信息网列表那里并没有模块的id，所以尝试直接取获取链接文本所在模块的信息。获取得到的内容除了我想要的东西意外还有奇奇怪怪的东西，后来查了一下模块的id是唯一的，但是模块下的子名字是可以重复的，因为获取的是列表，并且信息的格式基本上是固定的，所以直接获取列表的一个子表就可以了，当然=，=不懂html的我是不了解具体原因的。。

这样就是静态的抓取了一个网页里面的部分文章标题及链接，但是想实现的是提醒更新的功能。很自然地一个想法就是拿爬下来的内容和之前的内容进行比较，没有更新的就直接忽略，有更新的话就把更新内容保存下来，最后只提醒更新内容就好了。正好python处理字符串还是比较人性化的，文件操作里面有f.readline()，同时可以直接进行字符串的比较，所以就拿爬下来的第一行数据和之前文件里的第一行数据进行比较，如果相同的话忽略本次爬取，不同的话循环比较，直到遇到相同的数据，把之前的数据存到本地，实现更新内容的动态提醒。最终实现了对三个网页，山东大学（威海）就业信息网的两个模块和哈尔滨工业大学（威海）的一个模块的数据提取。代码如下：

						 View Code
					

因为对python语言不太熟悉，所以可能很多语法的写法并不像python工程师的写法，之后会系统地学习然后改过。

到这里还算比较顺利的，代码量不大，直接调库就实现了我想要的功能，一共用了三四个小时的样子，但是这样明显不能够满足我的需求，毕竟python是一个脚本文件，如果我想把它发给别人，那对方也必须要配置好pyt

分类导航

Python] 网络爬虫实战（一）：网站链接的初级爬取

延伸阅读

我想了解如何学习