[Python] 网络爬虫实战（一）：网站链接的初级爬取

发布时间：2017年02月09日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

闲来无事，想要学习一下Python，十月初的时候搭好了ubuntu的环境，用的是Ubuntu 16.04 32位+sublime Text3，轻量级的编程环境，感觉用起来还是比较舒服的。也陆陆续续地学习了一下python的语法和相关的知识点，并没有感觉到python有什么特别的地方，数据结构中的列表，元组和字典，还没有感到其特点在哪里比较明显，只是一个数据结构而已。恰好学院老师让搜集就业相关信息，所以就想尝试去先写一个爬虫，爬一下相关网站的相关链接。先提起兴趣，再去学习枯燥的知识点。

　　一开始以为会是很大的工程量，周五下午回到宿舍就开始查相关资料，看了一下链接，先Mark一下：汪海的实验室，很多笔记，感觉应该专业人士，而且很巧也是山大毕业的。看到了一个比较简单的教程，利用审查元素和一个python的requests模块发送请求,然后利用pyquery模块来解析数据。当然，具体的jquery语法是什么样的我还是不清楚的=，=。教程中大体的思路就是在审查元素中，先定位自己想要爬取信息的位置，找到div的id，再找到具体的标签，然后就获取到了标题。当然获取的是一个列表数据，不仅仅可以找出标题，也可以提取出来链接。具体代码和效果如下图所示：

iOS培训,Swift培训,苹果开发培训,移动开发培训

　　当然，和教程还是有一点不一样的，教程中是先定位了模块的id，但是我们学校的就业信息网列表那里并没有模块的id，所以尝试直接取获取链接文本所在模块的信息。获取得到的内容除了我想要的东西意外还有奇奇怪怪的东西，后来查了一下模块的id是唯一的，但是模块下的子名字是可以重复的，因为获取的是列表，并且信息的格式基本上是固定的，所以直接获取列表的一个子表就可以了，当然=，=不懂html的我是不了解具体原因的。。

分类导航

[Python] 网络爬虫实战（一）：网站链接的初级爬取

网友评论

更多精彩分享