分类导航

简单高效的nodejs爬虫模型

发布时间：2016年11月28日作者：文章转自网络，版权归原作者所有，反馈可立刻删除 (该文来自笔记，点击查看原文)

这篇文章讲解一下yunshare项目的爬虫模型。

使用nodejs开发爬虫很简单，不需要类似python的scrapy这样的爬虫框架，只需要用request或者superagent这样的http库就能完成大部分的爬虫工作了。

使用nodejs开发爬虫半年左右了，爬虫可以很简单，也可以很复杂。简单的爬虫定向爬取一个网站，可能有个几万或者几十万的页面请求，复杂的爬虫类似google bot这样搜索引擎的蜘蛛爬虫，要每时每刻爬取互联网上最新的内容。

一般的个人开发者都是用爬虫定向爬取一些网站，然后提取一些结构化的数据，使用api接口获取数据也可以归到这一类。如果想简单的练习爬虫技术，可以尝试爬取豆瓣电影数据和书籍数据的，使用api接口和爬取html页面都能完成这个任务。

爬虫的说白了就是一个http客户端，通过http协议和远程http服务器通信，获取html页面内容或者其他的种子文件，pdf文件等等。和浏览器不同的一点就是爬虫不会把抓取的内容渲染出来，而是解析页面内容然后保存到数据库里面。

在开始学习爬虫的时候我考虑的是怎么爬取html页面内容，怎么解析html页面之间的链接规则，后来遇到了页面编码的问题。

统一utf8编码

国内网站主要是使用html和gbk这两种编码方式，解决编码有两种思路，第一个是在获取页面内容的时候根据页面的<meta charset='gbk'>编码把内容统一转码成utf8的，因为nodejs字符串默认编码就是utf8。

这个方案充满了不确定性。

问题1：不同网站的指定编码的方式不一样，除了前面提到的那种方式，还有<meta http-equiv="Content-Type" content="text/html; charset=gbk">这种方式指定编码，这个问题还不是很大，很多的http工具库都能正确的解析这两种编码，问题是还有很多网站没有指定编码，又或者指定的编码和文件的实际编码不一致（遇到过真实的案例）。

问题2：如果你把gbk编码的html文件转成utf8编码保存到本地，用浏览器直接打开这个文件的时候会显示乱码，非常不利于开发过程中的查找问题。

分类导航

简单高效的nodejs爬虫模型

统一utf8编码

不转码html内容

延伸阅读

我想了解如何学习