Python详细解析之多线程爬虫与常见搜索算法-站长资讯网

本篇文章给大家带来了关于python的相关知识，其中主要介绍了关于多线程爬虫开发以及常见搜索算法的相关问题，下面一起来看一下，希望对大家有帮助。

Python详细解析之多线程爬虫与常见搜索算法

推荐学习：python视频教程

多线程爬虫

多线程的优势

在掌握了requests与正则表达式以后，就可以开始实战爬取一些简单的网址了。
但是，此时的爬虫只有一个进程、一个线程，因此称为单线程爬虫。单线程爬虫每次只访问一个页面，不能充分利用计算机的网络带宽。一个页面最多也就几百KB，所以爬虫在爬取一个页面的时候，多出来的网速和从发起请求到得到源代码中间的时间都被浪费了。如果可以让爬虫同时访问10个页面，就相当于爬取速度提高了10倍。为了达到这个目的，就需要使用多线程技术了。

Python这门语言，有一个全局解释器锁（Global Interpreter Lock, GIL）。这导致Python的多线程都是伪多线程，即本质上还是一个线程，但是这个线程每个事情只做几毫秒，几毫秒以后就保存现场，换做其他事情，几毫秒后再做其他事情，一轮之后回到第一件事上，恢复现场再做几毫秒，继续换……微观上的单线程，在宏观上就像同时在做几件事。这种机制在I/O（Input/Output，输入/输出）密集型的操作上影响不大，但是在CPU计算密集型的操作上面，由于只能使用CPU的一个核，就会对性能产生非常大的影响。所以涉及计算密集型的程序，就需要使用多进程，Python的多进程不受GIL的影响。爬虫属于I/O密集型的程序，所以使用多线程可以大大提高爬取效率。

多进程库：multiprocessing

multiprocessing本身是Python的多进程库，用来处理与多进程相关的操作。但是由于进程与进程之间不能直接共享内存和堆栈资源，而且启动新的进程开销也比线程大得多，因此使用多线程来爬取比使用多进程有

一	二	三	四	五	六	日
« 10月
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Python详细解析之多线程爬虫与常见搜索算法

多线程爬虫

多线程的优势

多进程库：multiprocessing

相关推荐

热门标签

近期文章