博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python beautifulsoup多线程分析抓取网页
阅读量:4300 次
发布时间:2019-05-27

本文共 1663 字,大约阅读时间需要 5 分钟。

#encoding=utf-8
#@description:蜘蛛抓取内容。
import Queue
import threading
import urllib,urllib2
import time
from BeautifulSoup import BeautifulSoup
hosts = [
"http://www.baidu.com",
"http://www.163.com"]#要抓取的网页
queue = Queue.Queue()
out_queue = Queue.Queue()
class ThreadUrl(threading.Thread):
    
"""Threaded Url Grab"""
    
def __init__(self, queue, out_queue):
        threading.Thread.__init__(self)
        self.queue = queue
        self.out_queue = out_queue
    
def run(self):
        
while True:
            
#grabs host from queue
            host = self.queue.get()
            proxy_support = urllib2.ProxyHandler({
'http':
'http://xxx.xxx.xxx.xxxx'})
#代理IP
            opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
            urllib2.install_opener(opener)
            
#grabs urls of hosts and then grabs chunk of webpage
            url = urllib.urlopen(host)
            chunk = url.read()
            
#place chunk into out queue
            self.out_queue.put(chunk)
            
#signals to queue job is done
            self.queue.task_done()
class DatamineThread(threading.Thread):
    
"""Threaded Url Grab"""
    
def __init__(self, out_queue):
        threading.Thread.__init__(self)
        self.out_queue = out_queue
    
def run(self):
        
while True:
            
#grabs host from queue
            chunk = self.out_queue.get()
            
#parse the chunk
            soup = BeautifulSoup(chunk)
            
print soup.findAll([
'title']))
            
#signals to queue job is done
            self.out_queue.task_done()
start = time.time()
def main():
    
#spawn a pool of threads, and pass them queue instance
    t = ThreadUrl(queue, out_queue)
    t.setDaemon(True)
    t.start()
    
#populate queue with data
    
for host 
in hosts:
        queue.put(host)
    dt = DatamineThread(out_queue)
    dt.setDaemon(True)
    dt.start()
    
#wait on the queue until everything has been processed
    queue.join()
    out_queue.join()
main()
print 
"Elapsed Time: 
%s
" % (time.time() - start)
 

转载地址:http://yavws.baihongyu.com/

你可能感兴趣的文章
FFmpeg 源码分析 - avcodec_send_packet 和 avcodec_receive_frame
查看>>
FFmpeg 新旧版本编码 API 的区别
查看>>
RecyclerView 源码深入解析——绘制流程、缓存机制、动画等
查看>>
Android 面试题整理总结(一)Java 基础
查看>>
Android 面试题整理总结(二)Java 集合
查看>>
学习笔记_vnpy实战培训day02
查看>>
学习笔记_vnpy实战培训day03
查看>>
VNPY- VnTrader基本使用
查看>>
VNPY - CTA策略模块策略开发
查看>>
VNPY - 事件引擎
查看>>
MongoDB基本语法和操作入门
查看>>
学习笔记_vnpy实战培训day04_作业
查看>>
OCO订单(委托)
查看>>
学习笔记_vnpy实战培训day05
查看>>
学习笔记_vnpy实战培训day06
查看>>
Python super钻石继承
查看>>
回测引擎代码分析流程图
查看>>
Excel 如何制作时间轴
查看>>
股票网格交易策略
查看>>
matplotlib绘图跳过时间段的处理方案
查看>>