使用Python寫的一個爬蟲【任務佇列版本】

阿新 • • 發佈：2019-02-03

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import urllib
from pyquery import PyQuery as pq
import codecs
import Queue



class Fetcher:
    def __init__(self):
        self.q = Queue.Queue()
        self.q.put(("http://www.7dsw.com/toplastupdate/1.html",0))

    def work(self,):
        while not self.q.empty():
            url,tp = self.q.get()
            page = self.getPage(url)
            if 
 tp == 0:
                self.getCapUrl(page)
            else:
                self.getContent(page)                

    def getPage(self,url):
        print 'fetch page...'
        resp = urllib.urlopen(url)
        page = resp.read()
        page = page.decode('gbk')
        return page
    def getCapUrl 
(self,page):    
        doc = pq(page)
        wanted = doc('#newscontent ul a')
        i = 1
        dir(wanted[i])
        while i<len(wanted):
            u  = wanted.eq(i).attr("href")
            print u # the ap link we get 
            self.q.put((u,1))
            i+= 2
    def saveFile 
(self,filename,data):
        fp = codecs.open(filename,'a','utf-8')
        fp.write(data)
        fp.write("\r\n------------------------\r\n");
        fp.close()


    def getContent(self,page):
        doc = pq(page)
        wanted = doc('#BookText')
        self.saveFile("aa.txt",wanted.text())
        #print wanted.text()



f = Fetcher()
f.work()

使用Python寫的一個爬蟲【任務佇列版本】

#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib from pyquery import PyQuery as pq import cod

【python學習】使用python寫一個2048小遊戲

ast stc 遊戲多少 wan nbsp 小遊戲效果參考個人博客：jerwang.cn 沒有參考其他代碼,效果圖：話不多少，源代碼： https://github.com/jerustc/Python/blob/master/2048.py【python學

一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單

經過兩天的摸索，終於寫出了一個小小小爬蟲。我的電腦是沒有配置python環境的，所以首先要上官網下載python的環境檔案。點選點頭指向的按鈕，下載到桌面，它是一個這樣的檔案“python-3.6.5.exe”，下載成功後直接點選安裝，安裝成功後，那接下來就是配置環境變數啦。 &

記錄我的爬蟲之路1--爬蟲起步的urlib.request Python寫一個不用Scrapy框架的裸奔小幼兒爬爬

這幾天得知保研失敗了….剛好卡在保研名額外一名…雖然最近寫什麼東西都忍不住碎碎唸叨這一句話 =。=，但是好像也覺得能找到喜歡的東西了~比如現在打算認真學的爬蟲了~今天剛把小甲魚入門python的爬蟲部分學完，利用scrapy框架能順利地爬出dmoztools的

python例項2-寫一個爬蟲下載小功能

主要是通過url，和re兩個模組對一個網頁的固定圖片進行模糊匹配後下載下來。 #! /usr/bin/python import re import urllib def gethtml(url):

用Python寫一個簡單的爬蟲

和朋友都灰常懶，不想上下滾動頁面看價格，所以寫了一個爬蟲，用於儲存商品價格。環境：macOS、python3.5 IDE：pycharm 使用的庫：BeautifulSoup、urllib BeautifulSoup：優秀的HTML/XML的解析

用python寫一個簡單的爬蟲功能

iOS開發如果之前沒接觸過除了c和c++(c++太難了,不花個十來年基本不可能精通)的語言,第二門語言最好的選擇就是python.原因就是 1.語法簡單 2.庫太多,隨便想要什麼功能的庫都找得到,簡直程式設計界的哆啦A夢. 3.語法優美,不信?你去看看py

《用Python寫網路爬蟲》第一章原始碼Python3版本

作者改寫後的Python3版本原文Python2版本import re import urllib.parse import urllib.request import time from datetime import datetime import urllib.robo

用python寫一個簡單的爬蟲儲存在json檔案中

學習python沒多久，所以只能寫一個很簡單的爬蟲啦~~ 我使用annacada 自帶的spyder來寫爬蟲的，這次我們要爬取得網站是http://www.drugbank.ca/drugs, 主要是爬取裡面每種藥物的資訊到json檔案中，包括有 DrugBank ID,

入門級用Python寫一個簡單的網路爬蟲下載和獲取資料

學會如何使用API通過url(Uniform Resource Locator 統一資源定位符)連線網路,獲取網站的API獲取url儲存的API，request執行獲取的urlrequests.get(url) 定義一個變數，將API響應儲存在裡面，呼叫json將r儲存的ap

用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)

>原創技術公眾號：`bigsai`,本文在1024釋出，祝大家節日快樂，心想事成。 @[TOC](文章結構) ## 前言在本人上的一門課中，老師對每個小組有個任務要求，介紹和完成一個小模組、工具知識的使用。然而我所在的組剛好遇到的是python爬蟲的小課題。心想這不是很簡單嘛，搞啥呢？想著

用Python寫一個批量生成賬號的函數（用戶控制數據長度、數據條數）

shuf open 小寫長度數據 ase 函數用戶控制 app # 1、寫一個函數，批量生成一些註冊使用的賬號：[email protected]/* */，長度由用戶輸入，產生多少條也由用戶輸入，用戶名不能重復，用戶名必須由大寫字母、小寫字母、數字組成

python寫一個簡單的接口

結果服務 web框架簡單的 bsp 16px 這樣的 flask span 寫一個接口： 1、用到的模塊是flask，flask是一個python的一個web框架，可以用來開發接口和web頁面 2、啟動服務的效果是這樣的：用postman測試的結

用Python寫一個小遊戲

python 小腳本剛學Python時間不長，但也知道了一點，看別人的參考寫了一個猜數字小遊戲，也算是禹學於樂吧。#!/usr/bin/env python #coding=utf-8

python寫一個乘法表的腳本

python寫一個乘法表的腳本學習腳本的時候經常會被問到會不會寫一個99乘法表，現在就用python語句簡單寫一個乘法表[root@centos-1 python_py]# cat while3.py i = 1 while (i<=9): j=1 while(j<=i

python寫一個循環1+到10打印計算步驟的腳本——純粹無聊玩的

python寫一個循環1+到10打印計算[root@13cml10 ~]# cat a.py #_*_coding:utf-8_*_for i in range(0,12): for a in range(0,i): print "+", print a, print "=&

用python寫一個簡單的excel表格獲取當時的linux系統信息

psutil 生成之前建立 set ces ext 流量關閉最近在學習excel表格的制作，順便結合之前學習的內容，利用python的兩個模板，分別是獲取系統信息的psutil，和生成excel表格的xlsxwriter。利用這兩個模板將生成一個簡單的excel表格

用python寫一個九九乘法表-2月19日/2018

九九乘法 while -c pos ont 九九 pytho 九九乘法表 font first = 1 while first<=9: 　　sec=1 　　while sec<=first: 　　　　print(str(sec),"x",str(first),

用python寫一個restful API

python restful # -*- coding: utf-8 -*- # 作者：煮酒品茶 """ package.module ~~~~~~~~~~~~~~ python實現的圖書的一個restful api. 參考restful設計指南 URL：

用python寫一個微信聊天機器人

python wechat 聊天機器人 # -*- coding: utf-8 -*- """ package.module ~~~~~~~~~~~~~~ 一個微信機器人程序微信客戶端itchat: http://itchat.readthed

使用Python寫的一個爬蟲【任務佇列版本】

相關推薦