初學python，爬蟲小專案

阿新 • • 發佈：2019-02-14

初學python看完基礎教程後，利用從視訊學來的知識，利用urllib2和BeautifulSoup庫，在python2.7環境下編寫一個小爬蟲，爬取應屆生求職網上西安的校招宣講會資訊。

程式碼如下：

# coding=utf-8
import urllib2
from  bs4 import BeautifulSoup
urlstart='http://my.yingjiesheng.com/index.php/personal/xjhinfo.htm/?page='#為了方便翻頁將網址程式碼分成兩部分
urlend='&cid=&city=21&word=&province=0&schoolid=&sdate=&hyid=0'
for i in range(1,20):#從網站上直接獲取頁面個數
    print '正在列印第'+str(i)
    url=urlstart+str(i)+urlend#整理網站地址
    request=urllib2.urlopen(url)#用urllib2開啟網站
    html=request.read()#讀取網站程式碼
    bs=BeautifulSoup(html,'html.parser',from_encoding='utf-8')#BeautifulSoup整理網站程式碼
    alllist1=bs.find_all('tr',class_='bg0')#每一頁的資訊分為兩個部分
    alllist2=bs.find_all('tr',class_='bg1')
    alllist=alllist1+alllist2#整理資訊
    for contenttd in alllist:
        row=[]
        mouth=contenttd.find('td',width="115").text#定位到宣講時間字元位置
        companyweb=contenttd.find('td',width='140').find('a').get('href')#定位到宣講企業網站
        if "http" not in companyweb:
            companyweb="http://my.yingjiesheng.com/"+str(companyweb)#有些企業網站存在省略現象，滑鼠放在網站上可以看到完整網站包含http://頭部，對有省略的網址加上這一部分
        companyname=contenttd.find('td',width='140').find('a').text#定位宣講企業名字
        xuexiao=contenttd.find('td',width='140').next_sibling.next_sibling.text#定位宣講學校名字，這裡第一個兄弟節點通常是空，所以再定位一次兄弟節點。具體可以看BeautifulSoup官方文件有解釋
        jiaoshi=contenttd.find('td',width='140').next_sibling.next_sibling.next_sibling.next_sibling.text#定位宣講學校教室資訊
        row.append(mouth)
        row.append(companyweb)
        row.append(companyname)
        row.append(xuexiao)
        row.append(jiaoshi)
        for j in range(0,len(row)):
            print row[j]
        #print row         #列印以上資訊，如果直接列印row,中文不會出現

第一次做出一個python的爬蟲還是蠻有成就感的，這裡謝謝@王大寶的CD博主提供的一些思路

這裡還沒有爬取到宣講會時間，主要是由於時間便籤採用的是img標籤，還不知道怎麼獲取img標籤的具體圖片資訊，歡迎賜教

這一次只是寫了一個定向爬取靜態網頁的爬蟲，下一步準備學習如何爬取動態網頁，以及如何利用MongDB儲存所爬資料

初學python，爬蟲小專案

初學python看完基礎教程後，利用從視訊學來的知識，利用urllib2和BeautifulSoup庫，在python2.7環境下編寫一個小爬蟲，爬取應屆生求職網上西安的校招宣講會資訊。程式碼如下： # coding=utf-8 import urllib2 from

小白小白，看過來！初學Python，給你一些乾貨！

有的朋友是不是想要學習python又不知從何下手？現在我來給你幾個乾貨的建議：學習網站的介紹（不是打廣告，親身學習使用的經驗）： 1.菜鳥教程網站（網址：http://www.runoob.com/python3/python3-tutorial.html）這個網站整理的還

初學python，打卡簽到

遊戲條件 col += world == 寫上 too 簡單自學python第一周，學了變量和簡單的條件判斷。附上猜數遊戲代碼 1 #Author:shijt 2 trueAge=40 3 count=0 4 while count<3: 5

初學Python，關於object和type的理解

初學Python，關於object和type的理解 object（類）是一個類。 type（類）也是一個類。 object類是所有的類的父類的父類的父類… 即，其它所有的類都是object類的子類，（而並非它的例項（類變數））。 type類是個不一般的類，這是因為type類的

初學Python之爬蟲

爬蟲學習筆記什麼是爬蟲？爬蟲就是：模擬客戶端（瀏覽器）傳送網路請求，獲取響應，按照規則提取資料的程式模擬客戶端（瀏覽器）傳送網路請求：照著瀏覽器傳送一模一樣的請求，獲取和瀏覽器一模一樣的資料爬取的資料去哪了呈現出來：展示在網頁上，或者是展

Python網路爬蟲實戰專案程式碼大全

WechatSogou [1]- 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬蟲，返回結果是列表，每一項均是公眾號具體資訊字典。 DouBanSpider [2]- 豆瓣讀書爬蟲。可以爬下豆瓣讀書標籤下的所有圖書，按評分排名依次儲存，儲

初學Python，寫個成績查詢“系統”

練手之：成績查詢“系統” print("********歡迎使用成績查詢系統**********") while True: while True: score = int(input('請輸入學生成績：')) if 0 <= score <=100: if

初學python，感受和C的不同

從開始看Python到現在也有半個多月了，前後看了Python核心程式設計和Dive into Python兩本書。話說半個月看兩本，是個人都知道有多囫圇吞棗，這也是因為我暫時沒有需求拿這個做大型開發，主要是平時的小程式test用一用。所以我的策略是，整體瀏覽，用到時候現

用webmagic實現一個java爬蟲小專案

一、環境專案:maven專案資料庫:mysql 二、專案介紹我們要爬去的頁面是https://shimo.im/doc/iK

初學Python，利用生成器函式，n個從1開始的階乘

寫一個生成器函式myfactorial(n)，此函式用來生成n個從1開始的階乘 def myfactorial(n): s = 1 for x in range(1, n + 1): s *= x yie

初學python，一些總結

最近偷懶學了下python ,做了兩個小程式，純屬練手，今天來總結一下。第一個程式是類似於網頁爬蟲，自動登入教務系統批量抓取學生資訊。第二個程式是利用騰訊微博遠端關機，通過抓取騰訊微博獲取關機指令來關機。記錄下這次學到（宣告：許多東西都是參考過有的甚至直接copy網上

初學Python，從認識Python、安裝Python開始

大嬸向左不送，新手向右請進。剛剛開始學習Python，用博文記錄一下自己學習的程序，如果能夠幫助到同樣想學習Python的朋友更好。一、初識Python： Python的定位是“優雅

python，爬蟲爬取網頁的圖片，基礎改善版

突然發現樣式太坑，還要爬取在css裡面，寫了個基礎的，解決下朋友的問題 import string import urllib.request import re import os import urllib # 根據給定的網址來獲取網頁詳細資訊，得到的

豆瓣電影搜尋爬蟲程式，爬蟲小程式，適合初學者

最近在學python，之前用Python寫過簡單的圖片爬取，今天想著用python爬一下豆瓣的電影，就有了下面的程式： #coding:utf-8 import re import sys import urllib from bs4 import BeautifulSo

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

5個python爬蟲教材，讓小白也有爬蟲可寫，含視頻教程！

但是認識了解 web開發徹底幫助回復增強兩個認識爬蟲網絡爬蟲，如果互聯網是一張蜘蛛網，網絡爬蟲既是一個在此網上爬行的蜘蛛，爬了多少路程即獲取到多少數據。 python寫爬蟲的優勢其實以上功能很多語言和工具都能做，但是用python爬取的速度更快

Python，小白自學爬蟲

lib ext family lencod enc accept timeout request 大王學習內容源自：博客園金角大王 2018.7.22 Urllib庫的基本使用

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

Tkinter小專案：用Python寫一個地址收藏管理工具，迅速提高你的工作效率

如何管理雜亂的電腦桌面和一大堆的瀏覽器收藏網址？我用python寫了一個工具，迅速提高工作效率。工作了一段時間發現，電腦桌面上已經滿屏的常用軟體、常用專案資料夾的快捷方式，一大堆的常用文件，瀏覽器上收藏的工作網址更是有100+，通常想開啟一個文件、網址要尋找半

python 實戰爬蟲專案，學會這個32個專案天下無敵 python 爬蟲------32個專案（學會了你就牛了哈哈）

python 爬蟲------32個專案（學會了你就牛了哈哈） 32個Python爬蟲專案讓你一次吃到撐今天為大家整理了32個Python爬蟲專案。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有連結指向G

初學python，爬蟲小專案

相關推薦