Python程式設計入門學習筆記(七)

阿新 • • 發佈：2018-12-25

簡單爬蟲

python庫
1、request 用來獲取頁面內容
2、BeautifulSoup

文件連結：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

爬取鏈家網的資訊

安裝第三方庫

 pip install requests
 pip install bs4

新建資料庫：

CREATE DATABASE /*!32312 IF NOT EXISTS*/`house` /*!40100 DEFAULT CHARACTER SET utf8 */;

USE `house`;

/*Table structure for table `db_house` */

DROP TABLE IF EXISTS `db_house`;

CREATE TABLE `db_house` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `price` varchar(80) DEFAULT NULL,
  `unit` varchar(80) DEFAULT NULL,
  `area` varchar(80) DEFAULT NULL,
  `layout` varchar(80) DEFAULT NULL,
  `floor` varchar(80) DEFAULT NULL,
  `direction` varchar(80) DEFAULT NULL,
  `subway` varchar(80) DEFAULT NULL,
  `community` varchar(80) DEFAULT NULL,
  `location` varchar(80) DEFAULT NULL,
  `agent_name` varchar(80) DEFAULT NULL,
  `agent_id` varchar(80) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `id` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=40 DEFAULT CHARSET=utf8;

爬蟲程式如下：

import time
import pymysql
import requests
from bs4 import BeautifulSoup

# 獲取url下的頁面內容，返回soup物件
def get_page(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text,'html5lib')
    return soup

# 將以上的程式碼封裝成一個獲取連結的方法函式，作用是獲取列表頁下面的所有租房頁面的連結，返回連結列表

def get_links(link_url):
    soup = get_page(link_url)
    links_div = soup.find_all('div',class_="pic-panel")
    links = [div.a.get('href') for div in links_div]
    return links

def get_house_info(house_url):
    soup = get_page(house_url)
    price = soup.find('span', class_='total').text
    unit = soup.find('span', class_='unit').text.strip()
    house_info = soup.find_all('p')
    area = house_info[0].text[3:]
    layout = house_info[1].text[5:]
    floor = house_info[2].text[3:]
    direction = house_info[3].text[5:]
    subway = house_info[4].text[3:]
    community = house_info[5].text[3:]
    location = house_info[6].text[3:]
    create_time = house_info[7].text[3:]
    agent = soup.find('a',class_ = 'name LOGCLICK')
    agent_name = agent.text
    agent_id = agent.get('data-el')
    evaluate = soup.find('div',class_='evaluate')
    score, number = evaluate.find('span', class_ = 'rate').text.split('/')
    times = evaluate.find('span',class_ = 'time').text[5:-1]
    info = {
        '價格': price,
        '單位': unit,
        '面積': area,
        '戶型': layout,
        '樓層': floor,
        '朝向': direction,
        '釋出時間': create_time,
        '地鐵': subway,
        '小區': community,
        '位置': location,
        '經紀人姓名': agent_name,
        '經紀人ID': agent_id
    }
    return info

DATABASE = {
    'host': 'localhost', #如果是遠端資料庫，此處為遠端伺服器的ip地址
    'database': 'house',
    'user' : 'root',
    'password': 'toor',
    # 字符集編碼，防止資料亂碼
    'charset' : 'utf8'
}
    
def get_db(setting):
    return pymysql.connect(**setting)

def insert(db,house):
    values = "'{}',"* 10 + "'{}'"
    sql_values = values.format(house['價格'],house['單位'],house['面積'],house['戶型'],
                               house['樓層'],house['朝向'],house['地鐵'],house['小區'],
                               house['位置'],house['經紀人姓名'],house['經紀人ID'])
    sql = """
        insert into db_house(`price`,`unit`,`area`,`layout`,`floor`,`direction`,`subway`,`community`,`location`,`agent_name`,`agent_id`)
        values({})
    """.format(sql_values)
    print(sql)
    cursor = db.cursor()
    cursor.execute(sql)
    db.commit()

db = get_db(DATABASE)
links = get_links('http://bj.lianjia.com/zufang/')
for link in links:
    time.sleep(2)
    print('獲取一個房子資訊成功！')
    house = get_house_info(link)
    print(house,end='\r')
    insert(db,house)

開啟資料庫，可以看到租房資訊已經儲存到mysql資料庫。

Python程式設計入門學習筆記(七)

簡單爬蟲python庫 1、request 用來獲取頁面內容 2、BeautifulSoup 文件連結：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html爬取鏈家網的資訊

Python程式設計入門學習筆記(九)

## Python第四課 ### 新的資料格式：CSV - 純文字，使用某個字符集，比如ACSII，Unicode，EBCDIC或GB2312（簡體中文環境）等； - 由記錄組成（典型的是每行一條記錄）； - 每條記錄被分隔符（英語：Delimiter）分隔為欄位（英語：

Python程式設計入門學習筆記(十)

<h1 style="text-align:center">泰坦尼克資料處理與分析 </h1> ![](http://www.allengao.cn/wp-content/uploads/2018/06/Titanic.jpg) ```pytho

Python程式設計入門學習筆記(三)

### 切片 ```python line = 'Welcome to Beijing,welcome to China!' #取字串的前10個字元,line[0:10],預設是0 line[:10] ``` 'Welcome to' ```pyt

Python程式設計入門學習筆記(五)

### 函式 ```python varibal = { 'a': 100, 'b': 100, 'c': 200 } ``` ```python varibal['a'] ``` 100 ```python varib

Python程式設計入門學習筆記(八)

## Python 第四課 ### 課程安排 1、numpy 2、pandas 3、matplotlib ### numpy 陣列和列表，列表可以儲存任意型別的資料，而陣列只能儲存一種型別的資料 ```python import arr

Python程式設計入門學習筆記(一)

# 第一章 python介紹 ### 最簡單的開始 ```python print('hello,"world') ``` hello,"world ```python print("hello,'world") ``` hello,'

Python程式設計入門學習筆記(六)

## Python第三課 ### 推薦一個python資料結構視覺化工具 http://www.pythontutor.com/ ### 課表 - Mysql資料庫的基本操作 - 用python操作資料庫 - 編寫python爬蟲並儲存到資料庫 ### 資料庫

Python程式設計入門學習筆記(二)

### 變數：代表某個值的名稱 ### 語法糖 ```python a = 10 b = 20 a,b = b,a print("a is {},b is {}".format(a,b)) ``` a is 10,b is 20 ### 命名規範

Python程式設計入門學習筆記(前言)

第零章學習Python前的準備工作關於學習內容的說明：一、Python基礎 – 變數與資料型別，及常見資料型別的用法二、Python基礎 – 條件、迴圈、函式、類三、Python爬蟲 – Python爬蟲並用Mysql資料庫儲存四、pandas通覽 – 用pandas做資料

Python程式設計入門學習筆記(四)

## python第二課 ### 課程內容 1、條件判斷 2、迴圈 3、函式 4、類 ### 條件判斷 ```python #偽程式碼表示 if condition: do something else: do something ```

【Python+OpenCV入門學習】七、軌跡條操作

本篇文章，將學習如何進行軌跡條操作。主要學習函式getTrackbarPos()和createTrackbar()使用。環境：Windows 7（64） python 3.6 opencv 3.4.2 一、瞭解函式軌跡條使用起來非常的方便，通過滑鼠滑動軌跡

opencv3程式設計入門學習筆記1-----基本影象容器Mat

1、Mat的結構 Mat本質上是由兩個資料部分組成的類：（包含資訊有矩陣的大小，用於儲存的方法，矩陣儲存的地址等）的矩陣頭和一個指標，指向包含了畫素值的矩陣（可根據選擇用於儲存的方法採用任何維度儲存資料）。矩陣頭部的大小是恆定的。然而，矩陣本身的大小因影象的不同而不同，通

Shell程式設計入門學習筆記之shell變數

shell簡介 Shell本身是一個用C語言編寫的程式，它是使用者使用Unix/Linux的橋樑，使用者的大部分工作都是通過Shell完成的。他不是Unix/Linux系統核心的一部分，但是他呼叫了系統核心的大部分功能來執行程式、建立檔案並以並行的方式協調各個程式的執行。因此，

python資料分析學習筆記七

第七章訊號處理與時間序列（需要統計學知識） 1 statsmodels 子庫示例程式碼如下 import pkgutil as pu import pydoc import statsmodels as sm # statmodels版本號 print("statm

Opencv3程式設計入門學習筆記（一）

1.影象載入 a) IplImage* srcImage0 = cvLoadImage("lenna", 1);//程式退出前如果步release，會出現記憶體洩漏問題。 b) Mat srcImage = imread("lenna.png", 1);//同樣使讀取圖片，

Opencv3程式設計入門學習筆記（四）之split通道分離Debug過程中0xC0000005記憶體訪問衝突問題

這是筆者學習《Opencv3程式設計入門》的第四篇部落格，這篇部落格主要是解決在Windows系統下VS 2013中Debug含有split分離通道色彩函式時報出的0xC0000005記憶體訪問衝突問題，問題表現如下面第一幅圖所示。剛剛遇到這個問題的時候

Python入門學習筆記（七） - 類

學習內容如何編寫類並建立其例項，如何使用屬性在類中儲存資訊，以及如何編寫方法，以讓類具備所需的行為。如何編寫方法 __init__() ，以便根據類建立包含所需屬性的例項。如何修改例項的屬性 —— 包括直接修改以及通過方法進行修改。使用繼承簡化相關類的建立工作；將一個類的例項用作另一

Python程式設計入門-第八章輸入和輸出 -學習筆記

第8章輸入和輸出一、設定字串格式對於之前學習的print()\input()這些函式是針對基本的控制檯I/O。 1、字串插入字串插入是一種設定字串格式的簡單方法，總是採用如下格式： format % values 其中format是包含一個或

python數據分析入門學習筆記兒

rip help cat app run 復雜 bsp 真的 parser 學習利用python進行數據分析的筆記兒&下星期二內部交流會要講的內容，一並分享給大家。博主粗心大意，有什麽不對的地方歡迎指正~還有許多尚待完善的地方，待我一邊學習一邊完善~ 前言：各種和

Python程式設計入門學習筆記(七)

爬取鏈家網的資訊

安裝第三方庫

相關推薦