1. 程式人生 > >Python爬蟲第一步之獲取網頁原始碼

Python爬蟲第一步之獲取網頁原始碼

軟體使用:Python2.7 +Pycharm,稍後使用Python3.5+notepad++試試

#coding: utf-8
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://blog.sina.com.cn/")   
#coding = utf-8
import urllib

page =urllib.urlopen("http://blog.sina.com.cn/")
print page.read()
#-*- coding: UTF-8 -*- 
#  當執行之後,提示 please enter the website: 時,輸入網站 http://blog.sina.com.cn
import urllib2
url=raw_input('please enter the website: ')
page =urllib2.urlopen(url)
print page.read()
  • # coding=utf-8
  • #coding: utf-8
  • #-*- coding: UTF-8 -*-
    三個功能應該是一樣的
    PY檔案當中是不支援中文的,即使你輸入的註釋是中文也不行,為了解決這個問題,就需要把檔案編碼型別改為UTF-8的型別,輸入這個程式碼就可以讓PY原始檔裡面有中文了。
    建議你寫程式碼之前都把這句話加上,因為不管是註釋還是彈出訊息提示,免不了的要輸入中文,所以這個基本是必須的。(搜尋自百度知道)

  • 剩下的參考

使用Markdown 編寫,可見即可得