如何解決Windows系統儲存檔案的亂碼問題

阿新 • • 發佈：2018-12-09

如何解決爬取某時段微博資料但儲存在csv檔案中出現亂碼問題 1、（1獲取微博資料以及儲存在csv中）原始碼如下

# start_chrome -> input_date -> scroll_down-> find_cards_info -> save -> find_next (goto)
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import csv
import os

# 執行前先下載 chrome driver,下載地址是：https://sites.google.com/a/chromium.org/chromedriver/downloads，點選【Latest Release: ChromeDriver x.xx】進入下載 


def start_chrome():
    driver = webdriver.Chrome(executable_path='./chromedriver')  # Windows 需寫成'./chromedriver.exe'
    driver.start_client()
    return driver
# weibo.com/sxbg? + start_t ...

def q(st,et):
    return f'?is_ori=1&key_word=&start_time={st}&end_time={et}&is_search=1&is_searchadv=1#_0' 


def scroll_down():
    html_page = driver.find_element_by_tag_name('html')
    # ...# form > input
    for i in range(15):
        print(i)
        html_page.send_keys(Keys.END)
        time.sleep(0.6)

def find_cards_info():
    cards_sel = 'div.WB_feed_detail'
    cards     = driver.find_elements_by_css_selector(cards_sel)
    info_list = []

    for 
 card in cards:
        content_sel = 'div.WB_text.W_f14'
        time_sel    = 'div.WB_from.S_txt2'
        link_sel    = 'div.WB_from.S_txt2 > a:nth-child(1)'
        content     = card.find_element_by_css_selector(content_sel).text
        time        = card.find_element_by_css_selector(time_sel).text
        link        = card.find_element_by_css_selector(link_sel).get_attribute('href')

        info_list.append([content,time,link])
        # [[1,2,3],[4,5,6]...]
    return info_list

def find_next():
    next_sel  = 'a.page.next'
    next_page = driver.find_elements_by_css_selector(next_sel)
    if next_page:
        return next_page[0].get_attribute('href')

def save(info_list,name):
    full_path = './' + name + '.csv' # 2018-01-02~2018-03-05.csv
    if os.path.exists(full_path):
        with open(full_path,'a') as f:
            writer = csv.writer(f)
            writer.writerows(info_list)
            print('Done')
    else:
        with open(full_path,'w+') as f:
            writer = csv.writer(f)
            writer.writerows(info_list)
            print('Done')

def run_crawler(base,duration):
    # 2018-01-02~2018-03-05
    if not base.endswith('feedtop'):
        st, et = duration.split('~')
        driver.get(base+q(st,et))
    else:
        driver.get(base)
    time.sleep(5)
    scroll_down()
    time.sleep(5)
    info_list = find_cards_info()
    save(info_list,duration)
    next_page = find_next()
    if next_page:
        run_crawler(next_page,duration)

base = 'https://weibo.com/bgsxy'   #這裡可以替換成你想爬取的微博使用者
driver = start_chrome()
input()
run_crawler(base, '2017-06-20~2018-02-03')   #這裡可以替換成你想爬取的時間段

之後產生相關亂碼問題（2、如何解決在Windows系統不相容的問題？爬取資料在csv裡面產生亂碼，可採用三明治方法解決）程式碼如下：

import csv
import os

#網站是UTF-8編碼，之後用UTF-8解碼編碼寫入Windows電腦中，但是windowcsv預設是gbk解碼，所以會產生亂碼（mac系統沒事，預設是utf8編碼）
path = 'D:\\2017-06-20~2018-09-03.csv'#爬取資料的路徑
full_path = 'D:\hsf.csv'#要儲存資料的路徑
info_list = []
c = open(path,'r',encoding='utf-8')#用utf8解碼，因為大多數網站都是用utf8編碼
read = csv.reader(c)
for line in read:
    if line:
        info_list.append(line)
        print(line)
print('D')
if os.path.exists(full_path):
    with open(full_path,'a',encoding='gb18030') as f:#用gb18030編碼的話，適用於Windows系統
        writer = csv.writer(f)
        writer.writerows(info_list)
        print('Done')
else:
    with open(full_path,'w+',encoding='gb18030') as f:
        writer = csv.writer(f)
        writer.writerows(info_list)
        print('Done')

IDE中記得重新設定一下，不然依舊會報錯

這裡寫圖片描述

說明：原始碼選自麻瓜教程實用主義課程中的，同時也感謝幫我解惑的蔡坤林同學和夏老師指導！如有不當之處，敬請指正！

如何解決Windows系統儲存檔案的亂碼問題

如何解決爬取某時段微博資料但儲存在csv檔案中出現亂碼問題 1、（1獲取微博資料以及儲存在csv中）原始碼如下 # start_chrome -> input_date -> scroll_down-> find_cards_info

解決Windows系統下python利用matplotlib繪圖時中文亂碼的問題

不講道理，直接上解決方案第一步：進入windows系統自帶的字型資料夾中，自己電腦能支援的所有字型都在這裡面。進入方法：控制面板-->外觀和個性化-->字型，進入後的介面如下圖所示：第二步：在這個資料夾中找到“

解決python2.7.x在windows系統下檔案寫入中文報錯

分析:windows下cmd預設的編碼是ASCII編碼 ,windows的中文環境下編碼是GBK 方法一:在儲存輸出流儲存的時候做一個對文字GBK編碼,在輸出到檔案如下 title = t

一鍵腳本解決Windows系統更新錯誤（0x80070003）

str soft 更新錯誤 windows系統 art pda pause 一鍵 tar 新建文本，寫入以下內容並保存為bat文件 REM 解決系統更新錯誤（0x80070003） pause net stop "Windows Update" rd /s/q "C:\W

Windows 系統共享檔案掃描

近年來歷次洩露的安全事故（工控安全），其主要原因就是內部網路自身的脆弱性問題。對於內部網路的安全檢查是很必要的。傳統上使用CMD命令 net view 就可以掃描線上的主機但是，主機設定取消QOS的時候是不可以找到的，這裡使用IP Advance來檢視區域網中的線上主機（可以掃描主機開啟的HTTP

解決 Windows 系統關閉IPC共享服務時提示：發生系統錯誤5，拒絕訪問

原文連結：http://zhaokaifeng.com/?p=739 問題描述：使用： net share ipc$ /del 關閉IPC共享服務時，系統產生提示：發生系統錯誤5。拒絕訪問。截圖如下：圖 0 解決方案：注：以下操作

解決Windows系統下執行hadoop程式出錯Could not locate executablenull\bin\winutils.exe in the Hadoop binaries

樓主今天在開發後端介面的時候,發現報了Could not locate executablenull\bin\winutils.exe in the Hadoop binaries 的錯誤,經過分析是我呼叫了同事寫的介面,同事那個模組是引入了

centos訪問本機windows系統的檔案----centos掛載ntfs硬碟

在以前只有win7系統的電腦上裝了一個CentOS系統，即，現在我的電腦有雙系統。但是，現在登陸我的CentOS系統怎麼訪問我原來win7系統的檔案呢？換句話說：我電腦的硬碟是ntfs格式，我現在的CentOS系統要訪問該ntfs格式的硬碟，要怎麼做？

windows客戶端開發--獲取windows系統中檔案的MIME

首先，什麼是MIME，是不是檔案的字尾名呢？當然不是。有時候我們需要獲取某個檔案的字尾名，這也許對你來說太小case了，你可能不加思考的寫了一個函式，更加檔名字串查詢最後一個’.’，然後取最有一個’.’之後的字串，即為我們要得到的字尾名。看似非常完美

解決WebView載入本地檔案亂碼

一、問題描述這幾天現場反饋一些問題，主要是檔案瀏覽有部分檔案顯示亂碼，像這樣：而檔案本身又是用WebView載入的，出現有的檔案正常有的檔案不正常。二、問題解決 webView 載入主要有：loadUrl(),loadData(),loa

關於解決Windows系統許可證即將過期的問題

今早剛開啟電腦，突然給我彈出個這樣的視窗然後我就按照它說的點選了“轉到設定”，看了下我的系統上只有這些內容，除了知道它是專業版，我不知道應該怎麼來啟用它，於是我就上網百度了一下，找到一篇百度知道

Windows系統傳檔案到unix/ linux系統

ftp 一般unix系統都預設裝有ftp伺服器開啟 windows 的dos介面 ftp空格加上unix系統的ip地址就登入到unix系統了然後 put是從 windows上傳檔案到unix get是從unix上下載檔案到windows當然要設定路徑 lcd

解決Edge瀏覽器下載檔案亂碼

用到的技術棧是Ext，通過訪問後臺給介面加字串拼接下載檔案，發現Edge瀏覽器的檔名亂碼，如：出現該情況是因為瀏覽器在訪問連結的時候將我們的欄位自動轉碼了，解決辦法奉上： URL = 'fileDownloadList?'+Ext.urlEncode({fileUr

Windows系統日誌檔案分析

日誌檔案，它記錄著Windows系統及其各種服務執行的每個細節，對增強Windows的穩定和安全性，起著非常重要的作用。但許多使用者不注意對它保護，一些“不速之客”很輕易就將日誌檔案清空，給系統帶來嚴重的安全隱患。　　一、什麼是日誌檔案　　日誌檔案是Windows系統中

解決"Windows系統自帶共享代理軟體導致的斷網問題"

當你用無線登入校園網時，有時會出現"Windows系統自帶共享代理軟體，請您關閉“，這是由於你開啟了ICS服務和Internet連線共享。解決方法如下：（假設你使用的是無線網，系統是win7） 1）禁用ICS服務。點選桌面下面的”開始“按鈕

解決windows系統提示不是內部或外部命令的方法

Windows 7 系統下，我們經常會在命令列視窗，輸入一些命令檢視需要的資訊，但有時會遇到提示，輸入的命令（如，netstat），不是內部或外部命令，也不是可執行的程式；這現象經常出現在剛安裝完的系統上，是因為缺少了配置系統path 需要呼叫的系統類庫路徑首先，

解決windows文件在linux系統中顯示亂碼的問題

matlab 命令格式解決顯示亂碼 inux views spa color 問題：在Windows下用matlab寫的代碼（.m）到Linux(centos)下，註釋的中文全是亂碼。原因： Windows下默認使用的是GB2312編碼，Linux默認使用的是

Python爬蟲：Windows系統下用pyquery庫解析含有中文的本地HTML檔案報UnicodeDecodeError的解決方法

由於Windows系統預設GBK編碼，用pyquery解析本地html檔案，如果檔案中有中文，會報錯： UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12: illegal multibyte sequenc

PHP 用fputcsv()生成csv檔案在windows Excel 下開啟亂碼問題解決

參考該文章https://segmentfault.com/a/1190000005366832 生成csv，csv檔案在windows wps和我ubuntu16桌面版下開啟正常。但是使用window

Activiti儲存.png 流程圖片檔案且解決idea中儲存圖片時顯示中文亂碼的解決方法

Activiti儲存.png 流程圖片檔案且解決idea中儲存圖片時顯示中文亂碼的解決方法 Eclipse 工具中的操作流程圖片生成的兩種方式：使用 activiti-designer 設計流程圖時自動生成需在 eclipse 中進行配置：使

如何解決Windows系統儲存檔案的亂碼問題

相關推薦