1. 程式人生 > >Python 爬蟲 大量數據清洗 ---- sql語句優化

Python 爬蟲 大量數據清洗 ---- sql語句優化

any 語句 sql語句優化 並且 大於 設有 sql 解決問題 sql語句

1. 問題描述
    在做爬蟲的時候,數據量很大,大約有五百百萬條數據,假設有個字段是conmany_name(拍賣公司名稱),我們現在需要從五百萬條數據裏面查找出來五十家拍賣公司,
  並且要求字段 time(時間) 大於7月一號,小於10月31號。
2. 問題解決
    
    我們首先想到的解決辦法是添加索引,對拍賣公司字段添加索引,但是因為日期是大於7月1號,小於10月31號,在這裏用索引的效率很低,
  並且要重復的查詢出來五十家公司,效率很低,有沒有好的解決方案呢???
3.解決問題思路
    1.查詢五百條數據,我們會發現內存不夠用,這時候我們只查詢一百萬條數據,分五次處理完畢。

    
2.因為這一百萬條數據在內存中,把這一百萬條數據放到list中去,同時把五十家拍賣公司組合成字符串,然後for循環每一條數據,
    比較拍賣公司是否在字符串中,比較日期是否大於7月一號,小於10月31號。這樣去處理,避免數據查詢的速度慢。提高數據處理效率。
4.感想: 好的解決問題的思路勝過好的解決問題的人



Python 爬蟲 大量數據清洗 ---- sql語句優化