from pyquery import PyQuery as pq

阿新 • • 發佈：2018-11-25

1.爬取知乎-發現-熱門話題的問答：

import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi\
            t/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'}

html = requests.get(url,headers = headers).text

doc = pq(html) #初始化PyQuery類物件
items = doc('.explore-tab .feed-item').items() #抓取 .explore-tab 結點下的所有 .feed-item 子節點 .items() 把他們組成列表
for item in items:
    question = item.find('h2').text() #抓問題，不為 .h2 理由是 h2 是標籤，不是屬性
    author = item.find('.author-link-line').text() #抓作者
    answer = pq(item.find('.content').html()).text() #抓取一條回答，列表裡面返回的是標籤名稱，.html()還原成 html 程式碼
    file = open('explore.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,answer]))
    file.write('\n' + '=' * 50 + '\n')
    file.close()

2..find()

查詢子孫結點

3.,attr()

<img alt="爐石傳說石英元素女巫森林新卡" src="http://newsimg.5054399.com/uploads/litimg/180410/1606441M5F5.jpg">

可以理解為這個標籤的對應值，是以字典形式返回，所以 attr() 返回鍵的值；例如 attr('alt') 得到的是 ‘爐石傳說石英元素

女巫森林新卡'

提取 scr 的值：.attr('lz_src') 加一個 lz_

doc = pq(html)
items = doc('#dq_list > li').items()

綠色部分獲取結點的方法為 Selector;還可以有其他方法

from pyquery import PyQuery as pq

1.爬取知乎-發現-熱門話題的問答： import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' headers = {'user-agent':'Mozilla/5.0 (Wi

成功解決 from ._conv import register_converters as _register_converters

解決問題 F:\Program Files\Python\Python36\Lib\site-packages\h5py\__init__.py:34: FutureWarning: Conversi

ubuntu 16.04報警告from ._conv import register_converters as _register_converters

/home/zhiqianghe/anaconda3/envs/marl/lib/python3.5/site-packages/h5py/__init__.py:34: FutureWarning: Conversion of the second argument of

解決 from scipy._lib.decorator import decorator as _decorator出現ImportError: No module named decorator

問題描述： from scipy._lib.decorator import decorator as _decorator [email protected]:~/PycharmProjects/ANN/Density-Based-Clustering$ python LST

from lxml import etree 報錯

bsp get cal failed nbsp blog str XML python python 3.6 通過pip install 方式在線安裝lxml pip install lxml from lxml import etree 報錯 1 Traceback

python import xxx 與 from xxx import xx 模塊引入的區別

ima rip 9.png 技術 imp mage ges 導入 images 有如下腳本script1.py： A=‘aaaa‘B=‘bbbb‘C=‘cccc‘print A,B,C 1.命令行交互模式下使用import 導入方式1： >>>im

使用from future import unicode_literals

div bsp 不同的 framework unicode rest .py 單位查看當你在查看一些python源碼或者其他人的代碼的時候，經常會在.py 的文件裏看到 from __future__ import unicode_literals 在Python

導入模塊方式（盡量少用from xx import *）以及包的定義，跨目錄運行包和模塊（未完）

sys.path mod 默認尋找 spa rom bsp 自己 pan 1 import module_name 2 import module_name,module_name2 3 from module_name import * 4 form module_n

全網最詳細的跑python2.7時出現from mysql import connector ImportError: No module named mysql的問題解決辦法（圖文詳解）

領域 conda load 機器學習同時精華 center mod con 　　　　不多說，直接上幹貨！ C:\Users\lenovo>pip install mysql-connector-python-rf==2.1.3 Col

from future import print_function的使用

class 當前 nbsp str pos fun ron 一行 pytho 1.作用：把下一個新版本的特性導入到當前版本，就可以在當前版本中測試一些新版本的語法特性，例如在python2的環境下加入這一句可以測試python3的輸出語法 2.使用方式：置於程序的第一行 3

appium---from appium import webdriver報錯提示“Unresolved import webdriver”

href media all 終端 col -h imp com 沒有報錯提示： from appium import webdriver提示Unresolved import webdriver 報錯原因：沒有安裝Appium_Python_Client 解決辦

ERROR： from PIL import Image ImportError: No module named PIL

target 下一步 .com pil bubuko from wid AR 直接 ERROR： from PIL import Image ImportError: No module named PIL 到　http://www.pythonware.com/prod

from flask import request

flask requestfrom flask import requestFlask 是一個人氣非常高的Python Web框架，筆者也拿它寫過一些大大小小的項目，Flask 有一個特性我非常的喜歡，就是無論在什麽地方，如果你想要獲取當前的request對象，只要簡單的：從當前request獲取內容：me

新安裝完 tensorflow 後import tensorflow as tf 報錯

python>>> import tensorflow as tf/opt/anaconda3/lib/python3.6/site-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument

pycharm中from xx import xx報錯：Unresolved reference

res 錯誤 ces 紅色 alt simple pyc 工程 wid 在引入 from simpleDemo import * 時候，發現simpleDemo 會有下滑紅色波浪線的錯誤提示原因：import不成功是路徑沒對應上，pycharm默認該項目的根目錄為sou

[Vue-rx] Access Events from Vue.js Templates as RxJS Streams with domStreams

ons mstr tle port enable vue.js UNC from prop The domStreams component property enables you to access Events from your Vue.js templates a

from future import print_function的作用

語法 rom future code 代碼 imp python err 概念閱讀代碼的時候會看到下面語句: from __future__ import print_function 該語句是python2的概念，那麽python3對於python2就是future了，

笨方法學python之import sys與from sys import argv的區別

use 直接所有 pop 本想 write div 一個 ng- 這是在網上看到的一個大神的解答： sys is a module that contains “system functionality”. sys.argv is a list cont

in <module> import MySQLdb as Database ImportError: No module named 'MySQLdb'

bug: Traceback (most recent call last): File “/home/wem/.myvirtualenvs/dailyfresh/lib/python3.5/site-packages/django/db/backends/mysql/base.py

"from x import x" 和 "from x.x import x"的區別

本次介紹以pix2pix pytorch版為例進行介紹。 from data import CreateDataLoader from data.aligned_dataset import AlignedDataset 第一句的意思是：在所執行檔案的根目錄下的"data"這個資料夾下的“_

from pyquery import PyQuery as pq

相關推薦