ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr
lxml 的安裝(xpath)
pip3 install lxml
可能會缺少以下依賴:
sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
基本用法:
from lxml import etree
import requests
html = requests.get(finalURL).content.decode(‘utf-8‘)
dom_tree = etree.HTML(html)
links = dom_tree.xpath("//div/span[@class=‘info-col‘]/a")
Beautiful Soup的安裝
pip3 install beautifulsoup4
pyquery的安裝
p1p3 install pyquery
tesserocr的安裝
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
接下來再安裝tesserocr和pillow 即可,這裏直接使用pip 安裝:
pip3 install tesserocr pillow
如果想要安裝多國語言,還需要安裝語言包,官方叫作tessdata
(其下載鏈接為:https://github.com/tesseract-ocr/tessdata )。
利用G it 命令將其下載下來並遷移到相關目錄即可,不同版本的遷移命令如下所示。
在Ubuntu 、Debian 和Deepin 系統下的遷移命令如下: ”
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr