在雲伺服器上執行你的爬蟲程式
在伺服器上跑資料是我們常常都需要做的一件事,這篇部落格主要記錄一下從配置伺服器到拿到從伺服器成功拿到資料整個過程我的操作,這裡以騰訊雲伺服器為例
1.申請雲伺服器
這個沒什麼好講的,騰訊雲註冊送7天體驗伺服器,阿里雲送6個月,AWS送一年。因為只是體驗,我開了個騰訊的,系統是ubuntu16.04。為了安全伺服器只給了ubuntu使用者,不給root使用者,所以所有需要root許可權的操作都必須要加上sudo,系統自帶的python版本是2.7,而我的爬蟲版本是3.5,因此首先要做的就是安裝python3.5。
2.安裝python3
首先要去官網下載你所需要的python版本
wget
下載完畢後解壓
tar -xvf Python-3.5.2.tgz
建立安裝路徑
mkdir /usr/local/python3
編譯
./configure –prefix=/usr/local/python3
安裝
sudo make
sudo make install
修改軟連結
mv /usr/bin/python /usr/bin/python_bak
ln -s /usr/local/python3/bin/python3 /usr/bin/python
驗證
python -V
安裝過程中可能會碰到某些依賴不存在,根據提示資訊自行谷歌安裝相應依賴即可
3.配置免密登陸
要在自己電腦上免密登陸伺服器,需要現在自己電腦上生成一個公鑰
ssh-keygen -t rsa,接下來會有三個配置項,一路回車用預設的即可
然後
cd ~/.ssh
可以看到一個檔案叫做id_rsa.pub,這個就是你的公鑰,再在當前資料夾執行
ssh-copy-id [email protected]
就可以把你的公鑰拷貝到伺服器的~/.ssh/authorized_keys裡面,當然你也可以手動拷貝,不過用vim進行拷貝的時候容易多一個空格或者多一個回車導致失效
這樣就配置完畢了,如果不能免密登陸,檢查伺服器配置是否開啟了免密登陸
$vi /etc/ssh/sshd_config
檢查下面幾項是否配置正確
RSAAuthentication yes
PubkeyAuthentication yes
AuthorsizedKeysFile .ssh/authorized_keys
編輯完畢,再重啟ssh服務
systemctl restart sshd.service
4.傳輸資料
常見有4種傳輸資料的辦法,見Linux中傳輸檔案的4種方式
我一般直接用scp
scp ~/test/scipt.py [email protected]:~/test/
輸入密碼就能傳上去了,如果是資料夾需要加上-r選項
傳上去後還需要讓指令碼在後臺執行,不然控制檯被關閉程序就被關了,後臺執行的語句是
nohup python -u script.py > log.out &
這裡,> log.out 表示將控制檯輸出輸出到log.out檔案中
-u選項表示每多一條資訊就實時輸出到log.out中,而不是全部輸出完畢再輸出
&符號表示在後臺執行,執行時可以檢視日誌或者執行
ps -ef |grep python
檢視後臺執行的python程序,程式執行完畢執行可以通過
du -h -d 1 –all
以k、M、G為單位的更友好的方式檢視跑出來的資料大小,決定需不需要打壓縮包,再執行
scp -r [email protected]:~/test/data ~/test/
將資料拷貝到本地,這裡不能在伺服器上執行scp,因為我們的電腦往往沒有固定的ip,這樣就完成了在伺服器上執行爬蟲的全過程
相關推薦
在雲伺服器上執行你的爬蟲程式
在伺服器上跑資料是我們常常都需要做的一件事,這篇部落格主要記錄一下從配置伺服器到拿到從伺服器成功拿到資料整個過程我的操作,這裡以騰訊雲伺服器為例 1.申請雲伺服器 這個沒什麼好講的,騰訊雲註冊送7天體驗伺服器,阿里雲送6個月,AWS送一年。因為只是體驗,我開
java爬蟲程式放到linux雲伺服器上執行
為了防止自己忘記,就寫了下來。 首先建立了java專案檔案後,將jsoup包複製到專案中,然後右鍵將其新增到專案中, 我們現在抓取今日頭條的12377的電話號碼,右鍵審查元素,發現舉報電話使用的是class="tel",檢視原始碼,發現tel對應的class只有一項,
如何在雲伺服器上部署你的web專案和一些遇到的問題
第一次寫部落格,寫的不好的地方請見諒。 1、首先你的雲伺服器一定要開啟 2、然後遠端桌面連線你的雲伺服器(它就像是一臺電腦一樣)通過給你的外網ip地址連線,密碼如果給你了的話你就用給你的密碼登入,如果沒有給密碼就重置密碼(這個可以在你的雲伺服器的管理中心裡面弄),我的是百度雲的,找不到重
在雲伺服器上部署你的JAVA WEB專案
第一次在阿里雲伺服器上部署自己的java web專案,從一無所知的小小白到現在略微有一點專案部署經驗的小白(hahahaha),這個過程中真的是一路艱辛,各種頭疼,各種痛苦。但是,不積小流無以成江海,不積跬步無以至千里,現在每一步看似很難的操作和痛苦的學習過程,都是在為自己通往大神之路打基礎做積累。
在伺服器上執行kaldi說話人識別模型訓練程式遇到的小問題
伺服器上已開啟安裝了kaldi工具的docker容器,開啟方法見上一篇部落格。 說話人識別的例程用的是aishell提供的資料集,這裡我的資料集已經下載到伺服器了,所以後面我會再執行腳本里去掉下載資料集的命令。 1、容器開啟的方法: 在上一篇部落格的基礎上用以下命令開啟 docker
Python發郵件程式部署到Linux雲伺服器上之後無法工作
寫了一個爬取學校教務網獲取成績的小工具,每五分鐘進行一次查詢,如果發現有新成績出現就用郵件通知自己,郵件伺服器使用的騰訊企業郵箱。 爬蟲寫的比較順利,但發郵件的部分出了一些問題,在自己的Linux環境下執行沒問題,在雲伺服
本地執行springboot專案的jar包或阿里雲伺服器上導致,no main異常Exception in thread "main" java.lang.ClassNotFoundException
執行打好的jar包,出現如下異常 首先開啟打好的jar包,出現如下目錄 開啟META-INF目錄,中的MANIFEST.MF檔案,如下 中是否有如下的路徑,Start-Class,如果有,確保是全限定名+啟動類嘛 例如我異常時的Start-Class路徑為
linux伺服器上執行java程式,引用外部jar包
將寫好的java程式放到Linux上執行,可以利用Linux伺服器更快的跑完程式。由於我windows和linux下使用的jdk版本不同,因此將windows的java程式打成jar包後在linux下執行總會報錯。於是只能在Linux下使用javac命令編譯生成class
關於在IIS伺服器上執行asp.net Web程式出現下面 “Could not load file or assembly。。。”問題的
Could not load file or assembly 'System.EnterpriseServices, Version=4.0.0.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a' or one of
騰訊雲Centos 7.0 伺服器上執行Java指令碼和jar檔案
1.執行java指令碼 編輯java原始檔 vim HelloWorld.java 建立並開啟HelloWorld.java檔案,編輯內容如下: public class HelloWor
在Windows雲伺服器上部署javaweb專案
javaWeb專案部署到Windows雲伺服器上 工具 / 材料 方法 / 步驟 建立web專案 & 匯出war包 設定遠端桌面連線資訊 在雲伺服器上安裝JDK(版本必須在1.7以上) Tomcat 的安裝與使用
在雲伺服器上安裝docker
現在手頭有一臺雲伺服器,對其安裝docker 1.先解除安裝系統殘留的docker # yum remove docker Failed to set locale, defaulting to C Loaded plugins: fastestmirror No Match for arg
在雲伺服器上(CentOS)上安裝Node
今天手抖,買了臺雲伺服器,本人對伺服器啥的基本不懂,linux命令基本靠度娘,所以連裝個node環境都歷經坎坷,搞了一下午終於搞好了,記錄一下: 第一步:當然是先登入伺服器了,開啟命令列視窗,輸入: ssh [email protected]你的雲伺服器公網IP 回車,輸密碼(你輸密
阿里雲伺服器上部署tomcat,並進行訪問測試
要求將一個專案部署到新買的阿里雲伺服器上。使用xshell遠端連線(連線使用的ip是例項的公網ip)。 在部署配置tomcat之前首先進行JDK的部署,先說明一下,我使用的CentOS7.4. 選擇JDK1.
在華為雲伺服器上使用oracle 12C
基礎配置:雲伺服器 2C 4G oracle 12c 安裝步驟略過,資料庫軟體安裝完成後,使用dbca安裝了資料庫,sqlplus登入正常,本地telnet 1521失敗 檢查監聽狀態 開始配置監聽,使用NET ca配置 監聽配置完成,服務啟動 此時伺服器中1521已通,如果需要對外
阿里雲伺服器上安裝nginx
轉自:https://blog.csdn.net/u014209205/article/details/78921870 在阿里雲伺服器上安裝nginx中遇到一些問題,現將步驟羅列下, 環境是:centos7.4 nginx1.12.2 1.安裝gcc &nb
一.背景 先說下windbg使用場景.各位coder在工作中或多或少都會遇到下面四種情況 1.原生代碼好好的,放伺服器上執行一段時間後,IIS服務突然佔用 w3wp.exe CPU突然100% ,
一.背景 先說下windbg使用場景.各位coder在工作中或多或少都會遇到下面四種情況 1.原生代碼好好的,放伺服器上執行一段時間後,IIS服務突然佔用 w3wp.exe CPU突然100% ,不得不回收應用程式池,如果哪次回收晚了,被客戶發現,後果很痛苦~ 2.你的w3wp.
雲伺服器上安裝Oracle JDK和zookeeper
緣起 華為雲有活動,免費搞了個叢集。先準備試試zookeeper,發現連Java也沒有,要自己安裝。 話說華為雲可以在如下方面提升下: 雲伺服器提供模板,比如常用的zk,redis,kafka,選中後一鍵安裝了 提供雲配置管理。現在無論生產還是測試實驗,都是一個叢集
阿里雲伺服器 ---- 上傳下載檔案
1.xshell 使用xshell來操作服務非常方便,傳檔案也比較方便。 就是使用rz(上傳),sz(下載) 首先,伺服器要安裝了rz,sz 伺服器執行 yum install lrzsz 2.兩個伺服器之間 傳輸檔案 使用scp命令
在Linux伺服器上執行jar包,並且使jar包一直處於後臺執行
1.我jar包在linux的目錄為/a/bbb.jar 正常情況下,使用在/a目錄下使用 java -jar bbb.jar 可以直接執行該jar包的專案,執行成功之後使用crtl+c可以退出專案執行,