如何用Python爬取上道網的贊助公司名稱？

2021-01-18 15:20

Python進階學習交流

關注

一、前言

上道網是一個手游發行推薦與投融資交易平臺。平臺聚集手游CP、手游發行、手游渠道、手游外包，投資商以及IP授權商，IP合作、一站式服務。并為之提供合作交易機會。

今天教如何去爬取上道網的贊助公司名稱，方便有關人士投資。

二、實現目標

獲取對應的公司名稱，保存文檔。

三、項目準備

軟件：PyCharm

需要的庫：requests，fake＿useragent，time

網址：http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－｛｝．html

四、項目分析如何網頁訪問？

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－1．html

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－2．html

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－3．html

http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－4．html

點擊下一頁時，每增加一頁p－｛｝．html自增加1，用｛｝代替變換的變量，再用for循環遍歷這網址，實現多個網址請求。

五、項目實現

1．定義一個class類繼承object，定義init方法繼承self，主函數main繼承self。導入需要的庫、請求地址。import requestsfrom lxml import etreefrom fake＿useragent import UserAgentimport time
class Shangdao（object）： def ＿＿init＿＿（self）： self．url ＝＂http：／／www．daogame．cn／qudao－p－2．html？s＝／qudao－p－｛｝．html＂＃網站 def main（self）： pass
if ＿＿name＿＿＝＝＇＿＿main＿＿＇： Siper ＝ Shangdao（） Siper．main（）2．隨機產生UserAgent，防止反爬。for i in range（1， 50）： self．headers ＝｛＇User－Agent＇： ua．random，｝3．發送請求獲取響應，頁面回調，方便下次請求。
def get＿page（self， url）： res ＝ requests．get（url＝url， headers＝self．headers） html ＝ res．content．decode（＂utf－8＂） return html4．獲取公司名稱，for遍歷。
def page＿page（self， html）： parse＿html ＝ etree．HTML（html） one ＝ parse＿html．xpath（＇／／h2／a／text（）＇） for i in one： print（i）5．寫入文檔。
f ＝ open（＇公司．doc＇，＇a＇， encoding＝＇utf－8＇）＃以＇w＇方式打開文件 f．write（str（i））6．調用方法，實現功能。
def main（self）： stat ＝ int（input（＂輸入開始（2開始）：＂）） end ＝ int（input（＂輸入結束：＂）） for page in range（stat， end ＋ 1）： url ＝ self．url．format（page） print（url） html ＝ self．get＿page（url） self．page＿page（html） print（＂＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝第％s頁爬取成功！！！！＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＂％ page）項目優化：

1．設置時間延時。time．sleep（1．4）

六、效果展示

點擊綠色小三角運行輸入起始頁，終止頁（從0頁開始）。

渠道公司名，結果顯示控制臺。

保存文檔。

七、總結

1．不建議抓取太多數據，容易對服務器造成負載，淺嘗輒止即可。2．希望通過這個項目，能夠幫助了解xpath解析頁面的基本流程，字符串是如何拼接，format函數如何運用。3．本文基于Python網絡爬蟲，利用爬蟲庫，實現爬取上道網，但是到自己動手實現的時候，總會有各種各樣的問題，切勿眼高手低，勤動手，才可以理解的更加深刻。