返回顶部

python提取页面内的url列表

[复制链接]
骑单车的小女孩Lv.2 显示全部楼层 发表于 2016-12-30 00:46:01 |阅读模式 打印 上一主题 下一主题

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
来源:http://www.open-open.com/code/view/1434378966567

  1. from bs4 import BeautifulSoup
  2. import time,re,urllib2

  3. t=time.time()

  4. websiteurls={}

  5. def scanpage(url):
  6.      
  7.     websiteurl=url
  8.     t=time.time()
  9.     n=0
  10.     html=urllib2.urlopen(websiteurl).read()
  11.     soup=BeautifulSoup(html)
  12.     pageurls=[]
  13.     Upageurls={}
  14.     pageurls=soup.find_all("a",href=True)

  15.     for links in pageurls:
  16.         if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
  17.             Upageurls[links.get("href")]=0
  18.     for links in Upageurls.keys():
  19.         try:
  20.             urllib2.urlopen(links).getcode()
  21.         except:
  22.             print "connect failed"
  23.         else:
  24.             t2=time.time()
  25.             Upageurls[links]=urllib2.urlopen(links).getcode()
  26.             print n,
  27.             print links,
  28.             print Upageurls[links]
  29.             t1=time.time()
  30.             print t1-t2
  31.         n+=1
  32.     print ("total is "+repr(n)+" links")
  33.     print time.time()-t


  34. scanpage("http://news.163.com/")
复制代码


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

云萌主 云萌主-BIGSAAS旗下,由北京合智互联信息技术有限公司在2018年创立,为广大云应用技术爱好者的平台。在云萌主论坛可以查看云应用技术文章、云产品产品最新资讯、技术问答、技术视频。在畅游云上技术的同时,学到最新的云应用产品和技术。
  • 微信公众号

  • Powered by Discuz! X3.4 | Licensed | Copyright © 2001-2022, Aliyun Cloud. | 星点互联设计
  • 京ICP备18052714号 | 营业执照 | |合智互联| QQ