测试、预发布后用python检测网页是否有日常链接

摘要：在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的，来实现测试和线上正式环境的隔离，这种情况下，就难免会碰到秀逗了把测试的...

在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的，来实现测试和线上正式环境的隔离，这种情况下，就难免会碰到秀逗了把测试的链接发布到线上的情况，一般这种都是通过一些测试的检查工具来检查链接来规避风险的。前两天跟了一个问题也是这个情况，开发疏忽把日常url发布到线上了。但是测试那边没有自动化的监控工具，导致没有及时发现，由于最近正好在看python，后来处理完回家就想用python做个简单的监控。

大略思路是：用python写一个脚本来分析网页里的所有url，看是否包含日常的链接，然后把脚本放到crontab里跑定时任务，10分钟跑一次检查。如果发现非法链接，就发告警邮件给相关人员。脚本代码100行左右，比较好理解，贴上代码。

本来想用beautifulsoup，不过考虑到安装三方库麻烦，所以还是用自带的sgmllib来，不需要关心库。发邮件函数没有实现，根据各自的smtp服务器实现以下即可。

复制代码代码如下:

#!/usr/bin/env python

#coding:UTF-8

import urllib2

from sgmllib import SGMLParser

import smtplib

import time

#from email.mime.text import MIMEText

#from bs4 import BeautifulSoup

#import re

class UrlParser(SGMLParser):

urls = []

def do_a(self,attrs):

'''''parse tag a'''

for name,value in attrs:

if name=='href':

self.urls.append(value)

else:

continue

def do_link(self,attrs):

'''''parse tag link'''

for name,value in attrs:

if name=='href':

self.urls.append(value);

else:

continue

def checkUrl(checkurl, isDetail):

'''''检查checkurl对应的网页源码是否有非法url'''

parser = UrlParser()

page = urllib2.urlopen(checkurl)

content = page.read()

#content = unicode(content, "gb2312").encode("utf8")

parser.feed(content)

urls = parser.urls

dailyUrls = []

detailUrl = ""

for url in urls:

if 'daily' in url:

dailyUrls.append(url);

if not detailUrl and not isDetail and 'www.bc5u.com' in url:

detailUrl = url

page.close()

parser.close()

if isDetail:

return dailyUrls

else:

return dailyUrls,detailUrl

def sendMail():

'''''发送提醒邮件'''

pass

def log(content):

'''''记录执行日志'''

logFile = 'checkdailyurl.log'

f = open(logFile,'a')

f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'n')

f.flush()

f.close()

def main():

'''''入口方法'''

#检查ju

url = "www.bc5u.com"

dailyUrls,detailUrl=checkUrl(url, False)

if dailyUrls:

#检查到daily链接，发送告警邮件

sendMail()

log('check: find daily url')

else:

#没检查到daily链接，不处理

log('check: not find daily url')

#检查judetail

dailyUrls=checkUrl(detailUrl, True)

if dailyUrls:

#检查到daily链接，发送告警邮件

log('check: find daily url')

sendMail()

else:

#没检查到daily链接，不处理

log('check: not find daily url')

if __name__ == '__main__':

main()