【爬虫】爬取python论坛:高级教程模块的超链接

  • Tulip
  • 1045 次点击

源代码如下:

import urllib.request
import re

js=0
clj=[]
url ='http://www.pythontab.com/html/pythonhexinbiancheng/index.html'
dywz= [url]
reg = re.compile('\<a href="([\S]+)" class="content_detail')
reg2=re.compile('.*?(python).*?')

for i in range(2,21):
    dywz.append('http://www.pythontab.com/html/pythonhexinbiancheng/%s.html'%i)

for j in dywz:
    lj=str(urllib.request.urlopen(j).read())
    Q=reg.findall(lj)
    for i in Q:
        clj.append(i)

for k in clj:
    pipei = str(urllib.request.urlopen(k).read())
    if reg2.findall(pipei):
        wj = open('D:/1.txt', 'a+')
        wj.write(k)
        wj.write('\n')
        js+=1
    wj.close()
print('源代码中含有关键字:Python的页面有',js,'个')

最后最后,有大牛能給我下一个学习的方向吗?学校老师给我的下一目标是:电脑指纹识别。

添加一条新回复
登录 或者 注册 后发表回复