Python-Crawler-Demo/ChinaUniversityRank.py at master · cuidezhu/Python-Crawler-Demo · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
# -*- coding: utf-8 -*-
# @Author: cui
# @Date:   2018-03-29 18:53:43
# @Last Modified by:   cui
# @Last Modified time: 2018-03-29 23:01:51

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
  try:
    r = requests.get(url, timeout = 30)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
  except:
    return ""

def fillUnivList(ulist, html):
  soup = BeautifulSoup(html, "html.parser")
  for tr in soup.find('tbody').children:
    if isinstance(tr, bs4.element.Tag):
      tds = tr('td')
      ulist.append([tds[0].string, tds[1].string, tds[2].string])

def printUnivList(ulist, num):
  tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
  print(tplt.format("排名", "学校名称", "总分", chr(12288)))
  for i in range(num):
    u = ulist[i]
    print(tplt.format(u[0], u[1], u[2], chr(12288)))

def main():
  uinfo = []
  url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'
  html = getHTMLText(url)
  fillUnivList(uinfo, html)
  printUnivList(uinfo, 30) # 20 univs
main()