一些練習或是小玩意兒
- 基礎練習用
- 演算法練習
- Text
- web crawler
- BeautifulSoup, requests, re(沒用到)
- 抓取網頁是WtNV的逐字稿Tumblr,感謝這位大大
- 抓下的內容為私用及測試用,所以我不會丟上來ODO
- Text.py:
- 抓取網頁內容
- 所用到的文件是由Text2產生
- 34行是用來剔除多餘的文字,但實際上還是有一行沒清掉XD
- 28行放棄,是因為其中有個網頁是沒有標題的,這會導致Bug
- 為了處理28行的問題,所以增加了「Title.txt」
- Text2.py:
- 抓取網頁連結及標題
- 抓取連結的目的是因為我不想一個一個複製貼成文件,剛好該網頁上有完整的文章列表,所以決定抓文章列表的連結
- 抓取標題的目的是為了應付Text的第28行例外問題
- 標題為了用作文件命名,有做特殊符號置換 (雖然方法爛,但有效)
- OS:實際上我應該到Text再置換符號,然後內文的標題就可以完整點,但是我都做完了就懶得改。