這學期選了軟件安全課,做題的過程中獲得了不少新姿♂勢,在這裡記錄一下。
雖然做題搞的我每個周一晚上都熬夜QAQ
覺得有點意思,拿出來和大家一起研究下,歡迎提供更好的建議。
因為爬x手的時候,網頁已經沒了,只能自食其力;用unrar(rarlab上下的,apt-get里的太古老)獲得rar內的文件名,用zipfile模塊列zip包的,抓的時候直接把返回的內容插到數據庫了,沒分析,因為沒那麼多時間去想算法,還是先把dirty data擼下來再說。
然後開始正文了www
按照這麼一個基本思想,字幕文件名除了擴展名以外,其餘部分和視頻文件是一樣的。如果壓縮包裡面只有一個文件,那麼直接就是它去掉擴展名就好了;但是如果有多個版本的字幕(比如eng,GB,BIG5等),那就需要一個字符串最大匹配的算法。←為了裝B取的名字
其實也不是鏡像,不能自動同步的wwww
加了_ssl.so和httplib2,再也不用擔心被牆了
PS 奶茶雲真尼瑪沒用……就當免費空間用算了www