这学期选了软件安全课,做题的过程中获得了不少新姿♂势,在这里记录一下。
虽然做题搞的我每个周一晚上都熬夜QAQ
觉得有点意思,拿出来和大家一起研究下,欢迎提供更好的建议。
因为爬x手的时候,网页已经没了,只能自食其力;用unrar(rarlab上下的,apt-get里的太古老)获得rar内的文件名,用zipfile模块列zip包的,抓的时候直接把返回的内容插到数据库了,没分析,因为没那么多时间去想算法,还是先把dirty data撸下来再说。
然后开始正文了www
按照这么一个基本思想,字幕文件名除了扩展名以外,其余部分和视频文件是一样的。如果压缩包里面只有一个文件,那么直接就是它去掉扩展名就好了;但是如果有多个版本的字幕(比如eng,GB,BIG5等),那就需要一个字符串最大匹配的算法。←为了装B取的名字
其实也不是镜像,不能自动同步的wwww
加了_ssl.so和httplib2,再也不用担心被墙了
PS 奶茶云真尼玛没用……就当免费空间用算了www