erwewwewe 发表于 2017-3-16 14:34:08

python爬取百思不得姐视频

    #coding:utf-8

    fromTkinter import *

    from ScrolledText import ScrolledText   ##scrollbar

    import re

    import threading

    import requests

    import sys

    import urllib

    reload(sys)

    sys.setdefaultencoding('utf-8')   ## output encodig utf-8

    url_name = [] ###url + name

    a = 1

    ## get the url_html

    def get():

      global a

      hd = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \

             (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

      url = 'http://www.budejie.com/'+str(a)

      var1.set('have scrapyed page %sfilm' % (a))

      html = requests.get(url, headers=hd).text##.text if used for get html code

      a += 1

      url_pattern = re.compile(r'(<div class="j-r-list-c">.*?</div>.*?</div>)', re.S)##bianyi up

      for i in url_content:

            url_reg = r'data-mp4="(.*?)">' ### rzhuanyi

            url_items = re.findall(url_reg, i)

            if url_items: #####if exists

                name_reg = re.compile(r'<a href="/detail-.{8}.html">(.*?)</a>')

                name_items = re.findall(name_reg, i)

                for j,k in zip(name_items, url_items):#ziptwo list yi yi dui yin

                  url_name.append()

                  print j,k

      return url_name


    ### how to download films

    id = 1 # film's number

    def write():

      global id

      while id < 2:

            url_name = get()          ### url + name

            #print url_name

            for i in url_name:

                urllib.urlretrieve(i, 'video/%s.mp4' % (i.decode('utf-8')))

                text.insert(END, str(id)+'.'+i+'\n'+i+'\n')

                url_name.pop(0)

                id += 1

      var1.set('scrapy over')         


    def start():

      th = threading.Thread(target=write)

      th.start()




    root = Tk()

    root.title('comk专属')

    text = ScrolledText(root, font=('微软雅黑', 10))

    text.grid()   ## made setting active

    button = Button(root, text='开始爬取', font=('微软雅黑', 10), command=start)

    button.grid()   

    var1 = StringVar()

    label = Label(root, font=('微软雅黑', 10), fg='red', textvariable=var1)

    label.grid()

    var1.set('comk来了...ready~~~')


    root.mainloop()
页: [1]
查看完整版本: python爬取百思不得姐视频