Spider

一个简单的爬虫库

预期提供:

  1. 能下载指定url的文件,如果是压缩文件,进行可选的解压缩
    • [x] 可以显示进度
  2. 能够进行简单的信息抽取
    • [x] 提取url
    • [x] 提取文本
    • [ ] 提取图片

更复杂的功能,如爬取特定网站形成结构化数据,反爬虫等内容独立成库

Quick Glance

longling.spider.lib.get_html_code(url) get encoded html code from specified url
longling.spider.download_data.download_file(url) cli alias: download, download data from specified url
longling.spider.lib.get_html.get_html_code(url)[源代码]

get encoded html code from specified url

longling.spider.download_data.download_file(url, save_path=None, override=True, decomp=True, reporthook=None)[源代码]

cli alias: download, download data from specified url

参数:
  • url --
  • save_path --
  • override --
  • decomp --
  • reporthook --