Spider¶
一个简单的爬虫库
预期提供:
- 能下载指定url的文件,如果是压缩文件,进行可选的解压缩
- [x] 可以显示进度
- 能够进行简单的信息抽取
- [x] 提取url
- [x] 提取文本
- [ ] 提取图片
更复杂的功能,如爬取特定网站形成结构化数据,反爬虫等内容独立成库
Quick Glance¶
longling.spider.lib.get_html_code (url) |
get encoded html code from specified url |
longling.spider.download_data.download_file (url) |
cli alias: download , download data from specified url |