首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
拉勾
V2EX  ›  Python

Python 环境可有现成的库/轮子/工具,下载网页+网页上的图片到本地?就像 IE 的另存为。。。

  •  
  •   pppguest3962 · 84 天前 · 1425 次点击
    这是一个创建于 84 天前的主题,其中的信息可能已经有所发展或是发生改变。

    可以把网页保存到本地,在本地另建一个文件夹, 使保存在本地的目标网页内的图片 /js 脚本 /falsh 等内容完全指向保存本地的文件夹内, 是否可以做到完全零流量,完全不需再指源站点去获取内容?

    题外话是,IE 好像保存得不完整吧? 好像打开 IE 在本地保存的网页,还是要去源站获取一些什么的,这个我没细究,也只是顺便问问。。。。但目前 python 我想这么做。。。^_^

    10 回复  |  直到 2019-01-01 10:43:03 +08:00
        1
    neoblackcap   84 天前
    看网站,有一些网站必须跟服务器交互,那么你显然不可能将服务器所有的信息抓取下来。
        2
    iAcn   84 天前 via Android
    Python MHT Library 应该可以吧,
    保存成 mht 格式。
        3
    pppguest3962   84 天前
    @neoblackcap,目标网页是相对比较静态的话。。。。呢?

    @iAcn mht 不好后期处理啊。。。
        4
    pppguest3962   84 天前
    目标网页如果相对比较静态,flash 用个什么 downloader 工具都可以下载下来的,没有什么 ajax 复杂交互的情况,

    网页结构没有复杂到马云家,优酷那样,比如类似这样的一个网页:

    http://www.stats.gov.cn/tjsj/zxfb/201812/t20181231_1642475.html
        5
    cdlnls   84 天前 via iPhone
    想到 wget
        6
    congeec   83 天前
    调用浏览器吧,puppeteer、selenium 了解下
        7
    zhustec   83 天前
    wget 了解一下
        8
    bwangel   83 天前
    建议使用截图吧。

    除了视频文件,整个页面的内容都可以通过截图保存下来。

    关键字: headless chrome, selenium

    https://developers.google.com/web/updates/2017/04/headless-chrome

    https://selenium-python.readthedocs.io/api.html#selenium.webdriver.remote.webdriver.WebDriver.get_screenshot_as_png
        9
    imn1   83 天前
    目的?
    如果只是想下载,wget 有 followlink,甚至全站都可以拉下来
    如果想做个 class 给其他程序调用,就需要另外研究,不过 parse 一次页面也不太难
        10
    imn1   83 天前
    顺带提醒一下,看看站点有没有反爬,咳咳,你会被告的
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   845 人在线   最高记录 4385   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 17ms · UTC 20:09 · PVG 04:09 · LAX 13:09 · JFK 16:09
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1