Wget. Скачиваем из интернета необходимую информацию

Для скачивания из интернета существует масса всяческих возможностей — и менеджеры закачек, и возможность скачивать из броузера и тому подобное. Но если у вас, например, стоит задача скачать список файлов с сайта, или сделать локальное зеркало сайта, либо скачать с сайта поставщика большой xml со списком номенклатуры, лучшим решением по моему мнению является консольная программа wget. Существует как Unix так и Windows решение. Для Unix образных, предполагаю, что она есть во многих репозиторях и установка будет сводится что то типа apt-get wget. Для Windows расскажу далее. Скачать ее можно с сайта свободно распространяемых решений http://gnuwin32.sourceforge.net/packages/wget.htm Устанавливать лучше из обычного setup файла. Далее запускаем консоль в windows (пуск-выполнить-cmd) и набираем wget с параметрами. Вот список наиболее часто используемых параметров

 

wget -P D:/photo -i D:/photo/1.txtскачивание файлов из списка 1.txt в директорию D:\photo
wget -P /path/to/save http://example.com/file.zipскачивание файла file.zip в директорию /path/to/save
wget http://example.com/file.zipскачивание файла file.zip в текущую директорию
wget -P /path/to/save http://example.com/file.zipскачивание файла file.zip в директорию /path/to/save
wget -c http://example.com/file.zipдокачивание файла file.zip в случаи обрыва
wget -O arch.zip http://example.com/file.zipскачивание файла file.zip и сохранение под именем arch.zip
wget -i files.txtскачивание файлов из списка в files.txt
wget —tries=10 http://example.com/file.zipколичество попыток на скачивание
wget -Q5m -i http://example.com/квота на максимальный размер скачанных файлов, квота действует только при рекурсивном скачивании (-r)
wget —save-cookies cookies.txt —post-data ‘username=proft&password=1’ http://example.com/auth.phpидентификация на сервере с сохранением кук для последующего доступа
wget —user-agent=»Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5″ http://example.com/указание User Agent
echo ‘wget http://example.com/file.zip’ | at 12:00скачать http://example.com/file.zip в 12:00 в текущую директорию
wget ftp://example.com/dir/*.zipскачивание всех файлов по шаблону
wget http://example.com/dir/file{1..10}.zipскачивание всех файлов по шаблону
wget -S http://example.com/вывод заголовков HTTP серверов и ответов FTP серверов
wget —spider -i urls.txtпроверка ссылок в файле на доступность
wget -b http://example.com/file.zipскачивание файла в фоне, лог пишется в wget.log, wget.log.1 и т.д.
export http_proxy=http://proxy.com:3128/;wget http://example.com/file.zipскачивание файла *file.zip* через прокси
wget -m -w 2 http://example.com/зеркалирование сайта с сохранением абсолютных ссылок и ожиданием 2-х секунд между запросами
wget —limit-rate=200k http://example.com/file.zipограничение скорости скачивания
wget -R bmp http://example.com/не скачивать bmp файлы
wget -A png,jpg http://example.com/скачивать только файлы png и jpg

 

  • -r — ходим по ссылкам (рекурсивное скачивание)
  • -k — преобразовываем ссылки к локальному виду
  • -p — скачивание ресурсов необходимых для отображения html-страницы (стили, картинки и т.д.)
  • -l — глубина скачивания, 0 — бесконечная вложенность ссылок
  • -nc — не перезаписывать существующие файлы
  • -np — не подниматься выше начального адреса при рекурсивной загрузке
Пролистать наверх