Wget. Скачиваем из интернета необходимую информацию

Для скачивания из интернета существует масса всяческих возможностей — и менеджеры закачек, и возможность скачивать из броузера и тому подобное. Но если у вас, например, стоит задача скачать список файлов с сайта, или сделать локальное зеркало сайта, либо скачать с сайта поставщика большой xml со списком номенклатуры, лучшим решением по моему мнению является консольная программа wget. Существует как Unix так и Windows решение. Для Unix образных, предполагаю, что она есть во многих репозиторях и установка будет сводится что то типа apt-get wget. Для Windows расскажу далее. Скачать ее можно с сайта свободно распространяемых решений http://gnuwin32.sourceforge.net/packages/wget.htm Устанавливать лучше из обычного setup файла. Далее запускаем консоль в windows (пуск-выполнить-cmd) и набираем wget с параметрами. Вот список наиболее часто используемых параметров

wget -P D:/photo -i D:/photo/1.txt	скачивание файлов из списка 1.txt в директорию D:\photo
wget -P /path/to/save http://example.com/file.zip	скачивание файла file.zip в директорию /path/to/save
wget http://example.com/file.zip	скачивание файла file.zip в текущую директорию
wget -P /path/to/save http://example.com/file.zip	скачивание файла file.zip в директорию /path/to/save
wget -c http://example.com/file.zip	докачивание файла file.zip в случаи обрыва
wget -O arch.zip http://example.com/file.zip	скачивание файла file.zip и сохранение под именем arch.zip
wget -i files.txt	скачивание файлов из списка в files.txt
wget —tries=10 http://example.com/file.zip	количество попыток на скачивание
wget -Q5m -i http://example.com/	квота на максимальный размер скачанных файлов, квота действует только при рекурсивном скачивании (-r)
wget —save-cookies cookies.txt —post-data ‘username=proft&password=1’ http://example.com/auth.php	идентификация на сервере с сохранением кук для последующего доступа
wget —user-agent=»Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5″ http://example.com/	указание User Agent
echo ‘wget http://example.com/file.zip’ \| at 12:00	скачать http://example.com/file.zip в 12:00 в текущую директорию
wget ftp://example.com/dir/*.zip	скачивание всех файлов по шаблону
wget http://example.com/dir/file{1..10}.zip	скачивание всех файлов по шаблону
wget -S http://example.com/	вывод заголовков HTTP серверов и ответов FTP серверов
wget —spider -i urls.txt	проверка ссылок в файле на доступность
wget -b http://example.com/file.zip	скачивание файла в фоне, лог пишется в wget.log, wget.log.1 и т.д.
export http_proxy=http://proxy.com:3128/;wget http://example.com/file.zip	скачивание файла file.zip через прокси
wget -m -w 2 http://example.com/	зеркалирование сайта с сохранением абсолютных ссылок и ожиданием 2-х секунд между запросами
wget —limit-rate=200k http://example.com/file.zip	ограничение скорости скачивания
wget -R bmp http://example.com/	не скачивать bmp файлы
wget -A png,jpg http://example.com/	скачивать только файлы png и jpg

-r — ходим по ссылкам (рекурсивное скачивание)
-k — преобразовываем ссылки к локальному виду
-p — скачивание ресурсов необходимых для отображения html-страницы (стили, картинки и т.д.)
-l — глубина скачивания, 0 — бесконечная вложенность ссылок
-nc — не перезаписывать существующие файлы
-np — не подниматься выше начального адреса при рекурсивной загрузке