Понадобилось тут быстро и качественно выдрать из HTMLки ссылки и картинки.
Наткнулся на довольно интересный инструмент. Называется xidel, и умеет вытаскивать данные не только из HTML, но также из XML, CSS, JSON, в общем штука получается довольно универсальная. Еще один плюс — кросплатформенность. На сайте есть готовые бинарники под Windows, Linux, пакет для Debian. Все вышеперечисленное, что очень приятно, есть в версиях, как для x86, так и для x64. Также имеются версии для Android ARM и Mac OS 10.8. Открыт и исходный код. Утилита, что хорошо, маленькая, самая большая версия для Android — 2Мб, остальные еще меньше.
Брать исходный файл программа может, как из сохраненной на диск страницы, так и непосредственно с сайта.
На самом деле, инструкция там довольно большая, покажу только самые простые вещи.
Выдираем все адреса ссылок с главной страницы:
xidel -s --extract "//a/@href" "http://tolik-punkoff.com"
Выдираем адреса изображений:
xidel -s --extract "//img/@src" "http://tolik-punkoff.com"
То же самое с сохраненной предварительно на диск страницей:
wget -P "/tmp" --default-page="test.html" --header="Content-type: text/html" "http://tolik-punkoff.com"
xidel -s --extract "//a/@href" "/tmp/test.html"
wget -P "/tmp" --default-page="test.html" --header="Content-type: text/html" "http://tolik-punkoff.com"
xidel -s --extract "//img/@src" "/tmp/test.html"
Скачать
Pingback: Автоматическое получение конфигов Openvpn для бесплатного VPN от vpnbook.com | Персональный блог Толика Панкова
Pingback: Автоматическое обновление пароля для vpnbook.com | Персональный блог Толика Панкова