xidel, крохотный парсер HTML, XML, JSON

Преамбула

Понадобилось тут быстро и качественно выдрать из HTMLки ссылки и картинки.

Наткнулся на довольно интересный инструмент. Называется xidel, и умеет вытаскивать данные не только из HTML, но также из XML, CSS, JSON, в общем штука получается довольно универсальная. Еще один плюс — кросплатформенность. На сайте есть готовые бинарники под Windows, Linux, пакет для Debian. Все вышеперечисленное, что очень приятно, есть в версиях, как для x86, так и для x64. Также имеются версии для Android ARM и Mac OS 10.8. Открыт и исходный код. Утилита, что хорошо, маленькая, самая большая версия для Android — 2Мб, остальные еще меньше.

Брать исходный файл программа может, как из сохраненной на диск страницы, так и непосредственно с сайта.

Примеры использования

На самом деле, инструкция там довольно большая, покажу только самые простые вещи.

Выдираем все адреса ссылок с главной страницы:

xidel -s --extract "//a/@href" "http://tolik-punkoff.com"

Выдираем адреса изображений:

xidel -s --extract "//img/@src" "http://tolik-punkoff.com"

То же самое с сохраненной предварительно на диск страницей:

wget -P "/tmp" --default-page="test.html" --header="Content-type: text/html" "http://tolik-punkoff.com"

xidel -s --extract "//a/@href" "/tmp/test.html"

wget -P "/tmp" --default-page="test.html" --header="Content-type: text/html" "http://tolik-punkoff.com"

xidel -s --extract "//img/@src" "/tmp/test.html"

Результат

Скачать

На официальном сайте
Мой пакет для Slackware

2 Responses to xidel, крохотный парсер HTML, XML, JSON

Pingback: Автоматическое получение конфигов Openvpn для бесплатного VPN от vpnbook.com | Персональный блог Толика Панкова
Pingback: Автоматическое обновление пароля для vpnbook.com | Персональный блог Толика Панкова

Персональный блог Толика Панкова

Стихи, рассказы, философия, IT, политика, панкизм, раздолбайство и болтовня.

2 Responses to xidel, крохотный парсер HTML, XML, JSON

Добавить комментарий Отменить ответ