Uscrapper — это инструмент для сбора разнообразных персональных данных с сайтов. Давайте рассмотрим возможности и использование Uscrapper.
Еще по теме: Скрапинг сайтов на Python
Что такое Uscrapper
Uscrapper использует методы веб-скрапинга и регулярные выражения для извлечения email-адресов, ссылок на соцсети, имен авторов, геолокаций, номеров телефонов и имен пользователей как из гиперссылок, так и из обычного текста на странице.
Uscrapper позволяет генерировать подробные отчеты со всеми собранными данными.
Uscrapper извлекает следующие данные с указанного веб-сайта:
- Email-адреса: отображает найденные на сайте электронные почты.
- Ссылки на социальные сети: отображает ссылки на различные социальные платформы, найденные на сайте.
- Имена авторов: отображает имена авторов, связанных с сайтом.
- Геолокации: отображает геолокационную информацию, связанную с сайтом.
- Данные без гиперссылок: отображает данные без гиперссылок, найденные на сайте, включая электронные почты, номера телефонов и имена пользователей.
Установка Uscrapper
Требования:
- Python 3
- Модуль pip
- Стабильное интернет-соединение
- Различные пакеты Python (установятся автоматически)
Клонируйте репозиторий:
1 |
git clone https://github.com/z0m31en7/Uscrapper.git |
Перейдите в новую директорию и измените права доступа для скрипта install.sh:
1 2 |
cd Uscrapper/install/ chmod +x ./install.sh && ./install.sh |
После завершения инструмент готов к использованию.
Использование Uscrapper
Для запуска используйте следующий синтаксис:
1 |
python Uscrapper-v2.0.py [-h] [-u URL] [-c (INT)] [-t THREADS] [-O] [-ns] |
Параметры запуска:
1 2 3 4 5 6 |
-h, --help — показать справку и выйти. -u URL, --url URL — указать URL веб-сайта, из которого извлекать данные. -c INT, --crawl INT — указать количество ссылок для парсинга. -t INT, --threads INT — указать количество потоков для использования при парсинге и скрапинге. -O, --generate-report — сгенерировать файл отчета, содержащий извлеченные данные. -ns, --nonstrict отображать неполные имена пользователей во время извлечения. |
Укажите сайт для скрапинга и количество ссылок для парсинга. Также укажите число потоков.
Инструмент начнет собирать указанное количество ссылок, а также извлекать email-адреса, геолокации, номера телефонов и ссылки на соцсети, если они есть на сайте.
В данном примере, в качестве цели был использован сайт киберспортивной организации Fnatic. Инструмент нашел 7 адресвов электронной почты и 11 ссылок на соцсети.
Есть опция генерации отчета, но похоже, что в текущей версии она не работает.
В целом, Uscrapper 2.0 — неплохой инструмент для OSINT и веб-скрапинга личной информации
ПОЛЕЗНЫЕ ССЫЛКИ:
- Анализ сайта в рамках OSINT
- Парсинг Телеграм каналов и чатов своими руками
- Парсинг JSON TOML YAML XML и CSV с помощью Go