Автоматизация поиска документов сайта при OSINT

Документы, хранящиеся на сайте компании, могут быть очень полезным источников информации в рамках OSINT-анализа. Они могут включать в себя электронные письма, номера телефонов, адреса, имена сотрудников, ссылки на другие сайты, связанные с компанией, случайно опубликованную финансовую и стратегическую информацию. Эта статья научит вас находить файлы, которые могут не быть проиндексированы Google.

Еще по теме: Анализ сайта в рамках OSINT

Google Dorks для поиска документов сайта

Одним из самых популярных методов поиска документов сайта — это использование Google Dorks .

Google Dorks (Дорки Гугл) — это специальные поисковые запросы, позволяющие искать скрытую информацию на веб-сайтах через поисковую систему Google. Они могут использоваться для обнаружения конфиденциальных документов, утечек данных и другой чувствительной информации, которая может быть неиндексирована обычными поисковыми запросами. Эти запросы позволяют исследователям ищем недоступные для обычного поиска данные и совершенствовать методы цифрового расследования.

Подробнее про дорки см. в статье «Как найти и использовать Гугл Дорки»

Вот несколько примеров использования дорков.

Рассмотрим дорк, который используется для поиска файлов на сайте, находящихся в директории fileadmin. Когда вы вводите site.com inurl в поисковой строке, поисковый движок начинает искать все файлы на сайте company.com, которые находятся в папке fileadmin.

Это может быть полезным, если вы ищете конкретные файлы или информацию на определенном веб-сайте, но не знаете точный адрес файла или страницы.

Следующий запрос используется для поиска файлов форматов PDF, PPT или XLS на сайте company.com:

Еще один популярный дорк используется для поиска PDF-файлов на сайте company.com, содержащих либо слово contract, либо фразу internal use only.

Большой недостаток этого метода заключается в том, что Google не индексирует все документы.

Некоторые из них могут быть скрыты от индексирования атрибутом no-follow, некоторые просто не связаны ни с одной страницей сайта, некоторые из них просто новые, и Google еще не успел их проиндексировать.

Кроме того, многие, для поиска документов сайта используют только Google и браузер . Но анализ большого объема документов таким образом весьма затруднителен.

Сканирование сайта используя Katana

Katana — это шустрый веб-краулер для поиска и извлечения ссылок с сайтов. Он позволяет автоматизировать процесс сканирования веб-страниц, что особенно полезно для поиска документов и других файлов, которые могут быть не проиндексированы поисковыми системами.

Установите Katana:

Установка Katana

Получите список урлов сайта:

Использование Katana

Извлеките корневые каталоги из списка ссылок:

Автоматизация поиска документов сайта

Этого списка хватит, чтобы перейти к следующему шагу. Но для глубокого анализа можно поискать другие существующие каталоги с помощью DirHunter и GoBuster, а также каталоги с текущими удаленными файлами с помощью WayMore и WayBackUrls.

Скачивание файлов

Теперь давайте выберем какой-нибудь каталог из списка и попробуем скачать файлы из него в каталог owasp:

Процесс может занять время. Все зависит от размера целевого сайта.

Эта команда позволит делать с файлами в выбранном каталоге все, что угодно (использовать Grep, PDFgrep, Find, Fimages, Exiftool и многие другие инструменты).

К сожалению, часто в каталогах сайтов хранится так много файлов, что физически невозможно их все скачать (и да, owasp.org не является хорошим примером).

В таком случае можно получить список ссылок на файлы в конкретном каталоге и сохранить его в текстовый файл:

Из этого текстового файла можно выбрать самые интересные (например, те, в пути которых встречаются буквы «PDF») и скачать их.

Анализ сайта OSINT

Извлечение всех ссылок из выходного файла:

Фильтрация ссылок по ключевому слову:

Скачивание файлов:

Добавление расширения к загруженным файлам:

Все остальные файлы с другими расширениями можно найти и скачать аналогичным образом. Для поиска чувствительной информации начните с docx, xlsx, pptx, csv и т. д.

Вы также можете попробовать скачать все PDF-файлы сразу с помощью команды:

Но, к сожалению, это не всегда работает и не для всех сайтов.

Поиск чувствительной информации

Теперь давайте посмотрим на метаданные извлеченных документов:

Поиск чувствительной информации сайта

Аналогично, вы можете извлекать изображения и текст из PDF, искать текст с использованием ключевых слов или регулярных выражений.

ПОЛЕЗНЫЕ ССЫЛКИ:

QUASAR

Этичный хакер: компьютерный ниндзя и мастер цифровых тайн.

Добавить комментарий