Документы, хранящиеся на сайте компании, могут быть очень полезным источников информации в рамках OSINT-анализа. Они могут включать в себя электронные письма, номера телефонов, адреса, имена сотрудников, ссылки на другие сайты, связанные с компанией, случайно опубликованную финансовую и стратегическую информацию. Эта статья научит вас находить файлы, которые могут не быть проиндексированы Google.
Еще по теме: Анализ сайта в рамках OSINT
Google Dorks для поиска документов сайта
Одним из самых популярных методов поиска документов сайта — это использование Google Dorks .
Google Dorks (Дорки Гугл) — это специальные поисковые запросы, позволяющие искать скрытую информацию на веб-сайтах через поисковую систему Google. Они могут использоваться для обнаружения конфиденциальных документов, утечек данных и другой чувствительной информации, которая может быть неиндексирована обычными поисковыми запросами. Эти запросы позволяют исследователям ищем недоступные для обычного поиска данные и совершенствовать методы цифрового расследования.
Подробнее про дорки см. в статье «Как найти и использовать Гугл Дорки»
Вот несколько примеров использования дорков.
Рассмотрим дорк, который используется для поиска файлов на сайте, находящихся в директории fileadmin. Когда вы вводите site.com inurl в поисковой строке, поисковый движок начинает искать все файлы на сайте company.com, которые находятся в папке fileadmin.
1 |
site:company.com inurl:fileadmin |
Это может быть полезным, если вы ищете конкретные файлы или информацию на определенном веб-сайте, но не знаете точный адрес файла или страницы.
Следующий запрос используется для поиска файлов форматов PDF, PPT или XLS на сайте company.com:
1 |
site:company.com (filetype:pdf OR filetype:ppt OR filetype:xls) |
Еще один популярный дорк используется для поиска PDF-файлов на сайте company.com, содержащих либо слово contract, либо фразу internal use only.
1 |
site:company.com (contract OR “internal use only”) filetype:pdf |
Большой недостаток этого метода заключается в том, что Google не индексирует все документы.
Некоторые из них могут быть скрыты от индексирования атрибутом no-follow, некоторые просто не связаны ни с одной страницей сайта, некоторые из них просто новые, и Google еще не успел их проиндексировать.
Кроме того, многие, для поиска документов сайта используют только Google и браузер . Но анализ большого объема документов таким образом весьма затруднителен.
Сканирование сайта используя Katana
Katana — это шустрый веб-краулер для поиска и извлечения ссылок с сайтов. Он позволяет автоматизировать процесс сканирования веб-страниц, что особенно полезно для поиска документов и других файлов, которые могут быть не проиндексированы поисковыми системами.
Установите Katana:
1 |
go install github.com/projectdiscovery/katana/cmd/katana@latest |
Получите список урлов сайта:
1 |
katana -u owasp.org -o links.txt |
Извлеките корневые каталоги из списка ссылок:
1 |
cat links.txt | grep -oP '^https?://(?:[^/]*/){2}' | sort -u | tee root-dirs.txt |
Этого списка хватит, чтобы перейти к следующему шагу. Но для глубокого анализа можно поискать другие существующие каталоги с помощью DirHunter и GoBuster, а также каталоги с текущими удаленными файлами с помощью WayMore и WayBackUrls.
Скачивание файлов
Теперь давайте выберем какой-нибудь каталог из списка и попробуем скачать файлы из него в каталог owasp:
1 |
wget -r -no-parent owasp.org/corporate -P owasp |
Процесс может занять время. Все зависит от размера целевого сайта.
Эта команда позволит делать с файлами в выбранном каталоге все, что угодно (использовать Grep, PDFgrep, Find, Fimages, Exiftool и многие другие инструменты).
К сожалению, часто в каталогах сайтов хранится так много файлов, что физически невозможно их все скачать (и да, owasp.org не является хорошим примером).
В таком случае можно получить список ссылок на файлы в конкретном каталоге и сохранить его в текстовый файл:
1 |
wget --spider -r --no-parent info.lidl/de -v -o lidl_links_spider.txt |
Из этого текстового файла можно выбрать самые интересные (например, те, в пути которых встречаются буквы «PDF») и скачать их.
Извлечение всех ссылок из выходного файла:
1 |
grep -o 'http[s]\?://[^ ]\+' lidl_links_spider.txt >lidl_links.txt |
Фильтрация ссылок по ключевому слову:
1 |
grep -E 'pdf' lidl_links.txt >lidl_pdf_links.txt |
Скачивание файлов:
1 |
wget -i lidl_pdf_links.txt -P lidl_pdf |
Добавление расширения к загруженным файлам:
1 |
find lidl_pdf -type f -exec mv '{}' '{}'.pdf \; |
Все остальные файлы с другими расширениями можно найти и скачать аналогичным образом. Для поиска чувствительной информации начните с docx, xlsx, pptx, csv и т. д.
Вы также можете попробовать скачать все PDF-файлы сразу с помощью команды:
1 |
wget -r -A .pdf -e robots=off -P pdf_dir cerambycidae.net |
Но, к сожалению, это не всегда работает и не для всех сайтов.
Поиск чувствительной информации
Теперь давайте посмотрим на метаданные извлеченных документов:
1 |
exiftool lidl_pdf | grep ^Creator |
Аналогично, вы можете извлекать изображения и текст из PDF, искать текст с использованием ключевых слов или регулярных выражений.
ПОЛЕЗНЫЕ ССЫЛКИ: