Продолжаем цикл статьей «Использование Python в OSINT». Веб-архив archive.org — один из самых важных источников информации для OSINT и SOCMINT. Веб-архив позволяет найти удаленные контактную информацию владельцев сайтов, проследить историю изменения информации в профиле в социальной сети или найти любой другой удаленный контент. Далее рассмотрим использование Python для работы с веб-архивом Archive.org .
Еще по теме: Создание бэкдора на Python
Работа с веб-архивом Archive.org в Python
Использование Python для работы с веб-архивов — отличный повод изучить основы работы с датой и временем в Python.
Для создания скрипта автоматизации работы с архивом WaybackMachine, будем использовать пакет Wayback.
Установите пакет Wayback:
1 |
pip install wayback |
Чтобы избежать лишний вопросов связанных с моим терминалом, я использую GitPod.
Запустите download_mementos.py:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
# Импорт пакетов pathback и datetime: import wayback from datetime import datetime # Создать клиент веб-архива: client = wayback.WaybackClient() # Поиск копий веб-страниц nasa.gov, сохраненных до 1999 года: for record in client.search('http://nasa.gov', to_date=datetime(1999, 1, 1)): # Получить запись (копию веб-страницы): memento = client.get_memento(record) 123 # Создание файла, в котором будем сохранен HTML-код web page copy (replace the link to the page with / to - (so that no error occurs when saving the file) and add .html extension: fileName=memento.memento_url.replace("/","-")+".html" # Открыть файл, в котором будем сохранен HTML-код копии веб-страницы: memento_file = open(fileName, "a") # Сохранение HTML-кода копии страницы в файл: memento_file.write(memento.text) # Закрыть файл: memento_file.close() # Отобразить имя файла: print (fileName) |
Запуск скрипта может занять некоторое время.
Обратите внимание, что для установки диапазона дат для поиска копий веб-страницы в веб-архиве мы использовали datetime(). Это очень важная функция. Давайте рассмотрим несколько примеров того, как с ней работать.
Запустите date_time.py:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
# Импорт пакета datetime (по умолчанию доступен в Python): import datetime # Поместить текущую дату и время в переменную: currentTime = datetime.datetime.now() # Показать текущую дату и время: print(currentTime) # Показать текущий год: print("Current Year: "+str(currentTime.year)) # Показать текущий месяц: 125 print("Current Month: "+str(currentTime.month)) # Отобразить текущий день недели, день месяца, месяц и год: print(currentTime.strftime("%A %d %B %Y")) |
Вы можете заменить datetime.datetime.now() на другую дату. Например, datetime.datetime(2023, 5, 4).
ПОЛЕЗНЫЕ ССЫЛКИ:
- Сбор информации с помощью веб-архива в Metasploit
- Использование Wayback Machine (archive.org) в OSINT
- Использование Python для получения информации о домене