Извлечение нужной информации из больших фрагментов текста, таких как текстовые файлы, PDF-файлы, электронные таблицы Excel, файлы JSON, может быть трудоемкой и утомительной задачей. Все, кто занимается OSINT, скорее всего, согласятся с этим, поскольку обработка и использование собранных данных в OSINT-расследовании — одна из самых трудоемких задач.
Еще по теме: Лучшие браузерные расширения для разведи
Для этой цели можно написать скрипты на Python или Bash (см. Скрапинг сайтов на Python). Но помимо этого можно использовать искусственный интеллект (ChatGPT и Google Bard). В этой статье расскажу о создании таких запросов, а также приведу практические примеры.
Понимание структуры данных
Прежде чем создавать запросы, необходимо понять структуру и формат данных, с которыми предстоит работать. Разные типы файлов могут требовать различных подходов к извлечению. Например, в PDF-файл может быть встроен текст, а файл Excel может содержать несколько листов.
Также иногда встречаются данные в форматах XML, JSON и других. Ознакомьтесь со структурой данных, чтобы соответствующим образом составить свои запросы.
Для извлечения специфической информации необходимо определить закономерности, характерные для искомых данных. Например, адрес электронной почты обычно имеет формат «username@domain.com».
Потратьте немного времени на анализ данных и выявление общих шаблонов для логинов, адресов электронной почты, телефонных номеров и личных имен.
Создание запросов для ChatGPT или Google Bard или их аналогов
Теперь, настало время создать запросы.
Извлечение логинов:
1 |
Задание: "Извлеки все логины из заданного текста в следующем запросе". |
Извлечение адресов электронной почты:
1 |
Задание: "Найди все адреса электронной почты, упомянутые в тексте в следующей строке". |
Извлечение телефонных номеров:
1 |
Задание: "Определи и извлеки все телефонные номера из представленного текста в следующей". |
Извлечение имен:
1 |
Задание: "Извлеки имена из заданного текста". |
Все приведенные выше примеры запросов будут выполнены и извлекут большое количество данных. Однако эти запросы могут быть недостаточно конкретными и точными. Для продуктивного использования запросов ИИ нужно давать конкретные задания.
Использование регулярных выражений в подсказках поможет улучшить результаты.
Номер телефона не всегда состоит только из цифр.
1 2 3 4 5 6 |
+31612345678 0031-612345678 0612345678 +316oNe234five67eiGht 0031.6.12345678 (+31)6-12345678 |
В нем могут присутствовать символы, буквенно-цифровые обозначения, знаки подчеркивания, точки и эмодзи — это следует учитывать.
Комбинирование подсказок и автоматизация
Отдельные примеры запросов, конечно, можно объединить в один запрос большой, который извлекает различные данные за один раз. Это позволит сэкономить больше времени. Можно даже автоматизировать вывод данных в определенном формате, например, в CSV- или Excel-файл.
Существует также множество плагинов, позволяющих хранить собранные текстовые фрагменты в облачном или локальном хранилище. Можно автоматизировать запуск запроса при загрузке новых текстовых блоков в выбранное место хранения данных и автоматически выводить их в указанное место.
Заключение
С помощью критического мышления и таких инструментов искусственного интеллекта, как ChatGPT и Google Bard, извлечение данных из больших текстовых фрагментов стало более эффективным и менее трудоемким.
Использование нейронок ChatGPT Google Bard в OSINT-расследований позволит в разы ускорить процесс. Кстати, в предыдущей статья рассказывал, как использовать в хакинге нейронку Open Interpreter
ПОЛЕЗНЫЕ ССЫЛКИ: