Советы по использованию архива Интернета в вашем следующем расследовании

English version

Internet Archive — некоммерческая библиотека, которая в этом году отмечает 25 лет своей деятельности на поприще «всеобщего доступа ко всем знаниям». Больше всего она прославилась сервером Wayback Machine, которым я сейчас и заведую. На нём сохраняется архив почти всей публично доступной Сети со скоростью более 1 миллиарда архивируемых адресов URL в день.

Журналисты, учёные, фактчекеры, активисты и просто все желающие бесплатно пользуются Wayback Machine каждый день. Про нас или со ссылкой на наши услуги написано несколько тысяч статей. Даже в итоговой публикации рубрики GIJN Мои любимые инструменты за 2020 год несколько ведущих журналистов-расследователей назвали сервер главнейшим подспорьем в работе.

Далее предлагаем обзор этой службы для тех журналистов, которые хотят попробовать Wayback Machine в следующем расследовании.

Хотите научиться находить скрытые данные в открытых онлайн-источниках? Посмотрите эту подборку советов и ресурсов по расследованиям в интернете.

Сохранение содержимого по адресу URL

Если вы публикуете статью, в которой есть ссылка на веб-сайт, но владельцы сайта удалили основную страницу или весь сайт, то данные пропали бы безвозвратно, если б никто их не заархивировал. Пусть с вами такого не случается!

Десятки миллионов адресов URL каждый день сохраняются пользователями при помощи службы Save Page Now (Сохранить страницу сейчас). Любой может ввести URL-адрес, а если вы залогинены с бесплатной учетной записью, то можно попросить заархивировать и «outlinks» — внешние ссылки с исходной страницы, которую вы сохраняете. Отчёт о процессе сохранения придёт к вам на почту.

Ещё одна полезная функция Wayback Machine заключается в том, что теперь вы можете скачивать сохранённые URL-адреса в формате WACZ и просматривать/обрабатывать их с помощью своих инструментов.

Функция «Save Page Now» (Сохранить страницу прямо сейчас) позволяет автоматически архивировать большой объём информации из Twitter. Например, вы можете без труда сохранить в архиве до 3 200 последних твитов из любого профиля. Для этого нужно скопировать и вставить URL-адрес, а затем выбрать соответствующую функцию.

Вот некоторые технические подробности: если у вас есть список адресов URL, которые вы хотите заархивировать, добавьте их в столбец А электронной таблицы Google Sheets. Затем её нужно указать в сервисе пакетного сохранения страниц вот здесь. В столбцах B, C и D затем появится индикатор успешности, URL-адрес архива, и указатель того, сохранялась ли эта страница в Wayback Machine ранее.

Ещё один вариант — отправить отдельный URL по почте на адрес «spn@archive.org». Если добавить в строку темы слова «capture outlinks», то будут сохранены и все исходящие ссылки со страницы. Отчёт тоже придёт на электронную почту по завершении процесса.

Наконец, для более технически подкованных пользователей Wayback Machine предоставляет программный интерфейс API с помощью которого можно интегрировать сервис в существующие рабочие потоки или автоматизировать работу при создании новых приложений. Примером этого служит Meedan — некоммерческая организация из Сан-Франциско, выпускающая программное обеспечение для поддержки глобальной журналистики. Они интегрировали свою службу «Check» (проверка) с Wayback Machine.

Сравните изменения в сохранённых версиях

Бывало такое, что нужно найти и отобразить разницу двух версий одной и той же веб-страницы — возможно, чтобы увидеть, как компания или отдельный человек поменяли свой сайт или подправили формулировки на своей странице? Это легко увидеть при помощи функции «Changes» (Изменения).

Для этого введите любой сохраненный URL-адрес в поле поиска на заглавной странице Wayback Machine. Затем выберите пункт «Changes».

Вы увидите список сохранённых версий с разными датами и временем, выделенные цветом по степени значительности изменений.

Затем выберите любые два варианта страницы из разных временных отметок, и они отразятся бок-о-бок, а отличия в тексте будут выделены синим и жёлтым цветом. Именно с помощью этой функции удалось выявить, как британский блогер и политический советник пытался переписать историю (см. снимок экрана ниже).

Функция оценки изменений в Wayback Machine показала, что Доминик Каммингс, бывший главный советник премьер-министра Великобритании, пытался незаметно добавить текст (синим, справа) к исходной публикации в блоге (слева). Изображение: Снимок экрана

Глубокий поиск по архиву

Выберите пункт «URLs», чтобы найти суб-адреса любой сохранённой веб-страницы с использованием ключевых слов или MIME-типов (расширений) файлов, например, txt — для текстов, png, jpg — для картинок. Сервис позволяет легко фильтровать и сортировать результаты, что упрощает поиск интересующих архивов.

Некоторые файлы и коллекции веб-сайтов были проиндексированы нашими инженерами, поэтому теперь в Wayback Machine доступен интерфейс полнотекстового поиска.

Найдите раздел «Collection Search» (Поиск по коллекциям) в нижней части главной страницы Wayback Machine. Эта функция помогает получить доступ к исчезнувшим из доступа ресурсам, например, к poetry.com, сайтам независимых российских СМИ и коллекции из 749 миллионов PDF-файлов. Ознакомиться с доступными возможностями для работы с коллекциями можно и на домашней странице Internet Archive. Если вы хотите, чтобы мы проиндексировали конкретные коллекции архивных материалов (например, в соответствии с различными шаблонами URL-адресов), пожалуйста, свяжитесь с нами по адресу info@archive.org.

Использование интерфейсов API с Wayback Machine

В дополнение к API для архивирования через службу «Save Page Now» есть и другие интерфейсы API, которые можно использовать для отправки запроса в Wayback Machine, чтобы проверить, были ли сохранены конкретные URL. Детальнее об этом можно прочитать здесь.

Wayback, и большинство сопутствующих служб на сервере, не ставят формальных ограничений по частоте обращений к API. Но иногда доступ ограничивают. Если вы столкнётесь с проблемами в использовании Wayback Machine, отправьте нам электронное письмо или напишите личное сообщение в Twitter; нам важно поддерживать журналистов.

Добавление контекста к архивным страницам

Мы понимаем, что контекст и происхождение информации крайне важны для всесторонней работы с любым архивом. Для этого мы начали добавлять контекстные баннеры, чтобы помочь пользователям лучше разобраться в наших архивных ресурсах. Эти баннеры могут использоваться, когда заархивированная веб-страница удалена, или когда про страницу написала известная организация.

Wayback Machine использует жёлтые заголовки со ссылкой на внешнее использование архивных страниц, и добавляет вкладку «About this capture» (Про эту запись), где приводятся сведения об истории этой страницы. Изображение: Снимок экрана

В странице иногда невозможно разобраться без понимания происхождения каждого заархивированного адреса URL с неё. Например, были ли некоторые изображения на архивной странице записаны одновременно с другими элементами на странице? Эту информацию можно увидеть, нажав на ссылку «About this capture» (Про эту запись) в правом верхнем углу каждой архивной страницы.

Мы уделяем много внимания целостности наших архивов и прозрачности происхождения всех материалов, накопившихся с годами. Благодаря этому пользователи доверяют нам, а доказательства, сохраненные в Wayback Machine, принимаются как допустимые самыми разными судами по всему миру.

Если вы хотите, чтобы мы рассмотрели возможность добавления контекста к архивам, которые вы создали с функцией «Save Page Now», то свяжитесь с нами.

Расширения для браузера

Как вы наверняка догадались, у нас есть расширения для браузеров Safari, Firefox и Chrome, а также мобильные приложения для iOS и Android. Особенно хотим отметить, что благодаря партнёрству с поисковым сервером Brave мы встроили нативное определение ошибки 404 и других прямо в браузер, чтобы упростить использование Wayback Machine при посещении разных сайтов.

Но главное, знайте, что служба поддержки Internet Archive и Wayback Machine всегда доступна по электронной почте или личному сообщению в Twitter. Присылайте нам вопросы, сообщения об ошибках и истории успеха. Особенно мы хотим послушать, что вам не понравилось в нашей службе, какие функции, на ваш взгляд, нам нужно исправить или добавить. Так мы сможем лучше отвечать потребностям журналистов.

Но погодите! Это не всё…

Кроме архивирования большинства страниц из открытого Веба, Internet Archive сохраняет и показывает другие коллекции материалов, в том числе более 25 миллионов академических работ в открытом доступе на сайте Internet Archive Scholar; почти 30 миллионов электронных книг и текстов, которые можно просмотреть или загрузить; а миллионы часов архивных теленовостей (десятки каналов за почти 10 лет) доступны для полнотекстового поиска по индексированным субтитрам.

Чтобы быть в курсе проектов Internet Archive и Wayback Machine, подписывайтесь на нас в Twitter @internetarchive и @waybackmachine и читайте наши публикации в блоге.

Больше информации об интернет-архиве (на английском):

Марк Грэхем заведует Wayback Machine более пяти лет. До того он был старшим вице-президентом в NBC News Digital. Грэхем также помогал запустить первую службу электронной почты между США и СССР, создал проект первого веб-интерфейса онлайн-форума и помог запустить iVillage, одну из первых онлайн-служб для женщин.

Этот материал подготовлен и переведен «Глобальной сетью журналистов-расследователей» (GIJN) при финансовой поддержке Европейского Союза.

Поиск