Что такое веб-архив

Это настоящая библиотека, в которой каждый желающий может открыть интересующий его веб-ресурс, и посмотреть на его содержимое, на ту дату, в которую вебархив посетил сайт и сохранил копию.

Знакомство с archive org или как Валерий нашел старые тексты из веб-архива
В 2010-м году, Валерий создал сайт, в котором он писал статьи про интернет-маркетинг. Одну из них он написал о рекламе в Гугл (AdWords) в виде краткого конспекта. Спустя несколько лет ему понадобилась эта информация. Но страница с текстами, некоторое время назад, была им ошибочно удалена. С кем не бывает.

Однако, Валерий знал, как выйти из ситуации. Он уверенно открыл сервис веб-архива, и в поисковой строке ввел нужный ему адрес. Через несколько мгновений, он уже читал нужный ему материал и еще чуть позже восстановил тексты на своем сайте.

Какую пользу веб-архив сайтов может дать лично вам?

Вы можете отправиться в путешествие по страничкам сайта вашей юности, поностальгировать. Проследить, как изменялся и развивался не только ваш, но и любой другой сайт в интернете. К примеру, материалы для своих статей о поисковой системе Апорт, которая уже приказала долго жить, я брал как раз в этом веб-архиве сайтов, в его потаенных закромах. И все скриншоты, наглядно показывающие хронологию главной страницы всеми любимого Яндекса, взяты оттуда же.

Следующий сюрприз. Допустим, вы добавили в закладку сайт, а в нем страница не открывается. Тогда вы обращаетесь к Гуглу или Яндексу, пытаясь извлечь страницу из кеша (изучите информацию о том, как эффективнее искать что-либо в Google – пригодится!). Но если к вашему ресурсу уже давно нет доступа, мертвые ссылки оживить поможет только archive.org. Хотя и там этот ресурс может отсутствовать. Почему? Об этом напишу чуть далее по тексту.

Если звезды сошлись так, что вы не сделали резервную копию своего сайта (бэкап), то вы сможете восстановить его из web archive. И это будет единственный способ решить проблему. При этом можно убрать из ссылок все привязки к web.archive.org, они могут стать прямыми для вашего сайта. Более подробно о ссылках и привязках читайте ниже.

И еще одно полезное свойство веб-архива сайтов. Он дает доступ к поиску готовых уникальных текстов. Если написание статей – не ваше призвание, то здесь вы найдете их целые залежи, настоящие Клондайк и Эльдорадо, вместе взятые! Но чтобы ими разжиться, кое-какие телодвижения совершить все же придется.

Мертвые сайты с их внутренним наполнением недоступны в действующей сети интернета. Но вы можете зайти в веб-архив, отыскать нужные вам тексты и вытащить их с того света. А затем прогнать через проверку на уникальность и опубликовать на своих страницах. Никто не обвинит вас в воровстве (плагиате) и нарушении авторских прав в копирайтинге. Однако этот увлекательный поиск некоторым может показаться долгим и тернистым.

Webarchive появился в интернете, страшно сказать – в далеком 1996 году! Еще в прошлом веке. На то время задача, стоящая перед разработчиками проекта, казалась архисложной, как говорил вождь мирового пролетариата. Несмотря на то, что интернет тогда еще не вошел в полную силу, сайтов было в сотни и тысячи раз меньше. И архивировались они гораздо реже. Как говорится, миссия невыполнима. Но мало-помалу, постепенно увеличивая вместимость своих «сусеков» и «кладовых», сервис успешно копировал и резервировал сайты.

Уже в следующем, 1997 году Webarchive поместил в базу сам себя. Посмотрите, как выглядела его главная страница более двадцати лет назад:

  • Сейчас вся информация веб-архива занимает дисковое пространство объемом в 10 15 Тбайт. Это гигантское число носит название квадриллион. Чтобы вам было легче его представить – примерно столько муравьев живет во всех муравейниках нашей планеты. Сервис Web.archive.org имеет официальный статус библиотеки. У него зеркала во многих центрах хранения и обработки данных.
  • Если считать только архивы разных интернет-страниц, то их количество уже приближается к ста миллиардам. В это число входят все копии, которые были хоть однажды сняты и сохранены.
  • Wayback Machine (обратная машина). Это архив страниц интернета. Он находится на главной странице сайта и доступен каждому. Здесь же хранятся телевизионные архивы, аудиоматериалы, отсканированные книги:
Читайте также:  Startuprepairoffline 6 1 7600 16385 что делать

Проекты, предоставляющие историю сайта

Peeep.us в действии

Peeep.us в действии

Сегодня существует несколько проектов, которые предоставляют сервисные услуги по отысканию сохраненных копий. Вот некоторые из них:

  1. Самым популярным и востребованным у пользователей является web.archive.org. Представленный сайт считается наиболее старым на просторах интернета, создание датируется 1996 годом. Сервис проводит автоматический и ручной сбор данных, а вся информация размещается на огромных заграничных серверах.
  2. Вторым по популярности сайтом считается peeep.us. Ресурс весьма интересен, ведь его можно использовать для сохранения копии информационного потока, который доступен только вам. Заметим, что проект работает со всеми доменными именами и расширяет границы использования веб-архивов. Что касается полноты информации, то представленный сайт не сохраняет картинки и фреймы. С 2015 года также внесен в список запрещенных на территории России.
  3. Аналогичным проектом, который описывали выше, является archive.is. К отличиям можно отнести полноту сбора информации, а также возможности сохранения страниц из социальных сетей. Поэтому если вы утеряли пост или интересную информацию, можно выполнить поиск через веб-архив.

Качаем сайт с web-arhive.ru

Это самый геморройный вариант ибо у данного сервиса нет возможности скачать сайт как у описанного выше. Соответственно пользоваться этим вариантом есть смысл пользоваться только в случае если нужно скачать сайт, которого нет на web.archive.org. Но я сомневаюсь что такое возможно. Этим вариантом я пользовался по причине того, что не знал других вариантов,а поискать поленился.

В итоге я написал скрипт, который позволяет скачать архив сайта с web-arhive.ru. Но велика вероятность того, что это будет сопровождаться ошибками, поскольку скрипт сыроват и был заточен под скачивание определенного сайта. Но на всякий случай я выложу этот скрипт.

  • Вот ссылка: https://yadi.sk/d/zoMRxwPoSXh0Jw

Пользоваться им довольно просто. Для запуска скачивания необходимо запустить этот скрипт все в той же командной строке, где в качестве параметра вставить ссылку на копию сайта. Должно получиться что-то типа такого:

  • php get_archive.php «http://web-arhive.ru/view2?time=20160320163021&url=http%3A%2F%2Fremontistroitelstvo.ru%2F»

Заходим на сайт web-arhive.ru, в строке указываем домен и жмем кнопку «Найти». Ниже должны появится года и месяцы в которых есть копии.

Список архивов на web-archive

Обратите внимание на то, что слева и справа от годов и месяцев есть стрелки, кликая которые можно листать колонки с годами и месяцами.

Просмотр всего архива за все время

Остается найти дату с нужной копией, скопировать ссылку из адресной строки и отдать её скрипту. Не забывает помещать ссылку в кавычки во избежание ошибок из-за наличия спецсимволов.

Мало того, что само скачивание сопровождается ошибками, более того, в выбранной копии сайта может не быть каких-то страниц и придется шерстить все копии на предмет наличия той или иной страницы.

О проекте

Машина времени сайтов (англ. Wayback Machine) – один из главных проектов archive.org. Данный сервис не является коммерческим и был создан в 1996 году американским программистом Брюстером Кейлом. Архив сайтов имеет четкую цель – искать и собирать копии ресурсов вместе с изображениями, ссылками и контентом для дальнейшей возможности свободного просматривания информации любыми пользователями.

База web archive собиралась на протяжении 20 лет, в ней находится 280 миллиардов страницы, 12 миллионов статей и книг, миллион картинок, а также 100 тысяч программ.

Как удалить копии страниц своего проекта?

Не всем и не всегда хочется выкладывать историю своей веб-площадки на всеобщее обозрение. Например, на сайте могла быть выложена ошибочная, некорректная или противозаконная информация. Даже если удалить страницу или файл, они сохранятся в библиотеке.

Архивом страниц могут заинтересоваться конкуренты и недоброжелатели. Поэтому многим хочется удалить копии веб-документов из сервиса.

Раньше вебмастера вписывали в robots.txt запрещающую директиву для ботов. Но сейчас это уже не работает.

Убрать страницы из библиотеки можно только через саппорт. Для этого нужно написать письмо на info@archive.org. Писать нужно по-английски, с указанием реальных имени, фамилии, физического адреса. Чтобы подтвердить, что вы владелец ресурса, отправлять письмо лучшего с почтового ящика, указанного на сайте. Еще один способ подтвердить свои права — написать через регистратора домена или через хостинг. Иногда саппорт просит прислать копию паспорта.

Читайте также:  Добавляем знаки и специальные символы в Microsoft Word

Через поддержку можно навсегда запретить делать копии своего проекта.

Архивируем сайты

Все коман­ды ArchiveBox име­ют общий вид

где command — непос­редс­твен­но коман­да, а parameter — опци­ональ­ный ключ. Для добав­ления сай­та в архив слу­жит коман­да add . Так, что­бы соб­рать под­шивку нашего любимо­го жур­нала, нуж­но наб­рать в тер­минале

ArchiveBox авто­мати­чес­ки соз­даст в сво­ей рабочей пап­ке суб­дирек­торию archive , в которую будет скла­дывать ска­чан­ные сай­ты — каж­дый в сво­ей вло­жен­ной пап­ке. В этой же пап­ке будет соз­дан файл index. html , куда добав­ляет­ся общая информа­ция о заар­хивиро­ван­ном сай­те, чис­ле соб­ранных фай­лов и их типе. На локаль­ной машине его мож­но открыть в бра­узе­ре; если же мы исполь­зуем VPS, этот файл нам не слиш­ком поможет, зато мы смо­жем прос­мотреть содер­жимое пап­ки с архи­вом в тер­минале.

Содержимое рабочей папки ArchiveBoxСо­дер­жимое рабочей пап­ки ArchiveBox

По умол­чанию ArchiveBox сох­раня­ет в архив толь­ко веб‑стра­ницу, ука­зан­ную в задан­ном URL. Но мож­но зас­тавить его выпол­нить рекур­сивный обход всех ссы­лок на этой стра­нице с ука­зан­ной глу­биной прос­мотра и добавить туда все, что по этим самым ссыл­кам будет най­дено. Для это­го слу­жит параметр –depth=N , где N — глу­бина прос­мотра ссы­лок. Нап­ример, для того что­бы ArchiveBox заар­хивиро­вал глав­ную стра­ницу сай­та и все стра­ницы, ссыл­ки на которые при­сутс­тву­ют на глав­ной, мож­но исполь­зовать коман­ду

Пос­коль­ку мы архи­виру­ем сай­ты на сер­вер VPS, добычу нуж­но пред­варитель­но ска­чать на локаль­ную машину с исполь­зовани­ем scp или любым дру­гим удоб­ным спо­собом. Мож­но, нап­ример, уста­новить на сер­вере vsftpd и получить дос­туп к содер­жимому архи­вов по FTP непос­редс­твен­но из бра­узе­ра либо с помощью любого FTP-кли­ента. А еще мож­но под­нять там Apache и перемес­тить содер­жимое архи­вов в домаш­нюю пап­ку веб‑сер­вера, что­бы прос­матри­вать их по HTTP.

Содержимое архива, доступное по FTPСо­дер­жимое архи­ва, дос­тупное по FTP

В резуль­тате выпол­нения коман­ды archivebox add сайт сох­раня­ется вмес­те со всем содер­жимым, вклю­чая скрип­ты, изоб­ражения, CSS-фай­лы.

Архивный сайт, доступный локально после загрузки с сервераАр­хивный сайт, дос­тупный локаль­но пос­ле заг­рузки с сер­вера

ArchiveBox исполь­зует кон­соль­ную ути­литу youtube-dl для сох­ранения видео, бла­года­ря чему он может тянуть ролики с это­го популяр­ного виде­охос­тинга. Для их ска­чива­ния исполь­зует­ся та же коман­да, с помощью которой сох­раня­ются все осталь­ные сай­ты:

Как добавить современную версию сайта в веб-архив Wayback Machineи выполнить другие действия

Онлайн-платформа по веб-архивированию сайтов предоставляет множество возможностей разработчикам и владельцам ресурсов (Табл. 2).

Табл. 2. Как работать с веб-архивом

Возможности Особенности выполнения
Сохранение нужной версии сайта на платформе интернет-архива Нужно самостоятельно инициировать сохранение. В разделе платформы «Save Page Now» нужно забить домен онлайн-ресурса и нажать «Save page». Такую процедуру рекомендуется повторять каждый раз, когда в контент были внесены исправления или дополнения
Запрет на добавление интернет-ресурса в память веб-архива Для запрета добавления нужно прописать это в файле robots.txt. В панелях хостеров есть корневой каталог, в котором предусмотрена возможность редактирования файлов. При введении кода User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: / файл будет скрыт от копирования. При введении такого кода из веб-архива удаляется и текущая версия сайта и не осуществляется системное копирование (до тех пор, пока в файле robots.txt есть такие настройки или пока не закончится срок регистрации домена)
Восстановление веб-сайта из интернет-архива Если сайт был поврежден вирусами или есть другие технические проблемы, из-за которых контент был нарушен, можно восстановить файлы из онлайн-хранилища. Для этого применяются специальные сервисы. Есть платные и бесплатные варианты, которые выбираются с учетом количества страниц для восстановления

новые URL в WaybackMachine

Этот сервис веб архива ещё известен как Wayback Machine. Имеет разные дополнительные функции, чаще всего используется инструментами по восстановлению сайтов и информации.

Для сохранения страницы в архив перейдите по адресу https://archive.org/web/ введите адрес интересующей вас страницы и нажмите кнопку «SAVE PAGE».

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №1

Для просмотра доступных сохранённых версий веб-страницы, перейдите по адресу https://archive.org/web/, введите адрес интересующей вас страницы или домен веб-сайта и нажмите «BROWSE HISTORY»:

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №2

В самом верху написано, сколько всего снимком страницы сделано, дата первого и последнего снимка.

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №3

Затем идёт шкала времени на которой можно выбрать интересующий год, при выборе года, будет обновляться календарь.

Читайте также: 

Обратите внимание, что календарь показывает не количество изменений на сайте, а количество раз, когда был сделан архив страницы.

Точки на календаре означают разные события, разные цвета несут разный смысл о веб захвате. Голубой означает, что при архивации страницы от веб-сервера был получен код ответа 2nn (всё хорошо); зелёный означает, что архиватор получил статус 3nn (перенаправление); оранжевый означает, что получен статус 4nn (ошибка на стороне клиента, например, страница не найдена), а красный означает, что при архивации получена ошибка 5nn (проблемы на сервере). Вероятно, чаще всего вас должны интересовать голубые и зелёные точки и ссылки.

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №4

При клике на выбранное время, будет открыта ссылка, например, http://web.archive.org/web/20160803222240/https://hackware.ru/ и вам будет показано, как выглядела страница в то время:

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №5

Используя эту миниатюру вы сможете переходить к следующему снимку страницы, либо перепрыгнуть к нужной дате:

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №6

Лучший способ увидеть все файлы, которые были архивированы для определённого сайта, это открыть ссылку вида http://web.archive.org/*/www.yoursite.com/*, например, http://web.archive.org/*/hackware.ru/

Кроме календаря доступна следующие страницы:

  • Collections — коллекции. Доступны как дополнительные функции для зарегистрированных пользователей и по подписке
  • Changes
  • Summary
  • Site Map

Changes

“Changes” — это инструмент, который вы можете использовать для идентификации и отображения изменений в содержимом заархивированных URL.

Начать вы можете с того, что выберите два различных дня какого-то URL. Для этого кликните на соответствующие точки:

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №7

И нажмите кнопку Compare. В результате будут показаны два варианта страницы. Жёлтый цвет показывает удалённый контент, а голубой цвет показывает добавленный контент.

Summary

В этой вкладке статистика о количестве изменений MIME-типов.

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №8

Site Map

Как следует из название, здесь показывается диаграмма карты сайта, используя которую вы можете перейти к архиву интересующей вас страницы.

Поиск по Интернет архиву

Если вместо адреса страницы вы введёте что-то другое, то будет выполнен поиск по архивированным сайтам:

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты. Часть 1, изображение №9

Показ страницы на определённую дату

Кроме использования календаря для перехода к нужной дате, вы можете просмотреть страницу на нужную дату используя ссылку следующего вида: http://web.archive.org/web/ГГГГММДДЧЧММСС/АДРЕС_СТРАНИЦЫ/

Обратите внимание, что в строке ГГГГММДДЧЧММСС можно пропустить любое количество конечных цифр.

Если на нужную дату не найдена архивная копия, то будет показана версия на ближайшую имеющуюся дату.

Инструмент «Изменения»

Этот инструмент даёт возможность сравнить две версии сайта друг с другом. Достаточно кликнуть на раздел Changes и веб-архив сможет загрузить все снимки, разделённые по годам.

Вы должны выбрать два снимка сайта из списка (например, сопоставить версии сайта за 5 лет) и нажать кнопку сравнения, чтобы начать процесс.

инструмент изменения

Две страницы отобразятся рядом в новой вкладке. Цвета акцентируют, насколько два снимка будут отличаться друг от друга.

инструмент изменения

Как посмотреть архивные копии страницы в Web Archive

Откройте сайт Web Archive или приложение сервиса. Если используете последнее, сразу после запуска создайте аккаунт.

Вставьте ссылку на нужную страницу и нажмите Enter (на сайте) или Overview of All Archives (в приложении).

Как пользоваться Web Archive: вставьте ссылку на нужную страницу

Пролистайте календарь, чтобы найти подходящие копии. Дни, в которые бот создавал дубликаты страницы, отмечены кружками.

Web Archive: пролистайте календарь

Нажмите на подходящую дату, чтобы просмотреть архивную копию.

Web Archive: нажмите на подходящую дату

Сайт также позволяет сравнивать две копии. Для этого на странице с календарём нажмите Changes, отметьте две даты и кликните Compare.

Web Archive: сравните две копии

В результате Web Archive отобразит копии рядом и выделит несовпадения.

Web Archive отобразит копии рядом

Как сохранить текущую версию сайта в веб-архиве

Копии сайтов попадают в веб-архив благодаря веб-краулерам, которые их сканируют. Однако это не единственный способ. Просканировать сайт можно самостоятельно.

Чтобы создать копию одного URL-адреса, найдите опцию «Save page now» на главной странице Wayback Machine, введите ссылку и нажмите «Save page»:

Как сохранить текущую версию сайта в Веб Архиве

Как сохранить текущую версию веб-ресурса в Wayback Machine

Таким образом, в веб-архив сайтов добавится текущая версия заданного URL-адреса.

Повторяйте это действие перед важными изменениями на сайте и после них. В случае поломки или утери данных вы всегда сможете восстановить сайт через веб-архив.

Создавать копию всего сайта постранично трудоемко. Интернет-архив предоставляет платный сервис, который архивирует сайт в несколько кликов — Archive It.

Ссылка на основную публикацию
Adblock
detector