![]() |
||
![]() |
![]() |
|
![]() |
|
Регистрация | Справка | Пользователи | Календарь | Сообщения за день | Поиск |
![]() |
|
Опции темы | Опции просмотра |
![]() |
#11 |
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 707
|
![]() Не перестаю сталкиваться с проблемами при индексации. Теперь получается, что я индексирую одни и те же страницы за разные промежутки времени и получаю бесконечное количество дублей этих страниц. Соответственно в результатах поиска все эти ссылки выходят.
Решать эту проблему буду так. Настрою проксирование веб-архива, чтобы поисковик думал что индексирует обычный веб, то есть все ссылки на сайты будут прямые. Настрою период для даты от 2002 до 2005 годы. Опять же потому, что лично меня именно эти даты интересны. Индексирование начинаю сначала. |
![]() |
![]() |
#12 |
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 707
|
![]() Через прокси почему то скорость отдачи страниц из http://web.archive.org (он же Wayback Machine) выросла... пока не тестировал лимит, не хочу чтобы мой ip забанили, но теперь мой бот может в разы быстрее индексировать архив.
Теперь осталось подождать пока не соберется более менее внушительная база. Мне придется потом написать скрипт, который будет добавлять к прямым ссылкам приставку http://web.archive.org/web/... чтобы открывать ссылки через веб-архив. Но это не сложно будет сделать. По итогу у нас будет поиск по настоящему старому вебу, который можно будет встроить в свои сайты. Для поисковой формы можно будет выбрать разный дизайн. P.S. Я действительно считаю, что мы никогда не сможем заменить веб-архив, даже если выложим все содержимое старых журналов, книг, дисков на свои сайты, там все равно есть тысячи форумов, которых больше нет, огромное количество информационных сайтов, содержимое которых писали авторы этих сайтов, новостные сайты, каталоги старых товаров, файловые помойки и многое другое. Скопировать все страницы веб-архива тоже невозможно, там не терабайты, а петабайты данных. просто будем бесконечно крутить процесс индексации и обнаружения новых ссылок из архива. |
![]() |
![]() |
#13 |
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 707
|
![]() Забудьте, это был глюк.
Так, надоело время терять. Wayback Machine специально тормозит, не дает полноценно пользоваться, индексировать и сам не делает поиск по страницам. Значит это делается нарочно и видимо я не смогу обойти это. Прокси падает (его блочат со стороны Wayback Machine). Ну и скатертью дорога. Сделаю поиск по своим сайтам и сайтам из каталога old-web. На этом все.. |
![]() |
![]() |
Здесь присутствуют: 2 (пользователей: 0 , гостей: 2) | |
|
|
![]() |
||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Обсуждение Wayback Machine (Archive.org) | danil | Сайты | 2 | 20.01.2025 05:19 |
old-soft как попытка сделать свой сайт | HellCat | Зацени сайты форумчан | 3 | 14.07.2024 16:01 |
© Old-Web.com - навигатор старого Интернета Пишите мне на email: danil@freenet.am |
|