![]() |
|
|||||||
|
|||||||
| Регистрация | Справка | Пользователи | Календарь | Сообщения за день | Поиск |
| Обсуждение Old-Web Идеи, предложения и публичная критика проекта — конструктив приветствуется. |
![]() |
|
|
Опции темы |
|
|
#11 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,436
Вес репутации: 100
|
Не перестаю сталкиваться с проблемами при индексации. Теперь получается, что я индексирую одни и те же страницы за разные промежутки времени и получаю бесконечное количество дублей этих страниц. Соответственно в результатах поиска все эти ссылки выходят.
Решать эту проблему буду так. Настрою проксирование веб-архива, чтобы поисковик думал что индексирует обычный веб, то есть все ссылки на сайты будут прямые. Настрою период для даты от 2002 до 2005 годы. Опять же потому, что лично меня именно эти даты интересны. Индексирование начинаю сначала.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#12 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,436
Вес репутации: 100
|
Через прокси почему то скорость отдачи страниц из http://web.archive.org (он же Wayback Machine) выросла... пока не тестировал лимит, не хочу чтобы мой ip забанили, но теперь мой бот может в разы быстрее индексировать архив.
Теперь осталось подождать пока не соберется более менее внушительная база. Мне придется потом написать скрипт, который будет добавлять к прямым ссылкам приставку http://web.archive.org/web/... чтобы открывать ссылки через веб-архив. Но это не сложно будет сделать. По итогу у нас будет поиск по настоящему старому вебу, который можно будет встроить в свои сайты. Для поисковой формы можно будет выбрать разный дизайн. P.S. Я действительно считаю, что мы никогда не сможем заменить веб-архив, даже если выложим все содержимое старых журналов, книг, дисков на свои сайты, там все равно есть тысячи форумов, которых больше нет, огромное количество информационных сайтов, содержимое которых писали авторы этих сайтов, новостные сайты, каталоги старых товаров, файловые помойки и многое другое. Скопировать все страницы веб-архива тоже невозможно, там не терабайты, а петабайты данных. просто будем бесконечно крутить процесс индексации и обнаружения новых ссылок из архива.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#13 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,436
Вес репутации: 100
|
Забудьте, это был глюк.
Так, надоело время терять. Wayback Machine специально тормозит, не дает полноценно пользоваться, индексировать и сам не делает поиск по страницам. Значит это делается нарочно и видимо я не смогу обойти это. Прокси падает (его блочат со стороны Wayback Machine). Ну и скатертью дорога. Сделаю поиск по своим сайтам и сайтам из каталога old-web. На этом все..
__________________
Мой блог http://erikoblog.ru. |
|
|
|