Old-Web.com
 
Вернуться   Форум о старом интернете > Другое, прочее, остальное... > Обсуждение Old-Web
Регистрация Справка Пользователи Календарь Сообщения за день

Закрытая тема
 
Опции темы Опции просмотра
Старый 27.01.2025   #11
danil
Администратор
 
Аватар для danil
 
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 707
По умолчанию

Не перестаю сталкиваться с проблемами при индексации. Теперь получается, что я индексирую одни и те же страницы за разные промежутки времени и получаю бесконечное количество дублей этих страниц. Соответственно в результатах поиска все эти ссылки выходят.

Решать эту проблему буду так. Настрою проксирование веб-архива, чтобы поисковик думал что индексирует обычный веб, то есть все ссылки на сайты будут прямые. Настрою период для даты от 2002 до 2005 годы. Опять же потому, что лично меня именно эти даты интересны.

Индексирование начинаю сначала.
__________________
Я вернул двухтысячные!
danil на форуме  
Старый 27.01.2025   #12
danil
Администратор
 
Аватар для danil
 
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 707
По умолчанию

Через прокси почему то скорость отдачи страниц из http://web.archive.org (он же Wayback Machine) выросла... пока не тестировал лимит, не хочу чтобы мой ip забанили, но теперь мой бот может в разы быстрее индексировать архив.

Теперь осталось подождать пока не соберется более менее внушительная база.

Мне придется потом написать скрипт, который будет добавлять к прямым ссылкам приставку http://web.archive.org/web/... чтобы открывать ссылки через веб-архив. Но это не сложно будет сделать.

По итогу у нас будет поиск по настоящему старому вебу, который можно будет встроить в свои сайты. Для поисковой формы можно будет выбрать разный дизайн.

P.S. Я действительно считаю, что мы никогда не сможем заменить веб-архив, даже если выложим все содержимое старых журналов, книг, дисков на свои сайты, там все равно есть тысячи форумов, которых больше нет, огромное количество информационных сайтов, содержимое которых писали авторы этих сайтов, новостные сайты, каталоги старых товаров, файловые помойки и многое другое.

Скопировать все страницы веб-архива тоже невозможно, там не терабайты, а петабайты данных. просто будем бесконечно крутить процесс индексации и обнаружения новых ссылок из архива.
__________________
Я вернул двухтысячные!
danil на форуме  
Старый 27.01.2025   #13
danil
Администратор
 
Аватар для danil
 
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 707
По умолчанию

Забудьте, это был глюк.

Так, надоело время терять. Wayback Machine специально тормозит, не дает полноценно пользоваться, индексировать и сам не делает поиск по страницам. Значит это делается нарочно и видимо я не смогу обойти это.

Прокси падает (его блочат со стороны Wayback Machine). Ну и скатертью дорога.

Сделаю поиск по своим сайтам и сайтам из каталога old-web. На этом все..
__________________
Я вернул двухтысячные!
danil на форуме  
Закрытая тема


Здесь присутствуют: 2 (пользователей: 0 , гостей: 2)
 

Ваши права в разделе
Вы не можете создавать темы
Вы можете отвечать на сообщения
Вы не можете прикреплять файлы
Вы не можете редактировать сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Обсуждение Wayback Machine (Archive.org) danil Сайты 2 20.01.2025 05:19
old-soft как попытка сделать свой сайт HellCat Зацени сайты форумчан 3 14.07.2024 16:01


Часовой пояс GMT, время: 19:34.


Powered by vBulletin® Version 3.6.12
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd. Перевод: zCarot