Главная Мультфильмы Видео Чат Telegram Wareznik Scripter Flash игры
Old Web Старый веб
. Добро пожаловать на old-web.com!
Новое Новости Журнал Форум Продукты Дизайн Гостевая  
Вернуться   Форум о старом интернете > Другое, прочее, остальное... > Обсуждение Old-Web
Регистрация Справка Пользователи Календарь Сообщения за день

Обсуждение Old-Web Идеи, предложения и публичная критика проекта — конструктив приветствуется.

Закрытая тема
 
Опции темы
Старый 27.01.2025, 19:55   #11
Администратор
 
Аватар для eriko
 
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,436
Вес репутации: 100
По умолчанию

Не перестаю сталкиваться с проблемами при индексации. Теперь получается, что я индексирую одни и те же страницы за разные промежутки времени и получаю бесконечное количество дублей этих страниц. Соответственно в результатах поиска все эти ссылки выходят.

Решать эту проблему буду так. Настрою проксирование веб-архива, чтобы поисковик думал что индексирует обычный веб, то есть все ссылки на сайты будут прямые. Настрою период для даты от 2002 до 2005 годы. Опять же потому, что лично меня именно эти даты интересны.

Индексирование начинаю сначала.
__________________
Мой блог http://erikoblog.ru.
eriko вне форума  
Старый 28.01.2025, 01:09   #12
Администратор
 
Аватар для eriko
 
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,436
Вес репутации: 100
По умолчанию

Через прокси почему то скорость отдачи страниц из http://web.archive.org (он же Wayback Machine) выросла... пока не тестировал лимит, не хочу чтобы мой ip забанили, но теперь мой бот может в разы быстрее индексировать архив.

Теперь осталось подождать пока не соберется более менее внушительная база.

Мне придется потом написать скрипт, который будет добавлять к прямым ссылкам приставку http://web.archive.org/web/... чтобы открывать ссылки через веб-архив. Но это не сложно будет сделать.

По итогу у нас будет поиск по настоящему старому вебу, который можно будет встроить в свои сайты. Для поисковой формы можно будет выбрать разный дизайн.

P.S. Я действительно считаю, что мы никогда не сможем заменить веб-архив, даже если выложим все содержимое старых журналов, книг, дисков на свои сайты, там все равно есть тысячи форумов, которых больше нет, огромное количество информационных сайтов, содержимое которых писали авторы этих сайтов, новостные сайты, каталоги старых товаров, файловые помойки и многое другое.

Скопировать все страницы веб-архива тоже невозможно, там не терабайты, а петабайты данных. просто будем бесконечно крутить процесс индексации и обнаружения новых ссылок из архива.
__________________
Мой блог http://erikoblog.ru.
eriko вне форума  
Старый 28.01.2025, 01:52   #13
Администратор
 
Аватар для eriko
 
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,436
Вес репутации: 100
По умолчанию

Забудьте, это был глюк.

Так, надоело время терять. Wayback Machine специально тормозит, не дает полноценно пользоваться, индексировать и сам не делает поиск по страницам. Значит это делается нарочно и видимо я не смогу обойти это.

Прокси падает (его блочат со стороны Wayback Machine). Ну и скатертью дорога.

Сделаю поиск по своим сайтам и сайтам из каталога old-web. На этом все..
__________________
Мой блог http://erikoblog.ru.
eriko вне форума  
Закрытая тема



Ваши права в разделе
Вы не можете создавать темы
Вы не можете отвечать на сообщения
Вы не можете прикреплять файлы
Вы не можете редактировать сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Быстрый переход


Часовой пояс GMT +3, время: 10:46.


Powered by vBulletin® Version 3.6.12
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd. Перевод: zCarot