![]() |
|
|||||||
|
|||||||
| Регистрация | Справка | Пользователи | Календарь | Сообщения за день | Поиск |
| Обсуждение Old-Web Идеи, предложения и публичная критика проекта — конструктив приветствуется. |
![]() |
|
|
Опции темы |
|
|
#1 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
Я пользовался API от поиска Google все это время для поиска на old-web. На самом деле ни Google ни Яндекс не ищет на сайтах которые мне нужны. Этим поисковым системам выгодно показывать сайты с уже большим трафиком, а маленькие сайты, на которых есть нужный мне контент вообще исключены из поиска. Таким образом, ни Google ни Яндекс не подходит для внедрения на old-web.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#2 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
Изначально я хотел индексировать только сайты из каталога, но передумал. Только одно ограничение оставлю, сайт должен быть доступен без https, тут-то все современные соц. сети и прочие платформы сами отвалятся.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#3 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
На данный момент индексация сайтов проходит успешно. Процесс будет идти постоянно, пополняя поиск новыми страницами.
Чувствую себя первопроходцем из 2000х )) Отдельный поисковой сервер для http сайтов, который индексирует весь видимый веб. Как и ожидалось, веб больше, чем нам показывает Google и Яндекс. Может позже отдельный сайт поисковик открою, для всех языков, чтобы все могли искать через него http web.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#5 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
Арендовал облачный Ubuntu сервер, установил опенсорсный поисковой движок Yacy, версию для Linux. Когда проиндекирую достаточно большую часть веба на http, внедрю поисковую строку на своих сайтах, сделаю отдельный сайт чисто с поисковой строкой, сделаю конструктор виджета, чтобы поисковую форму можно было установить на любом сайте.
В принципе, он будет не хуже, чем первые поисковики. Все равно альтернативных поисковиков не так много. Если смогу индексировать за год сотни миллионов http страниц, то это будет полноценный поисковик в своей нише, который чисто в http ищет. Сообщество продолжает дорабатывать этот движок, так, что с безопасностью не должно быть проблем. Есть поиск по картинкам, автозаполнение и прочие привычные для современных поисковиков штуки.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#6 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
Уже проиндексировано более 200 000 страниц. Что капля в море, продолжаю индексацию. На днях поставлю форму поиска новую на сайте, перейдем на свою поисковую базу.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#7 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
В индексе уже 1,003,835 страниц. Внедрение нового поисковика на old-web уже скоро.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#8 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
Знаете что, взглянул я на сайты в индексе и понял, сайтов старых осталось так мало, смысла предлагать вам искать по этим сайтам нет.
Если мне придется содержать поисковой сервер, то мне нужен хотя бы уникальный поисковик. Web архив очень плохо проиндексирован поисковиками, а те поисковики что ищут через API web архива находят только домены архивных сайтов, а не внутренние страницы с нужным контентом. Я начинаю сначала и буду теперь индексировать Web архив. http://web.archive.org БОНУСОМ проиндексирую сайты из каталога Old-Web.
__________________
Мой блог http://erikoblog.ru. |
|
|
|
|
#9 | |
|
Супер-модератор
Регистрация: 03.12.2024
Сообщений: 75
Вес репутации: 0
Репутация: пока не определён (0)
|
Цитата:
|
|
|
|
|
|
#10 |
|
Администратор
Регистрация: 29.06.2024
Адрес: Живу в своем мирке, который строю для себя.
Сообщений: 1,442
Вес репутации: 100
|
Начал индексировать веб архив, установил фильтр, чтобы индексировал начинаю с 1996 по 2006 включительно. Скорость веб архива очень мала, удается индексировать до 20 страниц в минуту. Процесс ожидается очень долгий.
В архиве есть миллионы старых сайтов и на них сохранилось бессчётное количество информации и файлов. И все это доступно в http, даже на старых браузерах. Разница между сохранившимися сайтами в архиве и теми сайтами что до сих пор онлайн + наши с вами сайты, это небо и земля. Дожидаться более 1 000 000 индексированных страниц нет смысла, это займет несколько месяцев. Уже через несколько дней я вставлю новое поле поиска по веб-архиву. БОНУСОМ проиндексирую сайты из каталога Old-Web.
__________________
Мой блог http://erikoblog.ru. |
|
|
|