Техчасть
p2p поисковая система YaCy

0 Участников и 1 гость просматривают эту тему.

« #1 : 19 Ноябрь 2014, 09:36:23 »
YaCy (от англ. Yet another Cyberspace, Ещё одно Киберпространство; созвучно с англ. Ya see) — свободно распространяемая децентрализованная поисковая система, построенная по принципу одноранговых сетей (P2P), развивающаяся как свободное программное обеспечение с 2003 года (лицензия GNU GPL v2). Есть версии для Windows, Linux, MacOSX. В отличие от централизованных поисковиков (Google, Yandex и др.) не может быть подвержен цензуре, не имеет никакой коммерческой заинтересованности, игнорирует ухищрения SEO-шников, индексируя те сайты которые ему поставят в задачу.

Для работы требуется установить java-машину 7 версии. Для Linux-дистрибутивов нужно установить Openjdk-7 из репозитория, для Windows и MacOS X нужно устанавливать с www.oracle.com.

Дистрибутивы YaCy можно загрузить с http://www.yacy.net/en/index.html: YaCy 1.8 for Windows, YaCy 1.8 for GNU/Linux,YaCy 1.72 for Mac OS. Так же доступны обучающие видео-инструкции:

http://www.youtube.com/watch?v=CFwebavBU0s

http://www.youtube.com/watch?v=iqJuf_EA1UE

http://www.youtube.com/watch?v=XDoVNzOMoIo

Для запуска на linux требуется распаковать скачанный архив, затем для старта выполнить скрипт startYACY.sh, для остановки - stopYACY.sh, для обновления - updateYACY.sh. После запуска в браузере по адресуlocalhost:8090/index.html будет доступна поисковая страничка. Для того, чтобы включить русский язык необходимо перейти на страничку: localhost:8090/ConfigBasic.html и выбрать его  там :) Интерфейс простой и интуитивно понятный. Можно настроить режим работы поиска как  p2p (по-умолчанию), так и в режиме локального поисковика.

YaCy можно интегрировать на сайт для поиска вместо Google и Яндекса, которые не жаждут индексировать сайт целиком. Также в индекс можно добавить и дружественные сайты, да и глобальный поиск по p2p также можно разрешить опционально. Но при этом возрастут требования к серверу сайта. Загрузка процессора практически не увеличится, максимум на 2-3 процента, а вот потребление оперативной памяти возрастет на 200-500 МБ. Индекс также будет постоянно увеличиваться по мере индексирования, все новых страниц. Так я провожу индексацию rmvoz.ru и newlit.ru суммарно без перерывов более 12 часов, размер индекса составляет порядка 3,5 ГБ. Так что внедрение собственного поисковика на сайт обойдется необходимостью резервировать под него дополнительно не менее 10-20 ГБ свободно места.

Информация по интеграции поиска доступна здесь: http://yacy.net/en/API.html.
Цитирую по английски:
Цитировать
Integration into wikis, forums and blogs using the search widget

YaCy provides ready-to-use code snippets to be integrated into the html code of any web page. To load the content of special content management software like blogs, wikis and forums, YaCy has specialized harvesters. The YaCy search then works as a meta-search over your different data sources and can provide a faceted view which distinguishes your data sources in the search results.

Retrieval of the web page link structure

The link structure of web domains can be visualized and also exported as xml data and may be interesting for web page designers.

> curl


<webstructure maxhosts="20000">
  <references direction="out" count="1" maxref="300">
    <domain host="yacy.net" id="Fh1hyQ" date="20090618">
      <reference id="VRAHIA" count="5">suma-ev.de</reference>
      <reference id="EMaLDQ" count="3">www.kit.edu</reference>
      <reference id="sX4ozA" count="15">liebel.fzk.de</reference>
    </domain>
  </references>
  <references direction="in" count="1">
    <domain host="yacy.net" id="Fh1hyQ" date="20090618">
      <reference id="a_bYbR" count="32">de.wikipedia.org</reference>
      <reference id="DWDqhA" count="1">hwiki.fzk.de</reference>
      <reference id="4JR9RA" count="1">wiki.yacy.de</reference>
      <reference id="wqcWfA" count="1">www.itgrl.de</reference>
      <reference id="P290EA" count="128">www.heise.de</reference>
      <reference id="z4bRCA" count="1">blog.suma-ev.de</reference>
      <reference id="sX4ozA" count="5">liebel.fzk.de</reference>
      <reference id="FXg39Q" count="3">www.yacy.net</reference>
    </domain>
  </references>
</webstructure>

Свобода не просто право, а обязанность каждого
«Последнее редактирование: 03 Апрель 2015, 02:49:16, Ярослав»

« #2 : 19 Ноябрь 2014, 17:14:54 »
Спасибо, Антон. Возьмём на заметку.
Интересно, я какое количество людей пользуются этой поисковой системой, в отличие от глобальных поисковиков?

__________________________________________
Преображение хаоса в космос – это и есть культура.
"Дикой Америке" интернета нужны свои пионеры, свои безумные мечтатели.
Ярослав Таран

« #3 : 19 Ноябрь 2014, 17:53:40 »
Интересно, я какое количество людей пользуются этой поисковой системой, в отличие от глобальных поисковиков?

Пользуется крайне малое количество людей. Рунет практически не проиндексирован, непаханое поле. Но если данный поисковик будет внедрён на каждом сайте сети интернет, то YaCy действительно сможет составить конкуренцию глобальным поисковикам. Идея состоит в том, чтобы каждый сайт сам себя индексировал. А пока он подходит только для поиска внутри сайта, или же для индексации ресурсов, которые игнорируются глобальными поисковиками. В-общем технология готова, но чтобы она заработала необходимо, чтобы ей стали пользоваться. Чем больше будет пользователей, тем шире будет охват поиска и потенциально выше его качество.

Свобода не просто право, а обязанность каждого
«Последнее редактирование: 19 Ноябрь 2014, 17:56:44, Мидюков Антон»

« #4 : 19 Ноябрь 2014, 21:04:45 »
В-общем технология готова, но чтобы она заработала необходимо, чтобы ей стали пользоваться. Чем больше будет пользователей, тем шире будет охват поиска и потенциально выше его качество.
Увы, "мы ленивы и нелюбопытны"...

__________________________________________
Преображение хаоса в космос – это и есть культура.
"Дикой Америке" интернета нужны свои пионеры, свои безумные мечтатели.
Ярослав Таран

ОффлайнВладимир

  • Еще студент
« #5 : 27 Декабрь 2014, 11:10:12 »
Антон, подскажите(я не силен в английском):
 - система работает исключительно на java ? есть ли аналог на других языках?
 - как в системе с полнотекстовым поиском на русском языке? т.е. как она понимает падежи и склонения?
 - есть ли документ по синтаксису поисковой строки?
 - регулируется ли количество потоков и приоритет доменов при сканировании или это на усмотрение системы идет?
 - индекс в какой базе держит?

Заранее благодарен за ответы.

Владимир WS

« #6 : 28 Декабрь 2014, 07:57:04 »
Здравствуйте, Владимир. В английском тоже не силён, специально никогда не учил, но на вопросы постараюсь ответить.

- система работает исключительно на java ? есть ли аналог на других языках?

Система написана на java, аналогов на других языках не знаю.

- как в системе с полнотекстовым поиском на русском языке? т.е. как она понимает падежи и склонения?

Не так много экспериментировал, но похоже ищет точно то, что написано, и именно в том падеже и том склонении, в котором напишешь запрос. Не думаю, что это так уж плохо, хотя конечно есть куда развиваться.

- есть ли документ по синтаксису поисковой строки?

Дополнительные параметры для поиска. Это?

- регулируется ли количество потоков и приоритет доменов при сканировании или это на усмотрение системы идет?

Настраивается через веб-интерфейс. Настроек много, интерфейс русифицирован на 100 % и весьма качественно. Лучше попробуйте у себя на домашнем компьютере.

- индекс в какой базе держит?

Индекс хранится в виде двоичных файлов *.blob и *.idx в DATA/INDEX/freeworld/SEGMENTS/*/


Свобода не просто право, а обязанность каждого

« #7 : 28 Декабрь 2014, 08:08:04 »
Инфа по интеграции поиска с php5+Apache: http://www.yacy-websuche.de/wiki/index.php/Dev:YaCyAPIforPHP

Общее описание API: http://www.yacy-websuche.de/wiki/index.php/Dev:API

В полном виде вся документация доступна только на немецком: http://www.yacy-websuche.de/wiki/index.php/De:Start

Свобода не просто право, а обязанность каждого


Рейтинг@Mail.ru Союз образовательных сайтов Яндекс.Метрика