Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Новое начало или тотальный копипаст ч.2 (https://javascript.ru/forum/offtopic/8279-novoe-nachalo-ili-totalnyjj-kopipast-ch-2-a.html)

Gozar 18.03.2010 09:54

Новое начало или тотальный копипаст ч.2
 
На сохранение 1 000 000 страниц. с различных сайтов требуется около 20 Gb жесткого пространства. Подсчет не точный.

Вот подумалось, а как лучше пройтись по всему рунету?

Задумался я тут надысь над созданием своего поисковика. Так как для меня такая задача не совсем тривиальная, то решил посоветоваться.
Как его можно организовать?

Первое что пришло в голову это подсчитать требуемое место для контента страниц.

Второе база, есть ли смысл использовать mysql или искать что-то другое?

В каком порядке обходить сайты?

первое что пришло в голову последовательный перебор.

Как сложить все в базу я понимаю, а вот как организовать потом быстрый поиск не до конца. Если брать mysql то в одну таблицу все не влезет, да и поиск по ней будет утопией.

Если есть у кого какие мысли, поделитесь?

Gvozd 18.03.2010 11:09

Цитата:

Сообщение от Gozar
Второе база, есть ли смысл использовать mysql или искать что-то другое?

разумеется нет.
SQL-базы хороши до тех пор, пока вам не надо их расширять более чем на один сервер, из-за высокой нагрузки.
с добавлением новых серверов, служебный траффик между ними значительно растет, и достаточно быстро превысит какие-либо разумные рамки.
google к примеру использует свою собственную не-SQL базу.
благодаря этому они могут держать сотни тысяч серверов в одном дата-центре.
в качестве альтернативы SQL обычно приводятся key-value базы.
они практически безболезнено могут быть расширены до кластера из любого количества серверов.
PS а вообще, идею нахожу бредовой. Это слишком науко- и финансово- емкий проект, чтобы на голом энтузиазме что-нибудь стоящее сделать.я уж не говорю о конкуренции.

Gozar 18.03.2010 11:28

Цитата:

Сообщение от Gvozd (Сообщение 48091)
Это слишком науко- и финансово- емкий проект, чтобы на голом энтузиазме что-нибудь стоящее сделать.

Клепать "одинаковые" проекты или сидеть и плевать в потолок скучно. Наука меня не смущает, а финансы они не всегда нужны огромные. Главное начать, а там посмотрим ;)

Gvozd 18.03.2010 11:40

Цитата:

Сообщение от Gozar
Клепать "одинаковые" проекты

вот именно!!!
чем ваш поисковик будет отличатся от остальных?
почему кому-то будет более интересно пользоваться именно вашим поисковиком?
рынок поисковиков, ИМХО вполне достаточно заполнен.
Цитата:

Сообщение от Gozar
а финансы они не всегда нужны огромные

для чего вы это затеваете?
если вы хотите просто научится чему-то новому, и вас не смущает необходимость каждый месяц платить из своего кармана за выделенный сервер, то тогда все ок.
если же вы хотите сделать серьезный проект, которым бы пользовалось достаточно большое количество людей, и зарабатывать на этом, то вам придется в это дело вложить немало денег. в частности на рекламу. и в таком случае рекомендую снять розовые очки,и трезво глянуть на ситуацию

Gozar 18.03.2010 11:52

Я всегда с удовольствием учусь чему-то новому и я готов тратить на это деньги, если они конечно есть :)

e1f 18.03.2010 12:08

Gozar, положа руку на сердце: Вы будете пользоватся своим поисковиком? Я точно не буду :) Есть гугл, в качестве поискового средства он меня совершенно устраивает, и переходить на что-то иное... а зачем? Существуют всяческие meta.ua, search.qip.ru, ну и что? Кто ими пользуется?

Gozar 18.03.2010 12:19

Цитата:

Сообщение от e1f (Сообщение 48104)
Есть гугл, в качестве поискового средства он меня совершенно устраивает

А вот меня он не всегда устраивает. Я уже намекал что не собираюсь вытеснять гугл с российского рынка. И вопрос меня интересует познавательный и я не призываю всех свои поисковики клепать.

Меня интересует как мой вопрос можно решить. Я хочу в нём разобраться.

Kolyaj 18.03.2010 12:20

Цитата:

Сообщение от e1f
Существуют всяческие meta.ua, search.qip.ru, ну и что? Кто ими пользуется?

http://www.liveinternet.ru/stat/ru/s...=searches.html

Kolyaj 18.03.2010 12:21

Цитата:

Сообщение от Gozar
Меня интересует как мой вопрос можно решить.

Начните с изучения лингвистики.

Gvozd 18.03.2010 12:29

Цитата:

Сообщение от Kolyaj
Начните с изучения лингвистики.

+1
Цитата:

Сообщение от Gozar
Вот подумалось, а как лучше пройтись по всему рунету?

советую для начала пройтись по top-100k алексы, и выбрать оттуда русский сектор
во всяком случае, это будет наиболее полезно
естественно, что весь рунет для вас будет неподъемной ношей


Часовой пояс GMT +3, время: 09:41.