Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Новое начало или тотальный копипаст ч.2 (https://javascript.ru/forum/offtopic/8279-novoe-nachalo-ili-totalnyjj-kopipast-ch-2-a.html)

Gozar 18.03.2010 09:54

Новое начало или тотальный копипаст ч.2
 
На сохранение 1 000 000 страниц. с различных сайтов требуется около 20 Gb жесткого пространства. Подсчет не точный.

Вот подумалось, а как лучше пройтись по всему рунету?

Задумался я тут надысь над созданием своего поисковика. Так как для меня такая задача не совсем тривиальная, то решил посоветоваться.
Как его можно организовать?

Первое что пришло в голову это подсчитать требуемое место для контента страниц.

Второе база, есть ли смысл использовать mysql или искать что-то другое?

В каком порядке обходить сайты?

первое что пришло в голову последовательный перебор.

Как сложить все в базу я понимаю, а вот как организовать потом быстрый поиск не до конца. Если брать mysql то в одну таблицу все не влезет, да и поиск по ней будет утопией.

Если есть у кого какие мысли, поделитесь?

Gvozd 18.03.2010 11:09

Цитата:

Сообщение от Gozar
Второе база, есть ли смысл использовать mysql или искать что-то другое?

разумеется нет.
SQL-базы хороши до тех пор, пока вам не надо их расширять более чем на один сервер, из-за высокой нагрузки.
с добавлением новых серверов, служебный траффик между ними значительно растет, и достаточно быстро превысит какие-либо разумные рамки.
google к примеру использует свою собственную не-SQL базу.
благодаря этому они могут держать сотни тысяч серверов в одном дата-центре.
в качестве альтернативы SQL обычно приводятся key-value базы.
они практически безболезнено могут быть расширены до кластера из любого количества серверов.
PS а вообще, идею нахожу бредовой. Это слишком науко- и финансово- емкий проект, чтобы на голом энтузиазме что-нибудь стоящее сделать.я уж не говорю о конкуренции.

Gozar 18.03.2010 11:28

Цитата:

Сообщение от Gvozd (Сообщение 48091)
Это слишком науко- и финансово- емкий проект, чтобы на голом энтузиазме что-нибудь стоящее сделать.

Клепать "одинаковые" проекты или сидеть и плевать в потолок скучно. Наука меня не смущает, а финансы они не всегда нужны огромные. Главное начать, а там посмотрим ;)

Gvozd 18.03.2010 11:40

Цитата:

Сообщение от Gozar
Клепать "одинаковые" проекты

вот именно!!!
чем ваш поисковик будет отличатся от остальных?
почему кому-то будет более интересно пользоваться именно вашим поисковиком?
рынок поисковиков, ИМХО вполне достаточно заполнен.
Цитата:

Сообщение от Gozar
а финансы они не всегда нужны огромные

для чего вы это затеваете?
если вы хотите просто научится чему-то новому, и вас не смущает необходимость каждый месяц платить из своего кармана за выделенный сервер, то тогда все ок.
если же вы хотите сделать серьезный проект, которым бы пользовалось достаточно большое количество людей, и зарабатывать на этом, то вам придется в это дело вложить немало денег. в частности на рекламу. и в таком случае рекомендую снять розовые очки,и трезво глянуть на ситуацию

Gozar 18.03.2010 11:52

Я всегда с удовольствием учусь чему-то новому и я готов тратить на это деньги, если они конечно есть :)

e1f 18.03.2010 12:08

Gozar, положа руку на сердце: Вы будете пользоватся своим поисковиком? Я точно не буду :) Есть гугл, в качестве поискового средства он меня совершенно устраивает, и переходить на что-то иное... а зачем? Существуют всяческие meta.ua, search.qip.ru, ну и что? Кто ими пользуется?

Gozar 18.03.2010 12:19

Цитата:

Сообщение от e1f (Сообщение 48104)
Есть гугл, в качестве поискового средства он меня совершенно устраивает

А вот меня он не всегда устраивает. Я уже намекал что не собираюсь вытеснять гугл с российского рынка. И вопрос меня интересует познавательный и я не призываю всех свои поисковики клепать.

Меня интересует как мой вопрос можно решить. Я хочу в нём разобраться.

Kolyaj 18.03.2010 12:20

Цитата:

Сообщение от e1f
Существуют всяческие meta.ua, search.qip.ru, ну и что? Кто ими пользуется?

http://www.liveinternet.ru/stat/ru/s...=searches.html

Kolyaj 18.03.2010 12:21

Цитата:

Сообщение от Gozar
Меня интересует как мой вопрос можно решить.

Начните с изучения лингвистики.

Gvozd 18.03.2010 12:29

Цитата:

Сообщение от Kolyaj
Начните с изучения лингвистики.

+1
Цитата:

Сообщение от Gozar
Вот подумалось, а как лучше пройтись по всему рунету?

советую для начала пройтись по top-100k алексы, и выбрать оттуда русский сектор
во всяком случае, это будет наиболее полезно
естественно, что весь рунет для вас будет неподъемной ношей

Gozar 18.03.2010 12:33

Kolyaj,
Спасибо за совет. Думаю он мне пригодится.

e1f 18.03.2010 14:49

Цитата:

Сообщение от Kolyaj (Сообщение 48107)

Ну, с квипом понятно -- не все снимают чекбокс в инсталляторе, и потом не знают, где убрать. :) А вот кто пользуется метой -- интересно...

Gozar 18.03.2010 15:18

e1f,
Меня альтернатива никогда не смущает, меня смущает её отсутствие.

tenshi 18.03.2010 17:49

сделай лучше паука, умеющего индексировать аяксовые сайты ;-)

Gozar 18.03.2010 19:12

Цитата:

Сообщение от tenshi (Сообщение 48141)
сделай лучше паука, умеющего индексировать аяксовые сайты ;-)

уже ;-)

tenshi 18.03.2010 19:20

дык показывай! *о*

Gozar 18.03.2010 20:39

Цитата:

Сообщение от tenshi (Сообщение 48152)
дык показывай! *о*

С какого это вдруг? о_О

tenshi 18.03.2010 21:00

показать хочешь мне потому что ты

subzey 19.03.2010 00:13

Gozar,
я бы советовал Вам обратить внимание на проект Dublin Core. Это стандарт метаданных, который, вроде как, рассчитан на то, чтобы вернуть тегу <meta> его изначальный смысл — помогать в исполнении дьявольского плана Тима Бернерса Ли построить семантическую паутину.

Сайтов с такими метаданными очень немного, а индексирующие это краулеры мне лично неизвестны.

micscr 19.03.2010 09:23

Цитата:

Сообщение от Gvozd (Сообщение 48091)
в качестве альтернативы SQL обычно приводятся key-value базы. они практически безболезнено могут быть расширены до кластера из любого количества серверов.

Работал я больше года программистом одной такой базы (MSM). Для поиска самое оно. И очень гибкие, правда из недостатков - все надо ручками, ничего наподобие SQL нет. Если интересно "из прошлого знания" существует для таких целей СУБД - GTM. На русском инфы вряд ли найти. Но зато мне говорили, что показывает просто чудеса скорости.
В кратце - называются базы "иерархическими": данные хранятся также как и в разреженных массивах php, отличие - в узел можно записать и значение и поддерево.

B~Vladi 26.03.2010 10:01

Цитата:

Сообщение от Gvozd
чем ваш поисковик будет отличатся от остальных?
почему кому-то будет более интересно пользоваться именно вашим поисковиком?
рынок поисковиков, ИМХО вполне достаточно заполнен.

С такими взглядами рынок никогда не будет развиваться:)

PS Сейчас я принимаю участие в разработке новой социальной сети:D

Gvozd 26.03.2010 17:34

Цитата:

Сообщение от B~Vladi
С такими взглядами рынок никогда не будет развиваться

первые два моих вопроса, как раз главные факторы развития рынка.
для того чтобы рынок развивался, конкурирующие продукты должны иметь какую-то изюминку, отличие от других. что-то что привлечет покупателя
а последний тезис, является лишь моим личным взглядом на конкретный сектор рынка

B~Vladi 26.03.2010 18:11

Цитата:

Сообщение от Gvozd
для того чтобы рынок развивался, конкурирующие продукты должны иметь какую-то изюминку, отличие от других. что-то что привлечет покупателя

У него есть парсер AJAX-сайтов:)

tenshi 26.03.2010 19:01

а у меня есть философский камень :yes:

Gozar 27.03.2010 09:24

Цитата:

Сообщение от tenshi (Сообщение 49218)
а у меня есть философский камень :yes:

У меня философских камней нет, хотя есть фиолетовый. Когда на него смотрю, какая-то мысль проскакивает, но не уверен что философская. Если бы я не знал точно что бывают солнечные затмения, то наверное принял бы за психа того, кто сказал бы мне что луна может закрыть солнце днем.

B~Vladi 27.03.2010 10:03

Gozar, прекращай смотреть на фиолетовый камень;)

subzey 28.03.2010 17:36

А у меня нет фиолетового камня. Но зато есть визуальные новеллы. И я на них смотрю. И, вот, когда я на них не смотрю, у меня проскакивает мысль, что надо бы что-нибудь сделать для этого мира эдакое полезное и гуманистическое. А когда смотрю — не проскакивает.

Gozar 28.03.2010 23:27

Цитата:

Сообщение от subzey (Сообщение 49341)
А у меня нет фиолетового камня. Но зато есть визуальные новеллы. И я на них смотрю. И, вот, когда я на них не смотрю, у меня проскакивает мысль, что надо бы что-нибудь сделать для этого мира эдакое полезное и гуманистическое. А когда смотрю — не проскакивает.

Главное чтобы не проскакивало в неподходящий момент. ;)

Gozar 28.03.2010 23:34

Аметист


Часовой пояс GMT +3, время: 22:35.