Новое начало или тотальный копипаст ч.2
На сохранение 1 000 000 страниц. с различных сайтов требуется около 20 Gb жесткого пространства. Подсчет не точный.
Вот подумалось, а как лучше пройтись по всему рунету?
Задумался я тут надысь над созданием своего поисковика. Так как для меня такая задача не совсем тривиальная, то решил посоветоваться.
Как его можно организовать?
Первое что пришло в голову это подсчитать требуемое место для контента страниц.
Второе база, есть ли смысл использовать mysql или искать что-то другое?
В каком порядке обходить сайты?
первое что пришло в голову последовательный перебор.
Как сложить все в базу я понимаю, а вот как организовать потом быстрый поиск не до конца. Если брать mysql то в одну таблицу все не влезет, да и поиск по ней будет утопией.
Если есть у кого какие мысли, поделитесь?
|