Показать сообщение отдельно
  #2 (permalink)  
Старый 26.03.2012, 21:10
Аватар для Tim
Tim Tim вне форума
Профессор
Отправить личное сообщение для Tim Посмотреть профиль Найти все сообщения от Tim
 
Регистрация: 05.06.2009
Сообщений: 1,703

Вариант 1 (нам повезло и ссылки отличаются только номером):
1. в цикле генерируем ссылку, пытаемся загрузить страницу и смотрим что возвращает сервер.

Вариант 2 (всё плохо):
1. Грузим главную страницу (file_get_contents либо сокеты)
2. Регулярным выражением достаём линки на страницы этого же сайта, при этом не забывая что ссылки могут быть относительные и абсолютные.
3. Грузим найденные страницы и повторяем для них пункт № 2. При этом помечая ссылки по которым уже ходили. Опять же не забываем что они могут быть относительные и абсолютные, чтобы не возникало ситуации когда мы грузим два раза одну и ту же страницу.
4. В итоге настанет момент когда не просмотренных страниц не останется. Тогда уже можно будет отфильтровать массив полученных ссылок.

не пытайтесь запехнуть весть процесс за один раз, php-скрипт гарантированно повесится. Делайте по несколько страниц с сохранением промежуточных результатов в файл. Ещё лучше прикрутить AJAX, чтобы refresh постоянно не жмакать.
__________________
Лучше установить FreeBSD, чем потратить 30 лет на Linux'ы и выяснить какой из них хуже.
Самые главные в жизни вещи - не вещи! (было написано на одном гараже =)

Последний раз редактировалось Tim, 26.03.2012 в 21:14.
Ответить с цитированием