reaper, в голове алгоритм есть, написал, но не то что то
кинь мне пример свой, в личку, чтоб не мешать другим решить задачу
Koenig, Хех. Я всё как-то хотел написать, но руки не доходили.
На мой взгляд всё элементарно.
1. Получаем контент точки входа, т.е. главной страницы.
2. Сохраняем все ссылки, которые были на ней обнаружены в память.
3. Обходим ссылки.
4. Сохраняем ссылки с полученных страниц в память, попутно пропуская уже существующие.
И так до конца дерева, пока дифф для каждой из конечных ссылок не станет равным нулю.
reaper, я же говорю все подобное я уже придумал, а начал тесты делать борода, на сайте более 20к ссылок, плюс постранички, сделал проверку на хост, выпрямление относительных ссылок, а в итоге не то
если не трудно попробуй, у меня рекурсия, массив в статическом свойстве собирается, сам класс несколько методов
Koenig, А что конкретно не получается?
reaper, ну тестсайт имеет верхнее и боковое меню, ссылок много одинаковых, вот думаю может массив слишком большой, было такое когда войну и мир по строкам разделить пытался
Koenig, Попробуй кравлер от симфони, проще будет.
reaper, его можно отдельно вырвать без симфонии?
Koenig, Да. просто качаешь с гитхаба архив и всё по-моему. в документации описана установка.
Самый простой способ -- это использовать composer.
# reaper (02.02.2014 / 22:37)
adust,
Скрипт конечно же консольный.
я с телефона, компа покачто нету, не получится консольный скрипт у меня написать((
adust, Ну пиши веб тогда, в чем проблема. Хотя если у тебя ведро, то не вижу проблемы. php, на сколько я знаю, там запустить можно.