Мануал по написанию грабберов!

11.42K
.
ROM (25.06.2011/11:39)
elkol, Попробуй изображэния сграбить, должна капча загрузиться.
нет неполучается
.
Может писать как в статье в библиотеке?
.
мля... просто прописать не относительный путь а полный... ну например там /captcha.php а ты меняешь на полный к тому сайту...
.
короче такая проблема:
хочу написать парсер с http://www.msl.com.ua/spligalin.php
вот начал писать код
$file = file_get_contents("http://www.msl.com.ua/spligalin.php");
$file = str_replace('href="', 'href="http://www.msl.com.ua/', $file);
$file = str_replace('src="/', 'src="http://www.msl.com.ua/', $file);
$file=preg_replace('/<html(.*?)<div class=\"t6a1\" align=\"justify\">/si','',$file);
$file=preg_replace('/<p><strong><a href=\"http:\/\/www.msl.com.ua\/spligarez.php(.*?)<\/html>/si','',$file);

echo $file;


вроде все норм, но когда откриваю исходний код страници то там каракули..как ето исправить?
.
Vynderkind (27.06.2011/16:00)
короче такая проблема:
хочу написать парсер с http://www.msl.com.ua/spligalin.php
вот начал писать код
[php]$file = file_get_contents("http://www.msl.com.ua/spligalin.php");
$file = str_replace('h
там кодировка на сайте windows-1251 поэтому пропиши это и будет норма $file = iconv("windows-1251", "UTF-8", $file);
.
Saturn, помогло спс
.
на сайте-жертве юзаеться мод реврайт, как его ограбить?
.
Vynderkind, ответ
.
(\/)____o_O____(\/)
Странно что курлом ни кто не пользуется. Думал тема интересная. Учат всех по инструкции грабить. И все так и грабят. Я например сразу вырезаю нужный кусок кода, его обрабатываю, если сложно кусок нудный сразу вырезать, вырезаю чуть больший кусок и делаю зацепку, со второго раза все нужное уже есть, а остальное уже сам рисую, ссылки всякие разные и навигацию переписываю , чтоб этим же скриптом продолжать граб. С веба грабил, первый опыт так сказать, с мод_реврайтом . Тут этот граб выкладывали. Гороскопы, пример на хомяке , ссылка в анкете
.
(\/)____o_O____(\/)
http://seclub.org/forum/post.p ... 95310 пример на курл с пост авторизацией
Всего: 586