Просмотр поста

.
ValekS
Ей 25
Подготовка к написанию парсера
Как и в любом скрипте, выполняющим действия с каким то сторонним сайтом, нам сначала нужно разобрать структуру этого стороннего сайта.
Заходим на helltar.ru и смотрим. Версия сайта роли не играет. Мы видим записи, которые нам нужно взять и кинуть себе в Базу Данных. Смотрим ссылки к записям, к примеру последняя запись блога - http://helltar.ru/post-176.html, потыкав ещё по ссылкам понимаем что в них меняется только ай-ди. Так как предпоследняя запись - post-175.html, пред предпоследняя - post-174.html и так далее. Это нам только наруку. Знаете почему? Нет? Позже поймёте.
Так же на данном этапе следует учесть, что некоторые записи удалялись - ID последней записи 176, всего записей 106. Значит удалено 70(176 - 106 = 70) записей. В этом легко убедиться - заходим на последнюю страницу блога - 22 и видим что ID первой записи “Сайт открыт” - 4. То что некоторые записи удалены не беда, раз мы про это знаем.

Теперь посмотрим на саму запись, на html код записи. Из всего хлама что размещён на странице записи - http://helltar.ru/post-176.html - нам нужно только взять Название записи и её Текст. Название записи у нас содержится в диве - title, в нашем случае это - <div class="title"><b>Catch Box for Windows</b></div>. Но я не буду парсить Название от сюда, так как если внимательно посмотреть, то можно обнаружить что Название статьи содержится ещё в title - <title>Catch Box for Windows</title>, откуда его взять удобнее.
Текст статьи я буду брать начиная от дива <div class="post"> и заканчивая дивом <div style="float:left">. Так как раз весь текст записи получится у нас и не надо будет вырезать с него всякие ссылки на Комментарии и т.д.

Ну что, подготовительный этап можно считать законченным. Переходим дальше.