не работает парсинг с помошю scrapy (python + php)

1.64K
.
(\/)____o_O____(\/)
_endrju_, тебе для винды? просто там надо еще и кодировку с utf переводить для винды
тест на сотне
Прикрепленные файлы:
.
(\/)____o_O____(\/)
вот архив с файлом готовым и быдлокод приложил
плюс в сполер для потомков
быдлокод (+/-)

на самом деле еще можно долго оптимизировать, генерил файл 200 кб почти 10 минут
Прикрепленные файлы:
.
# Koenig (26.09.2016 / 21:50)
_endrju_, тебе для винды? просто там надо еще и кодировку с utf переводить для винды
тест на сотне
Не у меня линупс :-)
.
(\/)____o_O____(\/)
_endrju_, ну тогда три строки удалить и одну изменить =) там где iconv
.
(\/)____o_O____(\/)
_endrju_, в архиве файл, можешь шаманить Гг
.
# Koenig (26.09.2016 / 22:10)
вот архив с файлом готовым и быдлокод приложил
плюс в сполер для потомков


<?php

$url = 'http://b2binform.ru/result?c=203&page=';
$domen = 'http://b2binform.ru';

function myCurl($url) {
Хм, у тебя крксивше файл получился, я запилил так что например адрес там видел, город например идёт ссылкой, то мне весь хтмл в одну ячейку записался, из-за не понимания, как разобрать точнее файл) завтра буду на работе скину пример)
По поводу генерации, у меня все за минуты 3-4 спарсилось)
.
(\/)____o_O____(\/)
_endrju_, ну если сесть и проштудировать, там кода раза в три больше получится, но в разы быстрее провернется, просто на самом деле надо сделать на одной странице сначала, а разницы на 100 или 100к провернуть уже нет
.
# Koenig (26.09.2016 / 22:10)
вот архив с файлом готовым и быдлокод приложил
плюс в сполер для потомков


<?php

$url = 'http://b2binform.ru/result?c=203&page=';
$domen = 'http://b2binform.ru';

function myCurl($url) {
А какая часть кода "вырезает" нужные данные? Гг таки правильно сделал я что на питон наваял ету задачу, сам бы наверно дней 5 писал етот парсер на пыхе)
.
(\/)____o_O____(\/)
_endrju_, preg_match_all по регулярке собирает у меня нужное, что в скобках в регулярке, попадает в результат, там где я выбирал имя поля и значение, там два пары скобок, потом собирал массив, (array_combine) т вырезал из значений теги, array_map + strip_tags
.
Koenig, а зачем ты куки установил? Разве они где-то в скрипте используются?
Всего: 79