Scrapy – вопросы и ответы

124
голоса
2
ответа
Я пытаюсь отменить несколько страниц с веб-сайта. Для этого у меня разные стартовые URL-адреса и метод сканирования следующих страниц. Проблема в том, что паук не сбрасывает предметы и, похоже, не ...
2 месяца, 2 недели назад VioGeo
75
голосов
1
ответ
Я пытаюсь очистить сайт, используя Scrapy + Splash в Python 2.7. Веб-сайт использует JavaScript для генерации большей части HTML, поэтому мне нужен Splash. Во-первых, я делаю FormRequest с помощью ...
2 месяца, 2 недели назад Belle-P
75
голосов
2
ответа
У меня есть промежуточное ПО, которое будет [raise IgnoreRequests()], если url содержит "https". class MiddlewareSkipHTTPS(object): def process_response(self, request, response, spider): if (respon...
2 месяца, 2 недели назад invulnarable27
61
голос
2
ответа
Я пытаюсь очистить страницу . Код, который я написал, царапины 10 элементов из 36 Я не могу найти проблему. Если я запускаю запрос отдельно в оболочке, он, как представляется, извлекает все элемент...
2 месяца, 2 недели назад Riwaj Chalise
62
голоса
1
ответ
Я пытаюсь запустить Scrapy или Portia в веб-приложении Microsoft Azure. Я установил Scrapy, создав виртуальную среду: D:\Python27\Scripts\virtualenv.exe D:\home\Python А затем установлен Scrapy: D:...
2 месяца, 2 недели назад jimbo
-4
голоса
1
ответ
Я пытаюсь очистить результаты поиска, используя twitter api. После каждого запроса программа будет спать 60 секунд и продолжить. Но проблема в том, что результаты двух запросов почти одинаковы. Как...
2 месяца, 2 недели назад dec
-4
голоса
1
ответ
У меня проблема: IndentationError: unexpected indent код работает хорошо на оболочке, но не на коде.
2 месяца, 2 недели назад Marco Dinatsoli
105
голосов
2
ответа
Я новичок в Python и Scrapy, но что-то просто кажется неправильным. Согласно документации и примеру, повторная реализация функции start_requests заставит Scrapy использовать возврат start_requests ...
2 месяца, 2 недели назад Michal Fašánek
87
голосов
1
ответ
Это настраиваемый конвейер И я хочу сохранить файл с именем паук Вот мой код. Он создаст json файл, но сохранит только данные Пожалуйста, научите меня, как редактировать код. В нем должно быть 10 д...
2 месяца, 2 недели назад user2492364
106
голосов
1
ответ
Я ОЧЕНЬ новичок в python и scrapy. Я написал рабочий сценарий с использованием scrapy и нуждаюсь в небольшом улучшении, чтобы избежать увольнений. В функции parse_article_page я столкнулся с двумя ...
2 месяца, 2 недели назад RajikDeymon
61
голос
1
ответ
Для этого URL-адреса мне нужны все URL-адреса продукта и их соответствующий ТИП. Таким образом, выход должен быть: Product_URL1 Blouse Product_URL2 Crop Top Product_URL3 Tank Top Product_URL4 Strap...
2 месяца, 2 недели назад Nitin
87
голосов
1
ответ
Мои системные спецификации: Ubuntu 17.10, оперативная память 4 ГБ, своп 50 ГБ Моя цель вкратце Я хотел бы сканировать все 24.453 записи из https://www.sanego.de/Arzt/Allgemeine+Chirurgie/ . Эта про...
2 месяца, 2 недели назад Ostap Didenko
87
голосов
1
ответ
Я немного новичок в scrapy, и мне нужно извлечь некоторые газеты для работы, я пробовал какой-то учебник, но никто из них не работал, как я и ожидал, цель заключается в заданном URL-адресе, извлече...
2 месяца, 2 недели назад Break
105
голосов
2
ответа
Я пытаюсь очистить несколько динамических сайтов, используя Splash для Scrapy в python. Однако я вижу, что Splash не может дождаться загрузки полной страницы в определенных случаях. Скорее всего, д...
2 месяца, 2 недели назад NightFury13
75
голосов
1
ответ
Я хочу следовать тегу <p> если не появляется другой тип родного брата Дело 1: <p>a</p> <p>b</p> <h3>Foo</h3> <p>c</p> Случай 2: <p>a</...
2 месяца, 2 недели назад Raheel Khan
61
голос
1
ответ
Я просматриваю сайт с помощью Scrapy, и я хочу отформатировать извлеченные сухари для создания пути к сайту: HTML: <ul id="breadcrumbs"><li><a href="/site/ID/home">Home</a>&...
2 месяца, 2 недели назад user988544
63
голоса
1
ответ
Ive получил проект Scrapy, подключенный к проекту Django, и все работает нормально (т.е. когда я запускаю свой скребок, Im способен сохранять элементы в БД). Я пытаюсь добавить скребок для изображе...
2 месяца, 2 недели назад jay queue
62
голоса
1
ответ
Иногда я получаю отказ от всех скребков, когда в одном скрепе есть какая-то ошибка. Пример: у меня есть скребки с ошибкой синтаксиса, которая была пропущена. class MySpiderWithSyntaxError(scrapy.Sp...
2 месяца, 2 недели назад SVSerhii
87
голосов
1
ответ
По-видимому, я больше не должен использовать ScrapyFileLogObserver ( http://doc.scrapy.org/en/1.0/topics/logging.html ). Но я все еще хочу сохранить мои сообщения журнала в файл, и я все еще хочу, ...
2 месяца, 2 недели назад jkdune
122
голоса
1
ответ
У меня есть основное веб-приложение Django, работающее на Heroku. Я хотел бы добавить паука для сканирования некоторых веб-страниц (например, с помощью Scrapy ) на основе запланированной задачи (на...
2 месяца, 2 недели назад Pablo
96
голосов
1
ответ
У меня есть 2 разных Scrapy настоящее время работают при запуске: scrapy crawl spidername -o data\whatever.json Конечно, я знаю, что могу использовать системный вызов из сценария для репликации име...
2 месяца, 2 недели назад Roman Rdgz
61
голос
1
ответ
Поэтому я написал паук, который извлекает определенные ссылки с веб-страницы и помещает URL-адрес, текст ссылки и другую информацию, не обязательно содержащуюся в самом теге <a> , в элемент д...
2 месяца, 2 недели назад wrongusername
122
голоса
1
ответ
При вызове в Chrome: http://www.ooshop.com/courses-en-ligne/ContentNavigation.aspx?TO_NOEUD_IDMO=N000000013348&TO_NOEUD_IDFO=81285&NOEUD_NIVEAU=3 Я получил следующие фа
2 месяца, 2 недели назад Anthony
97
голосов
1
ответ
Итак, я пытаюсь экспортировать данные, очищенные с веб-сайта, используя Scrapy, чтобы быть в определенном формате, когда я экспортирую его в XML. Вот что я хотел бы, чтобы мой XML выглядел следующи...
2 месяца, 2 недели назад Nic Young
122
голоса
1
ответ
Я не могу понять, почему мой конвейер не сохраняет файлы. Здесь код: VIDEOS_DIR = '/home/dmitry/videos' class VideoDownloadPipeline(MediaPipeline): def get_media_requests(self, item, info): return ...
2 месяца, 2 недели назад Dmitrii Mikhailov
62
голоса
1
ответ
Я уже видел подобный вопрос и пытался ответить, но безрезультатно. Может кто-то, пожалуйста, помогите мне исправить это? благодаря hepz@ubuntu:~/Documents/project/project$ scrapy crawl NewsSpider.p...
2 месяца, 2 недели назад hepzibah
61
голос
1
ответ
Есть ли способ скриншота определенного элемента во всплеске? Я не могу найти решение для этого. Единственный вариант, который я нашел, это использовать "render.png", который занимает скриншот полно...
2 месяца, 2 недели назад SphinX
75
голосов
2
ответа
Я пытаюсь копать немного глубже с помощью scrapy, но могу получить только название того, что я собираю, а не какие-либо детали. Вот код, который у меня есть до сих пор: from scrapy.spider import Ba...
2 месяца, 2 недели назад six7zero9
123
голоса
3
ответа
from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtrac...
2 месяца, 2 недели назад gallly
97
голосов
1
ответ
Я пытаюсь сделать некоторые веб-соскабливания, и у меня есть некоторые проблемы с Python/Scrapy . Я выделил ссылки, которые хочу совершить, но не могу понять, как туда добраться, чтобы очистить бол...
2 месяца, 2 недели назад deano
62
голоса
1
ответ
Я следую документации по сериализаторам в этой ссылке , я не уверен, если нет документации относительно десятичных сериализаторов?. Я определил Предмет с полем scrapy следующим образом: prize = scr...
2 месяца, 2 недели назад delpo
75
голосов
1
ответ
Я хочу взять обложку книги на этот HTML. Покрытие иногда находится в первом порядке, иногда оно находится во втором порядке. <div class="content"> <ul> <li> <b>Series</b&...
2 месяца, 2 недели назад Land Owner
96
голосов
1
ответ
Я изучаю курс лечения, и мне трудно найти эту проблему. Мой паук не будет сканировать веб-сайт macys и продолжает бросать следующую ошибку: [<twisted.python.failure.Failure twisted.internet.erro...
2 месяца, 2 недели назад user6055239
75
голосов
1
ответ
Im новичок в scrapy. Я хочу сканировать продукты на этой странице. Мой код сканирует первую страницу, и это тоже около 15 продуктов, и она останавливается. И хотите просканировать следующую страниц...
2 месяца, 2 недели назад user5276419
62
голоса
1
ответ
У меня есть следующий паук Scrapy, чтобы получить статус страниц из списка URL-адресов в файле url.txt import scrapy from scrapy.contrib.spiders import CrawlSpider from pegasLinks.items import Stat...
2 месяца, 2 недели назад Alexey Timokhin
-4
голоса
1
ответ
Я пытаюсь почистить листовки с сайта flipp.com. Этот код является попыткой изменить почтовый индекс на "90210" (произвольный почтовый индекс). Это мой код до сих пор: СЕЙЧАС ИЗМЕНЕНО ИЗ ПОМОЩИ В КО...
2 месяца, 2 недели назад Tim Roberts
62
голоса
1
ответ
Я создал один паук, который найдет url next_page на текущей странице, затем последует и next_page его, снова на этой странице spider next_page URL следующей_страницы и next_page его и так далее. Он...
2 месяца, 2 недели назад Sandesh
130
голосов
1
ответ
Принимая реплики и идеи из предыдущего поста , я попытался придумать свой собственный код. Однако, используя мой код, я заметил, что он ничего не царапает и, вероятно, не выходит за пределы уровня ...
2 месяца, 2 недели назад quasarseeker
61
голос
1
ответ
У меня есть паук, который сейчас ползает, и я хочу, чтобы он теперь прекратил сбор ссылок и просто сканировал все, что он собрал, есть ли способ сделать это? Я пока ничего не могу найти.
2 месяца, 2 недели назад deltaskelta
114
голосов
1
ответ
Я хочу использовать selenium и python для получения информации с именем "投资 金额" и "投资 数量" в черном фрейме в примере 1, который запрашивает метод "post". Мой код выглядит следующим образом: он снова...
2 месяца, 2 недели назад Jack Zhang
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема