Web-Scraping – вопросы и ответы

-4
голоса
1
ответ
Есть ли способ предотвратить загрузку shadobox при использовании селена? Я хочу предотвратить загрузку shadobox для этого сайта при использовании селена busesromani.cl/site/
2 месяца, 2 недели назад ali ali
124
голоса
2
ответа
Я пытаюсь отменить несколько страниц с веб-сайта. Для этого у меня разные стартовые URL-адреса и метод сканирования следующих страниц. Проблема в том, что паук не сбрасывает предметы и, похоже, не ...
2 месяца, 2 недели назад VioGeo
75
голосов
1
ответ
То, что я пытаюсь достичь, - получить имя пользователя Instagram из идентификатора пользователя . Я пытаюсь сделать это без API Instagram , поскольку мое приложение не одобрено. Как я выяснил, это ...
2 месяца, 2 недели назад Matyáš Skalický
87
голосов
1
ответ
Я написал фрагмент кода python, который сбрасывает шансы на скачки с сайта букмекера. Я хочу сейчас: Запускайте код в назначенное все чаще, когда гонка приближается. Храните скребковые данные в баз...
2 месяца, 2 недели назад Denis Kelleher
61
голос
2
ответа
Я пытаюсь очистить страницу . Код, который я написал, царапины 10 элементов из 36 Я не могу найти проблему. Если я запускаю запрос отдельно в оболочке, он, как представляется, извлекает все элемент...
2 месяца, 2 недели назад Riwaj Chalise
62
голоса
1
ответ
Я работаю над веб-соскабливанием. В настоящее время я хочу отказаться от веб-сайта. У меня есть ссылка файла xml из файла robots.txt. Теперь я хочу прочитать весь url из этого xml. Но не могу этого...
2 месяца, 2 недели назад Nazmul Hossain
-4
голоса
1
ответ
Сейчас я использую следующий код: containers = html_soup.find_all('div', class_ = 'a') и затем я использую оператор if, как показано ниже: if containers[i].p.text == 'text': но это занимает много в...
2 месяца, 2 недели назад Sujoy De
-4
голоса
1
ответ
Написание базового скрипта. Я не понимаю, где я буду идти не так. Я столкнулся с той же проблемой, когда использовал python 2.7. Я использую Sublime 3 в качестве текстового редактора, использующего...
2 месяца, 2 недели назад ninodelaluna
-4
голоса
1
ответ
Я пытаюсь очистить результаты поиска, используя twitter api. После каждого запроса программа будет спать 60 секунд и продолжить. Но проблема в том, что результаты двух запросов почти одинаковы. Как...
2 месяца, 2 недели назад dec
75
голосов
1
ответ
Привет, я хочу очистить текст от веб-сайта, используя библиотеку JSoup. Я пробовал следующий код, и это дает мне всю веб-страницу, я хочу просто извлечь определенную строку. Вот код, который я испо...
2 месяца, 2 недели назад Matt9Atkins
117
голосов
1
ответ
Я использую метод запроса основного кода Node JS HTTP с некоторым сочетанием опций из этого модуля: https://github.com/request/request Я хотел бы, чтобы данные из формы бронирования на моем веб-сай...
2 месяца, 2 недели назад Candleshine
-4
голоса
2
ответа
Я использую Selenium PhantomJS для выполнения безгласных динамических выскабливаний. Я смог извлечь всю информацию, кроме всплывающих окон, вызванных ng-click , например: <button href="#" ng-cli...
2 месяца, 2 недели назад Hassan Anwer
115
голосов
2
ответа
Я использую "Simple HTML Dom", чтобы очистить главную страницу HN (news.ycombinator.com), которая отлично работает большую часть времени. Однако время от времени они рекламируют работу/компанию, ко...
2 месяца, 2 недели назад mmackh
75
голосов
1
ответ
У меня есть список URL-адресов в диапазоне A1: A60. Я хочу открыть каждый, сделать скриншот сайта, закрыть сайт и сохранить скриншот в формате jpg. Я использую свой дополнительный монитор, чтобы сд...
2 месяца, 2 недели назад Krasztana
62
голоса
1
ответ
Я пишу код phantomjs, чтобы очистить сайт www.trivago.ie . Первое, что я должен сделать, это изменить валюту страницы. Я пытался сделать это с помощью javascript или JQuery без успеха. Я использую ...
2 месяца, 2 недели назад Diana R.
-4
голоса
1
ответ
Я пытаюсь очистить следующую страницу (только страница 1 для этого вопроса): https://www.sportstats.ca/display-results.xhtml?raceid=4886 Я могу использовать Selinium для захвата источника, а затем ...
2 месяца, 2 недели назад user3449833
87
голосов
1
ответ
Мои системные спецификации: Ubuntu 17.10, оперативная память 4 ГБ, своп 50 ГБ Моя цель вкратце Я хотел бы сканировать все 24.453 записи из https://www.sanego.de/Arzt/Allgemeine+Chirurgie/ . Эта про...
2 месяца, 2 недели назад Ostap Didenko
76
голосов
1
ответ
Мне нужно очистить текст '64% 'от приведенного ниже кода на веб-странице, используя Python и BeautifulSoup, пожалуйста, помогите. <span class="textword" style="width:64%">BUY</span> С у...
2 месяца, 2 недели назад babsdoc
75
голосов
2
ответа
Как я могу добраться до "телефона" и "факс" с помощью python в сочетании с селектором css. Я выбрал "имя", но в случае "телефона" и "факс" я застрял. Любая помощь по этому поводу будет высоко оцене...
2 месяца, 2 недели назад SIM
76
голосов
1
ответ
У меня проблема с интерактивными страницами с формами, потому что я должен выбрать элемент из формы, а затем отобразить текущую страницу и очистить ее Форма представляет собой простые переключатели...
2 месяца, 2 недели назад Stiven Diaz
88
голосов
2
ответа
Я пытаюсь сделать скребок, используя кукловод, используя узел, и все, кажется, работает нормально. Я хочу получить массив объектов, которые выглядят так: [{ title, price, link, image, }] и следующи...
2 месяца, 2 недели назад OmarAguinaga
62
голоса
2
ответа
Я пытаюсь войти на сайт с помощью python. Адрес для входа: https://login.flash.co.za/apex/f?p=pwfone:login и URL-адрес "form action" показан как: https://login.flash.co.za/apex/wwv_flow.accept Когд...
2 месяца, 2 недели назад wazzahenry
62
голоса
1
ответ
У меня есть этот веб-сайт: codigos, если вы посмотрите на него, у него есть поле выбора слева, а справа кнопка go, мне нужно очистить некоторые элементы слева. Но как я могу сказать, чтобы механизи...
2 месяца, 2 недели назад NeoVe
106
голосов
1
ответ
Ниже приводится мой html-фрагмент, где N число DIV с quality имени класса теперь я хочу извлечь <a href> каждого div, у которого есть имя класса с качеством. Eastin Easy Citizen Ахмедабад <...
2 месяца, 2 недели назад Bhavik
96
голосов
3
ответа
Я работаю с selenium API для веб-обработки на страницах с javascript. Есть ли способ получить код без экрана веб-браузера? Я новичок в этом API Возможно?
2 месяца, 2 недели назад Rulogarcillan
87
голосов
2
ответа
Я улавливаю HTTP-запросы, сделанные Selenium, используя Browser Mob Proxy (используя пакет permon для браузера-прокси). В моем HAR файле я вижу это (это должен быть файл Javascript): "content": { "...
2 месяца, 2 недели назад Nicolas KB
114
голосов
2
ответа
У меня есть простой python3 webscraper, который работал синхронно. Я хотел сделать его асинхронным, поэтому я немного изменил его. Но программа не перебирает распакованный список [(,), (,), (,),......
2 месяца, 2 недели назад Kogam22
61
голос
1
ответ
Я просматриваю сайт с помощью Scrapy, и я хочу отформатировать извлеченные сухари для создания пути к сайту: HTML: <ul id="breadcrumbs"><li><a href="/site/ID/home">Home</a>&...
2 месяца, 2 недели назад user988544
97
голосов
1
ответ
Я не могу распечатать содержимое после очистки веб-сайта с помощью селена. Мне нужно очистить стол. Вот что я пытаюсь сделать: table = driver.find_element_by_xpath('//div[@class="line-chart"]/div/d...
2 месяца, 2 недели назад Luis Cruz
-6
голосов
1
ответ
Я очищаю веб-сайт с urls http://domain.com/post/X , где X - это число, rvest от 1: 5000, я могу отказаться от использования rvest используя этот код: website <- html("http://www.domain.com/post/...
2 месяца, 2 недели назад Ahmed Kassem
98
голосов
1
ответ
Я хочу получить данные с веб-сайта (который не имеет API или веб-сервис) самым быстрым способом. В настоящее время я использую bufferedreader и анализирую html в строку и просеиваю ее для данных, к...
2 месяца, 2 недели назад Edmond
61
голос
2
ответа
Я использую BS4 и PhantomJS для очистки веб-сайта. Все отлично работает на Mac, но в Windows у меня возникла странная ошибка: find_all() возвращает None , но элементы существуют! Мой код: def get_v...
2 месяца, 2 недели назад tmac_balla
62
голоса
1
ответ
Я хочу автоматизировать этот URL . Мои входы в качестве примера: Ящики ввода: افزودن صندوق с id="symbolSearch" افزودن شاخص с id="indexSearch" некоторые значения для symbolSearch : Я ищу ک
2 месяца, 2 недели назад AliM67
62
голоса
1
ответ
Иногда я получаю отказ от всех скребков, когда в одном скрепе есть какая-то ошибка. Пример: у меня есть скребки с ошибкой синтаксиса, которая была пропущена. class MySpiderWithSyntaxError(scrapy.Sp...
2 месяца, 2 недели назад SVSerhii
98
голосов
1
ответ
Я пишу веб-гусеничную машину. Когда он посещает страницу, он тянет все ссылки на этой странице (которые удовлетворяют условиям, blah blah) и добавляет их в очередь посещенных страниц. Я не хочу, чт...
2 месяца, 2 недели назад Craig
143
голоса
3
ответа
Я написал скребок в vba, чтобы разобрать некоторую информацию о фильме с сайта torrent. Я использовал IE и queryselector для выполнения задачи. Когда я выполняю свой код, он разбирает все вместе с ...
2 месяца, 2 недели назад SIM
87
голосов
2
ответа
Мне нужно собрать некоторую информацию, которую не предоставляет Facebook Analytics. Например, исходный URL и заголовок статьи, рекламируемой в Facebook как ссылка. Эта информация скрыта в html-код...
2 месяца, 2 недели назад aviss
75
голосов
1
ответ
im делать некоторые скребки данных... в основном я получаю некоторую веб-страницу, используя curl, извлекаю данные и проверяю мою базу данных, чтобы увидеть, существуют ли они в моем db. поэтому я ...
2 месяца, 2 недели назад max
61
голос
2
ответа
Я пишу скребок, в качестве теста я пошел в IMDB и попытался выпустить некоторые имена актеров из списка, вот ссылка на страницу. Я пытаюсь извлечь имя из html, когда я вызываю эту функцию в консоли...
2 месяца, 2 недели назад johnny 5
107
голосов
1
ответ
Я хотел бы сделать приложение, которое будет экспортировать некоторые данные, которые я выберу, с веб-сайта, такого как книги Google (например, теги каждой книги). Можете ли вы сказать мне, какой и...
2 месяца, 2 недели назад Spyros
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема