Beautifulsoup – вопросы и ответы

91
голос
1
ответ
Я получаю суп, используя это: soup = BeautifulSoup(html, 'lxml').find("tbody").find_all("tr") И тогда объект супа содержит несколько подобных tr> объектов, как это: <tr> <td class="tabl...
7 месяцев, 3 недели назад Quanti Monati
65
голосов
1
ответ
Следуя советам в ответе: subclassing beautifulsoup html parser, получая ошибку типа , я пытаюсь использовать состав класса вместо подкласса BeautifulSoup . Основной класс Scraper отлично работает н...
7 месяцев, 3 недели назад alonisser
91
голос
1
ответ
1, Опубликовать основную страницу 2, Введите первый контент 3, на странице "Дети" введите следующий контент Я нашел свойство скрытой статьи. Но я не могу получить фактическое значение. Я пытаюсь на...
7 месяцев, 3 недели назад Nomiki
-5
голосов
2
ответа
Возможно ли скопировать данные в виде ссылок, содержащихся в статье в Википедии? import bs4 as bs import urllib.request import re sauce = urllib.request.urlopen('https://en.wikipedia.org/wiki/Green...
7 месяцев, 3 недели назад jeffy abraham
-5
голосов
1
ответ
Сейчас я использую следующий код: containers = html_soup.find_all('div', class_ = 'a') и затем я использую оператор if, как показано ниже: if containers[i].p.text == 'text': но это занимает много в...
7 месяцев, 3 недели назад Sujoy De
91
голос
2
ответа
Я попытался найти таблицу с "данными" класса на веб-странице с этим кодом. import urllib2 from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www.cbssports.com/nba/...
7 месяцев, 3 недели назад dangerChihuahua007
64
голоса
1
ответ
Я пытаюсь создать таблицу словаря с ключевым значением для последующего присоединения, связанного с списком. Ниже приведен код с выходом, который производит код, а также желаемый результат. Может л...
7 месяцев, 3 недели назад Kyle
-8
голосов
1
ответ
я хочу получить название школы, адрес, адрес электронной почты и номер телефона на https://targetstudy.com/school/cbse-schools-in-kerala.html я использую красивый суп. Может кто-нибудь помочь с кодом.
7 месяцев, 3 недели назад Vishnu Nair
65
голосов
1
ответ
$ sudo pip install beautifulsoup4 Requirement already satisfied (use --upgrade to upgrade): beautifulsoup4 in /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages Cleaning ...
7 месяцев, 3 недели назад 0x90
-9
голосов
1
ответ
Мне нужно очистить данные с веб-сайта, используя питон и красивый суп. У меня есть код HTML, из которого мне нужно очистить только вкладчиков. <a href="website//contributors"> <span class=...
7 месяцев, 3 недели назад Sushmitha
161
голос
1
ответ
Я пытаюсь разобрать веб-сайт и получить некоторую информацию с помощью BeautifulSoup.findAll, но он не находит их всех. Я использую python3 код - это #!/usr/bin/python3 from bs4 import BeautifulSou...
7 месяцев, 3 недели назад Clepto
91
голос
1
ответ
Во-первых, там python script, чтобы получить дерево xpath и красивый суп, указанный url. # get tree def get_tree(url): r = requests.get(url) tree = html.fromstring(r.content) return tree # get soup...
7 месяцев, 3 недели назад f4fc2791e4473eb2ba41b5ddb445b2
79
голосов
1
ответ
Мне нужно очистить текст '64% 'от приведенного ниже кода на веб-странице, используя Python и BeautifulSoup, пожалуйста, помогите. <span class="textword" style="width:64%">BUY</span> С у...
7 месяцев, 3 недели назад babsdoc
135
голосов
1
ответ
from bs4 import BeautifulSoup import urllib2 test = open('HTMLDoc.html', 'rU') soup = BeautifulSoup(test, 'html.parser') data = soup.findAll("li", { "class":"position" }) print data.encode('utf-8')...
7 месяцев, 3 недели назад Morgan Allen
111
голосов
3
ответа
Я пытаюсь очистить страницу html, удалив необходимые атрибуты. Я могу удалить теги с пустым содержимым, но застрял с удалением знака input: '<h2>Tutorial material<a>¶</a></h2&g...
7 месяцев, 3 недели назад Ravi
119
голосов
1
ответ
Я использую Python и BeautifulSoup для очистки У меня есть разметка HTML, и я хочу извлечь Rated 3.4 Out of 5 by 623 reviewers <span itemprop="aggregateRating" itemscope="" itemtype="http://sche...
7 месяцев, 3 недели назад Umair
65
голосов
2
ответа
Я начинаю с BeautifulSoup в python, я хочу вычеркнуть из магазина Android Play Store название пакета и цену каждого приложения на странице. Чтобы получить имя пакета, я использовал этот код: url = ...
7 месяцев, 3 недели назад userHG
65
голосов
1
ответ
Я использую Python 2.7, BeautifulSoup4, регулярное выражение и запросы в Windows 7. Я очистил некоторый код с веб-сайта, и у меня возникают проблемы с разбором и извлечением бит, которые я хочу, и ...
7 месяцев, 3 недели назад Gustavo Costa
111
голосов
2
ответа
Я хочу добавить строку кода в HTML-код в определенном месте. Я хочу знать, какая библиотека будет более полезной BeautifulSoup или HTML-парсер? Я просто хочу добавить новую строку, а затем написать...
7 месяцев, 3 недели назад deep5459
-5
голосов
2
ответа
Я хотел бы расширить ранее заданный вопрос: Вложенные для циклы с неравными объектами В этом вопросе я попросил метод извлечения типа местоположения (Hospital, Urgent Care и т.д.) В дополнение к на...
7 месяцев, 3 недели назад Daniel
65
голосов
1
ответ
Я пытаюсь получить информацию с сайта " https://www.estimize.com/jpm/fq3-2016#chart=table ", а точнее все индивидуальные оценки, которые находятся в нижней части страницы. Но он показывает только п...
7 месяцев, 3 недели назад Anna Ignashkina
91
голос
1
ответ
Мне нужно очистить входное скрытое значение из HTML с помощью BeautifulSoup, у меня есть эта html-форма: <form method="post" enctype="multipart/form-data" action="http://localhost/wp-admin/updat...
7 месяцев, 3 недели назад kingcope
80
голосов
4
ответа
Это мое html-дерево <li class="taf"><h3><a href="26eOfferCode%3DGSONESTP-----------" id="pa1"> Citibank <b>Credit Card</b> - Save over 5% on fuel | Citibank.co.in</...
7 месяцев, 3 недели назад Nava
64
голоса
2
ответа
Я использую BS4 и PhantomJS для очистки веб-сайта. Все отлично работает на Mac, но в Windows у меня возникла странная ошибка: find_all() возвращает None , но элементы существуют! Мой код: def get_v...
7 месяцев, 3 недели назад tmac_balla
64
голоса
1
ответ
Я пытаюсь проанализировать первую страницу результатов поиска Google. В частности, заголовок и малая сводка, которая предоставляется. Вот что я имею до сих пор: from urllib.request import urlretrie...
7 месяцев, 3 недели назад DevinGP
128
голосов
4
ответа
Я хотел очистить таблицу html с помощью этого кода import requests from bs4 import BeautifulSoup page1 = requests.get("http://kworb.net/spotify/country/br_weekly.html") soup = BeautifulSoup(page1.c...
7 месяцев, 3 недели назад user4910881
79
голосов
2
ответа
<div class="columns small-5 medium-4 cell header">Ref No.</div> <div class="columns small-7 medium-8 cell">110B60329</div> Веб-сайт:
7 месяцев, 3 недели назад Odhran Hennessy
102
голоса
1
ответ
Я пишу веб-гусеничную машину. Когда он посещает страницу, он тянет все ссылки на этой странице (которые удовлетворяют условиям, blah blah) и добавляет их в очередь посещенных страниц. Я не хочу, чт...
7 месяцев, 3 недели назад Craig
81
голос
1
ответ
У меня есть часть кода, работающая на сервере (Ubuntu 14.04.2 LTS) и ноутбук (Ubuntu 15.04), который дает разные результаты. Я строю суп, используя тот же html файл (скопировал его сам на сервер) t...
7 месяцев, 3 недели назад rGun
64
голоса
4
ответа
Я хотел бы передать определенный параметр в xml, поэтому вместо того, чтобы быть необработанным xml со всеми значениями при его создании, я бы хотел изменить один с параметром (например, пользовате...
7 месяцев, 3 недели назад Louis Storming
90
голосов
2
ответа
Мне нужно собрать некоторую информацию, которую не предоставляет Facebook Analytics. Например, исходный URL и заголовок статьи, рекламируемой в Facebook как ссылка. Эта информация скрыта в html-код...
7 месяцев, 3 недели назад aviss
128
голосов
1
ответ
Я делаю это: from bs4 import BeautifulSoup import urllib.request import requests website='http://www.website.ro/' r=urllib.request.urlopen(website).read() soup = BeautifulSoup(r,'lxml') form=soup.f...
7 месяцев, 3 недели назад Mike
-6
голосов
1
ответ
from bs4 import BeautifulSoup import os import re htmlDoc=""" <html> <body> <table class="details" border="1" cellpadding="5" cellspacing="2" style="width:95%"> <tr> <td&...
7 месяцев, 3 недели назад Alan Pallath
64
голоса
1
ответ
Каков наиболее эффективный способ получить divs с BeautifulSoup4, если у них есть несколько классов? У меня есть html-структура: <div class='class1 class2 class3 class4'> <div class='class...
7 месяцев, 3 недели назад Elsa Strahmbrand
91
голос
1
ответ
Я хочу получить каждый NSN и описание рядом с ним с этого сайта http://www.iso-parts.com/Index/1 . Код, который я попытался сделать: import requests from bs4 import BeautifulSoup import urllib3 imp...
7 месяцев, 3 недели назад learner101
112
голосов
4
ответа
Я пытаюсь создать таблицу CSV файлов. Я изо всех сил пытаюсь организовать данные в формате таблицы. Как организовать выходные данные в их правильной позиции заголовка? import urllib import urllib.r...
7 месяцев, 3 недели назад Taylor Rhodes
79
голосов
1
ответ
У меня есть следующий код: soup = BeautifulSoup(text) for elem in soup.find_all('span', 'finereader'): elem.replace_with(elem.string or '') Я хотел бы использовать lxml, потому что я не могу исполь...
7 месяцев, 3 недели назад MarkF6
101
голос
3
ответа
Как удалить следующую строку (<span class=saws></span>) из строки ниже <p>In the house of Um-Salama I saw Allah Messenger (<span class=saws></span>) offering prayers, ...
7 месяцев, 3 недели назад Ossama
65
голосов
1
ответ
Попытка вставить данные в базу данных PostgreSQL. Код Python: myFields = ((DOT_Number,),(Entity_Type,),(Operating_Status,),(Legal_Name,), (Phone,),(Address,) ) query = """ INSERT INTO saferdb_quest...
7 месяцев, 3 недели назад Lev
-11
голосов
2
ответа
Я хочу сделать это с помощью скрипта Python: изменить ссылку на связанное изображение, например: <td>mylink.com</td> чтобы: <td><a href="mylink,com"><img src="myimage.jpg...
7 месяцев, 3 недели назад willmaz
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема