Text-Extraction – вопросы и ответы

-4
голоса
4
ответа
Я пытаюсь иметь конвертер, который может конвертировать любой файл любого формата в текст, так что обработка становится легче для меня. Я использовал библиотеку textract Python. Вот документация: h...
2 месяца, 2 недели назад Jaffer Wilson
76
голосов
2
ответа
Есть ли простой способ потянуть контент между регулярным выражением? Предположим, у меня есть следующий образец текста SOME TEXT [SOME MORE TEXT] value="ssss" SOME MORE TEXT Мое регулярное выражени...
2 месяца, 2 недели назад user974896
62
голоса
1
ответ
Я пытаюсь лучше понять, как PDF сохраняет текст. Вообще говоря, когда PDF создается из приложения, такого как MS Word (или, в моем случае, SQL Server Reporting Services), как хранится текст в форма...
2 месяца, 2 недели назад Kenneth K.
62
голоса
2
ответа
Мой последний результат клипа находится здесь, что дает мне что-то вроде Last clip created by HeyitsLonestar while playing Deadlight - https://clips.twitch.tv/SarcasticRacySrirachaTBCheesePull Я хо...
2 месяца, 2 недели назад samuel
61
голос
5
ответов
У меня есть следующая строка: a: 2: {s: 4: "user"; b: 1; s: 6: "userid"; s: 2: "48";} Что мне нужно сделать, так это извлечь из него номер 48. Это число может иметь любое количество цифр. Как мне э...
2 месяца, 2 недели назад GTCrais
129
голосов
2
ответа
Я хочу получить NN или NNS из образца текста, как указано в приведенном ниже скрипте. С этой целью, когда я использую код ниже, вывод: types synchronization phase synchronization -RSB- synchronizat...
2 месяца, 2 недели назад mlee_jordan
97
голосов
1
ответ
В настоящее время я работаю над проектом, где мне нужно разместить цифровую подпись (файл.JPG) в файле PDF под строкой "Комментарии". Я хочу, чтобы найти координаты или местоположение как-то из Str...
2 месяца, 2 недели назад Nick L
62
голоса
1
ответ
Как извлечь текст из файла .tex с помощью Apache Tika? Пример файла находится в http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika может правильно определить тип контента как application/x-tex...
2 месяца, 2 недели назад nikhil500
62
голоса
2
ответа
Я пытаюсь извлечь числовую строку из текста, используя python - пример: "大田 区 大 森 北 3-24-27 ル ミ エ ー ル N103" Я хочу только "3-24-27" из столбца в df. Я попробовал это, но ошибка говорит о недопустим...
2 месяца, 2 недели назад kIRTI
62
голоса
2
ответа
У меня есть текстовый файл, который имеет такие данные, как Tweet_id:"123456789", "text":"What an episode", "truncated":"false",Tweet_id:"12345678910", "text":My number is fascinating", "truncated"...
2 месяца, 2 недели назад Karan Jain
106
голосов
1
ответ
У меня есть большой набор данных, посвященный ценам и информации на фондовом рынке. Поскольку данные не готовы для конечной аналитики, я сейчас на стадии очистки данных, чтобы сделать ее готовой к ...
2 месяца, 2 недели назад A_Kaushal
61
голос
3
ответа
Я пытаюсь написать программу, которая ищет, если список слов содержится в текстовом файле. Я думал об использовании перекрестка двух наборов для этого. Мне интересно, есть ли другой эффективный спо...
2 месяца, 2 недели назад Ebelechukwu Nwafor
99
голосов
3
ответа
В Groovy, как я могу захватить веб-страницу и удалить теги HTML и т.д., оставив только текст документа? Я бы хотел, чтобы результаты были сброшены в коллекцию, поэтому я могу построить счетчик част...
2 месяца, 2 недели назад user4910881
114
голосов
1
ответ
Я использую PDFBox для извлечения текста из моего документа PDF. Он извлекает текст, но не все (в частности, кажется, что тексты заголовков, заголовков и нижних колонтитулов отсутствуют). Части, ко...
2 месяца, 2 недели назад Lovro Gregorčič
62
голоса
3
ответа
Мне нужно сравнить части адреса. Я разбиваю адресную строку на более мелкие части, такие как номер дома, направление улицы, название улицы, номер единицы, тип улицы. У меня большая часть готовых де...
2 месяца, 2 недели назад erasmo carlos
-6
голосов
1
ответ
Я хочу написать регулярное выражение, которое вернет первое вхождение шаблона, который может иметь переменную длину, для ex 1J-AB-AO08-F-15 ==> AB 1P-ABCD-AO08-F-15 ==> ABCD 1L-KK-KKK-F-1000 ...
2 месяца, 2 недели назад user67339
96
голосов
1
ответ
Мой вопрос связан с использованием HTMLParser, но с небольшим количеством hast-кода. У меня есть файл/веб-страница, содержащая несколько записей html/css, и где-то в числе строк я получаю эту часто...
2 месяца, 2 недели назад modzello86
62
голоса
1
ответ
Я пытаюсь извлечь часть текста внутри Html-страницы, которая полна запутывающих тегов. Я постараюсь лучше объяснить свою проблему: Вот исходный файл html-страницы HTML SOURCE IMAGE Это то, что мне ...
2 месяца, 3 недели назад Claudio Martini
169
голосов
2
ответа
Я уже задал аналогичный вопрос ранее, но я не заметил, что у меня большой предел: я работаю над небольшими текстовыми наборами, такими как пользовательские твиты для создания тегов ( ключевые слова...
2 месяца, 3 недели назад Hellnar
75
голосов
5
ответов
Я пытаюсь написать программу, которая может заменить стихи Библии в документе с любым желаемым переводом. Это полезно для более старых книг, в которых содержится много стихов, упомянутых в KJV. Сам...
2 месяца, 3 недели назад ktconrad90
97
голосов
1
ответ
Я хочу создать инструмент для извлечения PDF-текста, имеющий аналогичные функции для этого приложения (A-PDF Data Extractor) http://www.a-pdf.com/data-extractor/index.htm Я планирую сделать это в С...
2 месяца, 3 недели назад yohan.jayarathna
194
голоса
3
ответа
Есть ли возможность извлечь простой текст из PDF файла с помощью PdfSharp? Я не хочу использовать iTextSharp из-за его лицензии. Спасибо за ваши ответы. EDIT: Я знаю, что это возможно. Но как мне э...
2 месяца, 3 недели назад der_chirurg
106
голосов
4
ответа
Строки могут быть следующими: 1cd9f3e7d...7b486fef4 lineage-15.1-caf-8952 -> github/lineage-15.1-caf-8952 (forced update) 8648766e0..6e7faf655 lineage-15.1-caf-8952 -> github/lineage-15.1-caf...
2 месяца, 3 недели назад user1209216
97
голосов
4
ответа
У меня есть этот пример: > exemplo V1 V2 local::/raiz/diretorio/adminadmin/ 1 local::/raiz/diretorio/jatai_p_user/ 2 local::/raiz/diretorio/adminteste/ 3 local::/raiz/diretorio/adminteste2/ 4 lo...
2 месяца, 3 недели назад quelopes
-4
голоса
2
ответа
У меня два NSStrings, и я хотел бы найти слова, которые являются общими для обоих, как базовая форма выделения термина... Любые идеи, как это сделать? Рой
2 месяца, 4 недели назад Roy Marmelstein
62
голоса
2
ответа
У меня есть файл, из которого я хочу извлечь даты, это исходный HTML файл, чтобы он был наполнен кодами и фразами, которые мне не нужны. Мне нужно извлечь каждый экземпляр даты, завернутый в опреде...
2 месяца, 4 недели назад user1023420
97
голосов
1
ответ
Я использую tessract api для извлечения текста из изображений. У меня большой размер изображения с разрешением 6264x65985. Это дает мне ошибку для большого разрешения. Любые идеи/предложения? T
2 месяца, 4 недели назад Karthick vadivel
105
голосов
1
ответ
Я хочу извлечь текст из pdf в UiPath и сохранить его в excel или текстовом файле, чтобы сделать текст редактируемым, но я нахожу эти проблемы, если кто-то может мне помочь: 1- Когда я использую акт...
2 месяца, 4 недели назад Anfal Abdulaziz
62
голоса
1
ответ
Есть ли общий способ (Macro, XML Parser,...) для извлечения всех сносок в файле MS Word, а также сохранить соответствующий номер из исходного текста?
2 месяца, 4 недели назад powtac
76
голосов
1
ответ
Моя задача - извлечь текст из.pdf файла и записать его в файл Excel без потери форматирования текста. В этот момент мне удалось извлечь текст словом с шрифтом, размером и координатами в массив из д...
2 месяца, 4 недели назад nayomi
75
голосов
2
ответа
Я использую PDFBox для извлечения текста из PDF. PDF имеет табличную структуру, которая довольно проста, и столбцы также очень широко отстоят друг от друга. Это работает очень хорошо, за исключение...
2 месяца, 4 недели назад Thilo
231
голос
9
ответов
Я пытался извлечь текст (строку) из MS Word (.doc,.docx), Excel и Powerpoint с помощью С#. Где я могу найти бесплатную и простую библиотеку .Net для чтения документов MS Office? Я пытался использов...
2 месяца, 4 недели назад Elias Haileselassie
61
голос
1
ответ
У меня есть файл, который содержит n число запросов таблицы CREATE, я хочу, чтобы некоторые конкретные таблицы создавали запрос таблицы в unix. Для примера в нижнем файле я просто хочу, чтобы извле...
2 месяца, 4 недели назад Mehul
76
голосов
2
ответа
У меня есть выражение, и я хочу извлечь его в python 2.6. Вот пример: [a]+[c]*0.6/[b]-([a]-[f]*0.9) это будет: ( '[a]', '+', '[c]', '*', '0.6', '/', '[b]', '-', '(', '[a]', '-', '[f]', '*', '0.9', ...
3 месяца назад Zeck
62
голоса
2
ответа
Я хочу загрузить и преобразовать PDF файлы в обычный текст, используя itextpdf.5.4.1. Для большинства из них мой код работает, но для одного из них я столкнулся с ошибкой ниже, когда пытаюсь прочит...
3 месяца назад mlee_jordan
75
голосов
2
ответа
Вот пример ввода: <div><a class="document-subtitle category" href="/store/apps/category/GAME_ADVENTURE"> <span itemprop="genre">Adventure</span> </a> </div> <...
3 месяца назад Mido
114
голосов
1
ответ
Я использую этот код для извлечения текста из базы данных, и он хорошо работает, но он разбивает все теги HTML. $this->data['getshorty'] = utf8_substr(strip_tags(html_entity_decode($product_info...
3 месяца назад Stefan
122
голоса
4
ответа
У меня есть текстовые файлы с повторяющимися точными строками текста, но я хочу только один из них. Представьте себе этот текстовый файл: AAAAA AAAAA AAAAA BB BBBBB BBBBB CCC CCC CCC Мне нужны толь...
3 месяца назад Agos FS
-6
голосов
3
ответа
Я новичок в программировании на Java, и хочу сделать программу, которая выведет некоторые значения из файла. Я хочу импортировать список массивов из файла, который содержит большой набор повторяющи...
3 месяца назад Ivn Bubrov
87
голосов
1
ответ
Я использую MS Document Document Imaging [MODI] для анализа текста из формата jpeg. Мне нужно знать, имеет ли кто-нибудь возможность набросать ограничение способности MODI читать текст с изображений?
3 месяца назад Pratik
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема