Text-Processing – вопросы и ответы

80
голосов
1
ответ
У меня есть большая коллекция человеческого контента. Я хочу найти слова или фразы, которые происходят чаще всего. Каков эффективный способ сделать это?
23 часа назад Ryan
87
голосов
1
ответ
пользователь будет предоставлять 2 строки во время выполнения, такие как "asdf" "qwer", теперь каждое появление "а" должно быть заменено на "q", "s" на "w", "d" на "e" и "f" на "r", длина строки мо...
1 день, 4 часа назад Karan
51
голос
1
ответ
Я обрабатываю большой текстовый файл (120 МБ) из моего каталога imap thunderbird и пытаюсь извлечь из него информацию из заголовков, используя mbox и regex. процесс выполняется некоторое время, пок...
1 день, 4 часа назад spatialaustin
72
голоса
1
ответ
main_text - список списков, содержащих предложения, которые были отмечены темой: main_text = [[('the', 'DT'), ('mad', 'JJ'), ('hatter', 'NN'), ('likes','VB'), ('tea','NN'), ('and','CC'), ('hats', '...
1 день, 4 часа назад Renklauf
62
голоса
1
ответ
Примечание. Возможный дубликат относится к более старой версии Python, и этот вопрос уже дал уникальные ответы. Я работаю над сценарием для обработки текстов текстов
1 день, 5 часов назад malan
79
голосов
1
ответ
У меня есть таблица snp150Common.txt , где второе и третье поля $2 and $3 могут быть равны или нет. Если они равны, я хочу, чтобы $2 стал $2-1 , так что: chr1 10177 10177 rs367896724 - - -/C insert...
1 день, 6 часов назад gaelgarcia
80
голосов
1
ответ
Я хотел бы прочитать в возможно большом текстовом файле и фильтровать соответствующие строки "на лету" на основе регулярного выражения. Мой первый подход заключался в использовании пакета LaF котор...
1 день, 23 часа назад Karsten W.
73
голоса
1
ответ
Я извлекаю раздел из файла и хочу заменить строку в другом файле на эти многострочные данные. В настоящее время я выводя в файл, но предпочитаю использовать переменную. Например R 0x00007d04 0x7004...
2 дня, 1 час назад gsmith
51
голос
1
ответ
Я хочу напечатать главу файла до матча и несколько строк после матча. Я знаю, что вы можете использовать sed '/PATTERN/q' FILE для печати файла до шаблона. И sed 10q FILE top печатает первые 10 стр...
2 дня, 3 часа назад jml
-4
голоса
1
ответ
public class DataMiner { private static BigData app = new BigData(); private static DomainOfConstants doc = new DomainOfConstants(); private static Logger log = Logger.getLogger(DataMiner.class); p...
2 дня, 6 часов назад John Hanewich
72
голоса
1
ответ
Я работаю над пакетом, который посвящен цитатам, и большинство из них имеют форму Author, Year, Journal, Volume, Page, DOI Итак, строка с серией полей разделяется запятыми. К сожалению, некоторые (...
2 дня, 7 часов назад Reid McIlroy-Young
95
голосов
1
ответ
У меня много текстовых файлов, содержащих аннотации. Исходный текст отмечен строками, содержащими слова: START OF TEXT OF PASSAGE 1 END OF TEXT OF PASSAGE 1 Очевидно, что я могу искать каждый докум...
2 дня, 7 часов назад aquagremlin
51
голос
1
ответ
Я хочу напечатать все строки заголовка файла: perl -wnl -e "/^#/ and print" file.vcf Однако это works-, я хочу выйти после того, как я закончил с заголовком. Что не так с perl -wnl -e "/^#/ and pri...
2 дня, 8 часов назад The Unfun Cat
106
голосов
1
ответ
У меня есть файл вроде этого: my line - some words & text oh lóok i've got some characters Я хочу "нормализовать" его и удалить все символы, отличные от слов. Я хочу получить что-то вроде этого...
3 дня, 7 часов назад Rory
50
голосов
1
ответ
Я хочу извлечь важные ключевые слова из набора текстовых фрагментов, которые на самом деле являются текстовыми сообщениями, полученными после любой транзакции. Ниже приведен пример набора данных: {...
3 дня, 8 часов назад Rahul
51
голос
1
ответ
Предполагая File.txt, как показано ниже: A1 B C D E F C H C J A2 F B D J C F T Y U I B C N J Y Мне нужно проверить строки, начинающиеся с шаблона "^ A", а затем искать элементы после этого (от $ 2 ...
3 дня, 9 часов назад user3684042
51
голос
1
ответ
В r существует data frame ( df ), как df ниже, который имеет строку ID из 10 символов. df: ID Var1 Var2 1 0334KLM001 aa xx 2 1334HDM002 zvv rr 3 2334WEM003 qetr qwe 4 3334OKT004 ff sdf 5 4334WER005...
4 дня, 1 час назад Daniel
81
голос
1
ответ
Я разрабатываю приложение, в котором мне нужно обработать текстовые файлы, содержащие электронные письма. Мне нужны все токены из текста, а ниже - определение токена: алфавитно-цифровой С учетом ре...
4 дня, 1 час назад kunal18
62
голоса
1
ответ
Я пытаюсь написать сценарий для чтения из текстового файла и преобразовать его в XML на основе формата JUnit. Вывод текстового файла похож на следующий: TEST TITLE GROUP PRIO R-STAT R-TIME VERDICT ...
4 дня, 4 часа назад nguyen thanh
93
голоса
1
ответ
У меня есть данные с большим корпусом в dataframe res (dataframe) text.1 1
4 дня, 4 часа назад KRU
80
голосов
1
ответ
Я хочу чередовать строки файла A.txt с строками файла B.txt таким образом, чтобы после каждых n строк A.txt появлялись строки m B.txt. В качестве примера, если A.txt похож: 1 2 3 4 и B.txt: a b c d...
4 дня, 5 часов назад user3684042
64
голоса
1
ответ
У меня есть простая программа, которая обрабатывает некоторые строки в текстовом файле (добавляет к ним некоторый текст). Но затем он сохраняет их в другой файл. Теперь я хотел бы знать, можно ли у...
4 дня, 6 часов назад Uber
81
голос
1
ответ
Для ввода строк нам нужно создать очень простую форму сводки, обрезая конец строк на заданную длину. Вот первая функция версии: // Take an array of strings and generate a summary within a given len...
4 дня, 7 часов назад zaf
81
голос
1
ответ
У меня есть вход в этом формате: Текст №1:12.3456 °, текст №2: 78.9012 °. Я хочу заменить это на PHP: GPS: 12.3456,78.9012: Текст №1:12.3456 °, текст №2: 78.9012 °. Итак, опять же, ввод в большом т...
4 дня, 8 часов назад Fallen Angel
63
голоса
1
ответ
Я все еще работаю с этим огромным списком URL-адресов, вся помощь, которую я получил, была отличной. На данный момент у меня есть список, похожий на этот (17000 URL-адресов): http://www.domain.com/...
4 дня, 9 часов назад RailsSon
89
голосов
1
ответ
У меня есть два файла: file1 имеет формат: field1;field2;field3;field4 (файл1 изначально не сортирован) file2 имеет формат: field1 (файл2 отсортирован) Я запускаю две следующие команды: sort -t\; -...
4 дня, 9 часов назад Razvan
106
голосов
1
ответ
Я пытаюсь использовать awk для сопоставления двух файлов (file1 и file2). Для каждой строки столбца в file2, которая соответствует file1, я бы хотел, чтобы команда выводила второй столбец в file1. ...
4 дня, 9 часов назад Cronzo
62
голоса
1
ответ
У меня есть немного проблем, пытаясь очистить текст. Я получаю текст ввода, который хотел бы удалить все символы пробела без пробела, удалить периоды, запятые и т.д., Но не разделить слова, подобны...
5 дней, 1 час назад user1610950
63
голоса
1
ответ
Я бы хотел написать синтаксический анализ script в Perl, который печатает все "имя интерфейса" из этой группы данных: interfaces.ifTable.ifEntry.ifDescr.1 : OCTET STRING- (ascii): (hex): length = 3...
5 дней, 2 часа назад donie
62
голоса
1
ответ
У меня есть список, например: input.txt foo.bar.1 foo.bar.2 foo.bar.3.x.y.z foo.bar.10 foo.bar.0 baz.10.qux baz.3.qux которые нужно было отсортировать. Мне нужно рассматривать это как разделенную т...
5 дней, 4 часа назад Chen Levy
82
голоса
1
ответ
Я заинтересован в создании кластеризации документов, и сейчас я рассматриваю возможность использования TF-IDF для этого. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности до...
5 дней, 5 часов назад alskndalsnd
63
голоса
1
ответ
Мы имеем большое количество (считанных: 50 000) относительно небольших (считанных под 500K, обычно менее 50K) файлов журнала, созданных с использованием log4net из нашего клиентского приложения. Ти...
5 дней, 5 часов назад Bob King
101
голос
1
ответ
У меня есть файл с именем a.txt, который выглядит так: Я первая строка Я второй. Здесь может быть больше строк. Я ниже пустой строки. Я линия. Здесь больше строк. Теперь я хочу удалить содержимое н...
5 дней, 6 часов назад wong2
126
голосов
1
ответ
Следующие команды выводят следующие строки текста на консоли git log --pretty=format:"%h;%ai;%s" --shortstat ed6e0ab;2014-01-07 16:32:39 +0530;Foo 3 files changed, 14 insertions(+), 13 deletions(-)...
6 дней, 2 часа назад Ankush
95
голосов
1
ответ
Я импортирую данные из CSV с разделителями каналов в MySQL, используя инструкцию LOAD DATA INFILE. Я завершаю строки, используя '\ r\n'. Моя проблема в том, что некоторые данные в каждой строке име...
6 дней, 6 часов назад Gavi
80
голосов
1
ответ
У меня есть трюк из твиттов. Я очищаю этот корпус (removeWords, tolower, удаляет URls) и, наконец, также хочу удалить пунктуацию. Вот мой код: tweetCorpus <- tm_map(tweetCorpus, removePunctuatio...
1 неделя назад feder80
51
голос
1
ответ
Не уверен, что это подходящее место, друг сказал мне пойти сюда. Я хочу сделать ИИ, который принимает текст во время обучения, а затем дает новый текст, основанный на том, что пользователь "опробов...
1 неделя назад user9058681
87
голосов
1
ответ
У меня есть текст, и я хотел бы извлечь наиболее повторяющиеся термины, даже если они составлены более чем одним словом (например: управляющий директор, должность, зарплата, веб-разработчик). Мне п...
1 неделя, 1 день назад Daniele
51
голос
1
ответ
Я пытаюсь объединить два файла csv в один файл следующим образом. Первый файл: содержит все данные. второй файл: обновленные данные. поэтому полученный файл должен содержать все данные со строкой, ...
1 неделя, 1 день назад Mohammad Salman
-6
голосов
1
ответ
У меня есть текстовый файл, выглядящий примерно так: >>>aaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaa >>>aaaaaaaaaaaaaaaaaaaaaaa >>>aaaaaa...
1 неделя, 1 день назад brtk
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема