Обнаружение ориентации таблицы HTML, основанной только на данных таблицы

80
9

Учитывая таблицу HTML, где ни одна из них не идентифицируется как ячейки "<th>" или "header", я хочу автоматически определить, является ли таблица "вертикальной" или "горизонтальной".

Например: это горизонтальная таблица:

enter image description here

и это вертикальная таблица:

enter image description here

конечно, помните, что свойство "Bold" вместе с затенением и любыми свойствами стиля не будет доступно во время классификации.

Я думал о том, чтобы подойти к этому статистическим способом, я могу написать пару таких функций, как "если в первой строке есть числа, но в первом столбце нет. Это, вероятно, таблица по вертикали" и дать оценку для каждой функции и объединить определите класс ориентации таблицы.

Так вы подходите к такой проблеме? Я раньше не использовал статистический алгоритм, и я не уверен, что было бы оптимальным для такой проблемы

спросил(а) 2013-01-01T17:19:00+04:00 8 лет, 9 месяцев назад
1
Решение
65

Это немного запутанный вопрос. Вы спрашиваете о методе ML, но, похоже, вы еще не создали учебные/перекрестные проверки/тестовые наборы. Без этапа предварительной обработки данных любое обсуждение метода ML бесполезно.

Если я прав, и вы еще не создали наборы данных - дайте нам больше информации о данных (если вы посмотрите на один пример, как вы знаете, что таблица вертикальная или горизонтальная?), Сколько у вас данных, вы всегда уверен, что таблица s вертикальная/горизонтальная,...)

Если вы уже создали обучающие/кроссвальные/тестовые наборы, дайте нам более подробную информацию о том, как выглядит учебный комплект (каковы функции, количество примеров, вам нужно белое окно (вы можете понять, почему модель ML дает вам этот результат),...)

ответил(а) 2013-01-01T18:28:00+04:00 8 лет, 9 месяцев назад
46

Как общий домен для таблиц? Я знаю, что некоторые алгоритмы идентификации схемы веб-таблицы используют типы, свойства и данные экземпляра из общей схемы знаний, например Freebase, для попытки идентифицировать свойство, связанное с столбцом. Вы можете попытаться использовать эти знания в классификаторе.

Если вы хотите сделать это без какой-либо внешней информации, вам понадобится куча ручных обозначенных горизонтальных и вертикальных примеров.


Вы говорите "конечно", что информация о шрифте недоступна, но я бы не стал так быстро увольнять ее, поскольку это потенциально источник очень полезной информации. Вы уверены, что не сможете получить данные немного позже в конвейере, чтобы вы могли получить доступ к этой информации?

ответил(а) 2013-01-02T16:15:00+04:00 8 лет, 9 месяцев назад
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема