Лучший метод машинного обучения для определения категорий по названию

-4

Каков наилучший метод ML, который позволяет классифицировать очень специфическое подмножество названий листинга Craigslist (т.е. результаты поиска в спортивной категории с запросом "backpacking") в пользовательские категории?

Пользовательские категории:

    Палатки Гамаки Спальные мешки Спящие колодки Рюкзаки приготовление еды Фильтрация воды Одежда Другой

В настоящее время у меня есть CSV с 2000 названиями, и я вручную предоставил подходящую категорию примерно для 200. Вот пример для каждого:

title,category
Eureka Timberline 4 backpacking tent,Tent
Brio Bridge Hammock for Camping,Hammock
Maxfli 2.5 Ultralight Stand Bag,Sleeping Bags
Fox Outfitters sleeping pad,Sleeping Pads
70L backpacking pack,Backpacks
MSR style backpacking stove 90grams,Cooking
PUR Scout Water Purifier,Water Filtration
DCU/Night Camo Goretex Parkas,Clothing
Thermarest Trekker Chair 20,Other

Я смог выполнить сопоставленное ключевое слово, которое было довольно точным. Хотелось бы сделать это с помощью решения ML.

Является ли это хорошим примером классифицированной текстовой классификации ML? Будет ли пакет NLTK подходящей моделью? Любые другие предлагаемые подходы python?

спросил(а) 2018-08-22T12:59:00+03:00 2 года, 2 месяца назад
0
70

Spacy действительно прост в использовании, но может потребоваться немного времени для установки. Следуйте инструкциям на spacy.io, а затем тренируйтесь над своими данными. Его простой в использовании, если вы пользователь python.

ответил(а) 2018-08-22T13:13:00+03:00 2 года, 2 месяца назад
57

Это хороший случай для классификации. К сожалению, лучшего алгоритма нет. Различные алгоритмы работают лучше по разным проблемам. Тем не менее, однако, для вашего случая, общий подход заключается в использовании наивного классификатора заливов. Его относительно легко реализовать самостоятельно (если вы хотите, чтобы вы его не нашли, и он работает). Вы также можете посмотреть на sklearn, который содержит некоторые примеры


http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

ответил(а) 2018-08-22T13:06:00+03:00 2 года, 2 месяца назад
Ваш ответ
Введите минимум 50 символов
Чтобы , пожалуйста,
Выберите тему жалобы:

Другая проблема