Вы сейчас здесь
«Облако» тэгов
link, small, tagless, tiny, 2003, big, 2008, 2010, январь, декабрь, сентябрь, 2001, 2004, 2002, август, апрель, март, июль, 2009, игры, октябрь, май, июнь, февраль, 2007, ноябрь, img, 2011, quote, wow, huge, блоги, кино, игровой дизайн, ребенок, половой вопрос, технологии, вебдев, lytdybr, фразы, живой журнал, жизнь, язык, яндекс, php, 2006, людишки, 2005, поисковики, software, video, inglish, 2000, смишно, диалоги, музыка, книги, культ личности, дейтинг, политика, интернет, 1999, rss, контент, flash, я, авторские проекты, реклама, прон, next-gen mmo, ореховые скорлупки, сми, js, программирование, fight club, register, социгры, спам, english reviews, американас, потребление, беллетристика, идеи, мое величие, iphone, usability, пидорасты, battle.net, lifestyle, starcraft 2, Тёма, соционика, spectator.ru, британские ученые, развитие, Масква, бабло, литература, фото, mobile, work, болкман, титаны, hard, hobius, mysql, интеллектуальный юмор, хостинг, blogowar.ru, графика, SEO, blogowar, magic, журналистика, злоба дня, религия, стартапы, social, tf2, цитаты, gzip, warhammer, браузеры, велосипед, киви, медикаментоз, общество, оговорки, html, воспитание, мифы, паранойа, письма в редакцию, учеба, 1998, soft, soviet, twdnkumus, глянцевые журналы, монетизация, норкотики, сайты, сиськи, типографика, тьюринг, mongodb, дизайн, железо, живут же люди, лолвут, плагиат, твиттер, тренд, 2012, about, бабушки, вещи, видео, зомбоящик, игрушки, социопатия,
Персональное
об авторе и сайте
мойкруг (резюме)
на G+
порнотумблер (rss)
инстаграм (хипстерские фото)

facebook
twitter

skype: acerbial
gtalk: dmitry.smirnov


C любовью к людишкам™,
♥ 1998 - 2013.

powered by mongodb.



Полуавтоматическое добавление тэгов

Полуавтоматическое добавление тэгов сделать можно. Но, конечно, совсем не так, как предлагает автор — по частоте. Например, слово тэги будет не самым частым в этом посте.

Там же в комментах умники заговорили про иерархию: «Одно из решений (не дающее 100% резульата). Создание каких-либо зависимостей или даже иерархии. Например для тегов водка, бухать, нажраться и пр. родительским тегом будет „пьянка“. Однако это здорово усложняет систему и, как уже упомянул, сто процентного результата все равно не дает (плюс неясно как заполнять эти связи)».

Совершенно понятно, кстати, как связи заполнять.

Системе это, однако, не очень поможет. Ну а правильная расставлялка тэгов делается так: берем несколько корпусов текстов, проставляем им тэги вручную. После чего натравливаем на это байесовский фильтр, который обучается N раз, где N — количество тэгов.

То есть по аналогии с «это спам? Да/нет» — для чего байесовский фильтр часто и используется — обучаем его «это про кошечек? Да/нет».

Ну и надо помнить, что новые тэги такая система проставлять не будет, что хорошо. Ибо зачем нам тэг «Байес», например, этому посту? Нафиг не нужен до тех пор, пока это единственный пост с таким тэгом.

Да и вообще — тэги сосут.

3 года назад
2
Билейтер
Зачем писать байесовский фильтр, если за 300 долларов нв месяц можно нанять студента, который сделает все то же самое, только лучше?
> После чего натравливаем на это байесовский фильтр, который обучается N раз, где N — количество тэгов.

А, хуйня какая, так, между делом натравили, ага.
На питоне реализацию нативного байеса видел. Но там чтобы её запустить надо с бубном танцевать неделю, прыгая на одной ноге.

> Зачем писать байесовский фильтр, если за 300 долларов нв месяц можно нанять студента, который сделает все то же самое, только лучше?

Речь о таких объёмах информации, при которых студентов надо роту.

Привет, Anonymous! Чтобы оставлять комментарии, надо авторизоваться.