Семантический анализ текста: определение тематики

Разработка скрипта, определяющего точную тематику текста, в результате свелась к аксиоме: «Первый блин комом». В процессе работы мы осознали, что Yandex каталог не сможет послужить источником для сбора словоформ, определяющих тематику.

Изначальный план действий:

  1. Собираем данные о категориях Yandex каталога;
  2. Получаем список сайтов, по категориям;
  3. Убираем все сайты на flash и англоязычные сайты;
  4. Оставшиеся сайты парсим с учетом фильтров по стоп-словам и т.д.;
  5. Определяем словоформы для полученных слов;
  6. Записываем получившиеся словоформы в соответствующие категории с учетом веса слова.

Обработали 96000 сайтов и собрали порядка 4 млн. словоформ!

Собственно, это и был план сбора терминов, определяющих принадлежность к той или иной тематике.

На практике, а точнее в процессе проверки работоспособности этого скрипта результат был не тот, который я ожидал!

Проблема заключалась в том, что сайты, размещенные в Yandex каталоге, а точнее их содержание, не всегда определяет тематику категории, в которой он размещен.

Логика работы сервиса, а точнее процесс его обучения был полностью изменен, и в ближайшее время Вы сможете проверить его в действии.

      
  
  1. Тематику сайта думаю примерно на 80% можно определить используя только главную страницу, также можно спарсить description и keywords, заголовок тоже думаю можно использовать

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *