СРАВНЕНИЕ ФУНКЦИЙ ДЛЯ ИЗМЕРЕНИЯ СХОДСТВА МЕЖДУ ТЕКСТОВЫМИ ДОКУМЕНТАМИ
Loading...
Date
2014
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Suleyman Demirel University
Abstract
Идея измерения сходства текстовых документов получила широкий резонанс в ряде направлений, в частности, в секторе «разработка и извлечение данных». Преобразовать данные в числовые векторы – скрупулезный труд, поскольку мы используем и разметки слов, и фильтрацию стоп-слов, и превращения в корневые слова, а окончательным звеном является расчет по функции TF-IDF. На сегодняшний день существуют результаты исследований многих идей по измерению сходства, но большей популярностью пользуются Джакарт, Косинус, Дайс, Овэрлап. Цель работы: сравнить все известные нам функции для поиска дополнительного сходства текстовых документов. В заключение анализа, на основе полученных результатов выведем градацию и ранжирование аналогий.
Description
Keywords
измерения сходства текстовых документов, исследования Джакарт, Косинус, Дайс, Овэрлап
Citation
СРАВНЕНИЕ ФУНКЦИЙ ДЛЯ ИЗМЕРЕНИЯ СХОДСТВА МЕЖДУ ТЕКСТОВЫМИ ДОКУМЕНТАМИ, Бакиев Б.,старший преподаватель, 2014