СРАВНЕНИЕ ФУНКЦИЙ ДЛЯ ИЗМЕРЕНИЯ СХОДСТВА МЕЖДУ ТЕКСТОВЫМИ ДОКУМЕНТАМИ

Loading...
Thumbnail Image

Date

2014

Journal Title

Journal ISSN

Volume Title

Publisher

Suleyman Demirel University

Abstract

Идея измерения сходства текстовых документов получила широкий резонанс в ряде направлений, в частности, в секторе «разработка и извлечение данных». Преобразовать данные в числовые векторы – скрупулезный труд, поскольку мы используем и разметки слов, и фильтрацию стоп-слов, и превращения в корневые слова, а окончательным звеном является расчет по функции TF-IDF. На сегодняшний день существуют результаты исследований многих идей по измерению сходства, но большей популярностью пользуются Джакарт, Косинус, Дайс, Овэрлап. Цель работы: сравнить все известные нам функции для поиска дополнительного сходства текстовых документов. В заключение анализа, на основе полученных результатов выведем градацию и ранжирование аналогий.

Description

Keywords

измерения сходства текстовых документов, исследования Джакарт, Косинус, Дайс, Овэрлап

Citation

СРАВНЕНИЕ ФУНКЦИЙ ДЛЯ ИЗМЕРЕНИЯ СХОДСТВА МЕЖДУ ТЕКСТОВЫМИ ДОКУМЕНТАМИ, Бакиев Б.,старший преподаватель, 2014