Бакиев Б.2023-04-072023-04-072014СРАВНЕНИЕ ФУНКЦИЙ ДЛЯ ИЗМЕРЕНИЯ СХОДСТВА МЕЖДУ ТЕКСТОВЫМИ ДОКУМЕНТАМИ, Бакиев Б.,старший преподаватель, 2014https://repository.sdu.edu.kz/handle/123456789/389Идея измерения сходства текстовых документов получила широкий резонанс в ряде направлений, в частности, в секторе «разработка и извлечение данных». Преобразовать данные в числовые векторы – скрупулезный труд, поскольку мы используем и разметки слов, и фильтрацию стоп-слов, и превращения в корневые слова, а окончательным звеном является расчет по функции TF-IDF. На сегодняшний день существуют результаты исследований многих идей по измерению сходства, но большей популярностью пользуются Джакарт, Косинус, Дайс, Овэрлап. Цель работы: сравнить все известные нам функции для поиска дополнительного сходства текстовых документов. В заключение анализа, на основе полученных результатов выведем градацию и ранжирование аналогий.измерения сходства текстовых документовисследования Джакарт, Косинус, Дайс, ОвэрлапСРАВНЕНИЕ ФУНКЦИЙ ДЛЯ ИЗМЕРЕНИЯ СХОДСТВА МЕЖДУ ТЕКСТОВЫМИ ДОКУМЕНТАМИArticle