Show simple item record

ПРИМЕНЕНИЕ МЕТОДОВ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ ОПРЕДЕЛЕНИЯ СИМПТОМОВ МЕНТАЛЬНОГО ЗАБОЛЕВАНИЯ;
ЗАСТОСУВАННЯ МЕТОДІВ ОБРОБКИ ПРИРОДНОЇ МОВИ ДЛЯ ВИЯВЛЕННЯ СИМПТОМІВ МЕНТАЛЬНОГО ЗАХВОРЮВАННЯ

dc.creatorПогорілий, С. Д.
dc.creatorКрамов, А. А.
dc.date2020-06-22
dc.date.accessioned2021-01-03T10:27:41Z
dc.date.available2021-01-03T10:27:41Z
dc.identifierhttps://ojs.tdmu.edu.ua/index.php/here/article/view/11125
dc.identifier10.11603/mie.1996-1960.2020.1.11125
dc.identifier.urihttps://repository.tdmu.edu.ua//handle/123456789/17012
dc.descriptionBackground. The process of the detection of the symptoms of mental illness is a complicated task that requires the appropriate level of the qualification of a specialist to solve it. One part of the diagnostics of such diseases is the analysis of the patient's speech. Alogia (the poverty of speech), the lack of the persistent focus on a topic, incoherent speech, permanent usage of metaphors can indicate the availability of appropriate symptoms. Thus, it is necessary to apply the different automated methods of the estimation of the patient's speech in order to detect some deviations from defined statistical data. Such methods fall into the category of natural language processing. Taking into account the lack of unified structure, the availability of ambiguous terms, the tasks of natural language processing cannot be solved with the usage of defined algorithms. Search for regularities and the detection of the connection between the text's elements are performed using the methods of machine learning: regression models, decision trees, deep learning (multilayer neural networks). Thus, it is advisable to consider state-of-the-art methods, based on different methods of machine learning, to detect the symptoms of mental illness by analyzing the patient's speech. The purpose of the work is the following: to perform the comparative analysis of different state-of-the-art methods of the detection of the symptoms of mental illness based on the methods of natural language processing; to make the experimental examination of the effectiveness of the proposed method based on the analysis of the connectivity of the text's elements. Materials and methods. Results. According to the analysis of state-of-the-art methods, the semantic coherence is the main feature of a text to predict mental illness. Two different models based on the estimation of semantic coherence are considered: tangentiality model and incoherence model. The main idea of the tangentiality model consists in the detection of the persistent deviation of the topic of an answer from a question. A text is divided into windows — sets of words with a fixed length. Each window and question are represented as vectors using a pre-trained semantic embedding model — LSA. The similarity between a window and the question is calculated as the cosine distance between corresponding vectors. Using the set of calculated distances, linear regression is built. The steeper slope of a line indicates the deviation of the thoughts of a speaker from the whole topic of a conversation. In comparison to the tangentiality model, the incoherence model processes a text at the level of sentences. All sentences are represented as the average vector interpretation of its words; each word is represented as a vector using a pre-trained semantic embedding model. Then three different features are calculated to form a feature vector: minimum first-order coherence (minimum similarity between two sentences that is estimated as a cosine distance between corresponding vectors), maximum sentence length, and the frequency of the usage of additional uninformative words. This dataset is used to build a convex hull classifier that divides interviews of healthy and ill people. The key disadvantage of both mentioned models is the neglect of the repeats of phrases within a text. Moreover, such repeats can complicate the classification process. In order to solve it, the different combination of state-of-the-art semantic embedding models (Word2Vec, Sent2Vec, GloVe) with frequency algorithms (TF-IDF, SIF) can be used. The disadvantage of such an approach is the dependency on an additional corpus to calculate statistical data about the frequency of words' usage. As for the effectiveness of each model for different languages, it depends on the collected dataset and the unique features of a separate language. Except for the semantic coherence, other linguistic characteristics can be taken into account to form a feature vector: linguistic complexity, linguistic density, syntactic complexity. Each of these characteristics can be represented with the corresponding set of metrics. Moreover, the frequent usage of ambiguous pronouns may also be taken into account because it can indicate the disorganization of the thoughts of a speaker. The proposed method based on the graph of the consistency of phrases allows estimating the connectivity of a text — its cohesion. It takes into account the availability of coreferent objects and common terms within a text. The effectiveness of the suggested method was compared with other features of a text using pre-trained classification models. The results obtained can indicate that the proposed method may be used to calculate the connectivity feature for a model that predicts a mental illness. Conclusions. As the main criteria to distinguish the texts of healthy and ill persons, the semantic coherence is used. The estimation of the semantic coherence is performed in the following models: tangentiality model and incoherence model. It is advisable to perform the semantic representation of the text's elements (sentences for the incoherence model and windows for the tangentiailty model) using the combination of different semantic embedding models with statistical algorithms (TF-IDF, SIF) in order to take into account permanent repeats of phrases. As for the effectiveness of the mentioned models for different languages, it depends on the semantic embedding model and the properties of a certain language. In order to increase the accuracy of the classification model, other linguistic features should be taken into account: lexical density, lexical and syntactic complexity, connectivity. The method based on the graph of the consistency of phrases has been proposed to take into account the connectivity of a text. The experimental examination of the effectiveness of the proposed method in comparison with other features has been verified. The results obtained can indicate the expediency of the usage of the proposed method to increase the accuracy of a prediction model.en-US
dc.descriptionВ работе осуществлен сравнительный анализ методов обработки естественного языка для определения симптомов ментального заболевания. Показано, что современные методы, основанные на алгоритмах обработки естественного языка, в качестве основного критерия прогнозирования заболеваний (шизофрения, биполярное расстройство) используют оценку когерентности текста. Под когерентностью текста подразумевается тематическая целостность его элементов, наличие постоянного фокуса вокруг темы доклада или диалога. Одним из критериев наличия когерентности текста является семантическая взаимосвязь фрагментов текста (фраз и предложений). Рассмотрен принцип работы и эффективность моделей оценки семантической когерентности текста (модели тангенциальности и некогерентности) для классификации текстов здоровых и больных лиц. Проанализировано возможное решение этой проблемы с использованием комбинации различных моделей семантического представления элементов текста, рассмотрены его преимущества и недостатки. Обоснована целесообразность использования лингвистических характеристик текста пациента (лексическое разнообразие, лексическая плотность) для увеличения точности классификатора определения симптомов ментальных заболеваний и различий их типа. Рассмотрена возможность анализа частоты появления неоднозначных местоимений в тексте для увеличения точности классификации данных. Проанализированы особенности применения различных методов определения симптомов ментального заболевания для текстов на английском, немецком и русском языках. Предложена оценка связности текста на основе графа согласованности словосочетаний, осуществлена экспериментальная проверка эффективности предложенного подхода по сравнению с другими характеристиками текста.ru-RU
dc.descriptionЗдійснено порівняльний аналіз різних методів оброблення природної мови для виявлення симптомів ментального захворювання. Розглянуто принцип роботи та ефективність моделей оцінювання семантичної когерентності тексту (моделі тан-генційності та некогерентності) для класифікації текстів здорових і хворих осіб. У роботі зазначається залежність точності моделей некогерентності та тангенційності від моделі семантичного представлення фрагментів тексту; підкреслюється недолік використання такої моделі в зв'язку з відсутністю можливості враховувати регулярне повторення фраз. Проаналізовано переваги та недоліки застосування комбінації моделей семантичного представлення елементів тексту для врахування постійних повторів його фрагментів. Обґрунтовано доцільність застосування лінгвістичних характеристик тексту пацієнта для підвищення точності класифікаторів виявлення симптомів захворювань та розрізнення їх типу. Розглянуто можливість аналізу частоти появи неоднозначних займенників у тексті для підвищення точності класифікації даних. Проаналізовано особливості застосування різних методів виявлення симптомів ментального захворювання для текстів англійською, німецькою та російською мовами. Запропоновано здійснювати оцінювання зв'язності тексту за допомогою графу узгодженості словосполучень. Здійснено експериментальну перевірку ефективності пропонованого підходу для побудови класифікаційної моделі порівняно з іншими характеристиками тексту.uk-UA
dc.formatapplication/pdf
dc.languageukr
dc.publisherI. Horbachevsky Ternopil National Medical Universityen-US
dc.relationhttps://ojs.tdmu.edu.ua/index.php/here/article/view/11125/10656
dc.sourceMedical Informatics and Engineering; No. 1 (2020); 8-16en-US
dc.sourceМедицинская информатика и инженерия; № 1 (2020); 8-16ru-RU
dc.sourceМедична інформатика та інженерія; № 1 (2020); 8-16uk-UA
dc.source1997-7468
dc.source1996-1960
dc.source10.11603/mie.1996-1960.2020.1
dc.subjectdetection of the symptoms of mental illnessen-US
dc.subjectnatural language processingen-US
dc.subjectincoherence modelen-US
dc.subjecttangentiality modelen-US
dc.subjectsemantic representation of the text's elementsen-US
dc.subjectclassification modelen-US
dc.subjectопределение симптомов ментального заболеванияru-RU
dc.subjectобработка естественного языка,ru-RU
dc.subjectмодель некогерентностиru-RU
dc.subjectмодель тангенциальностиru-RU
dc.subjectсемантическое представление элементов текстаru-RU
dc.subjectклассификационная модельru-RU
dc.subjectвиявлення симптомів ментального захворюванняuk-UA
dc.subjectобробка природної мовиuk-UA
dc.subjectмодель некогерентностіuk-UA
dc.subjectмодель тангенційностіuk-UA
dc.subjectсемантичне представлення елементів текстуuk-UA
dc.subjectкласифікаційна модельuk-UA
dc.titleTHE USAGE OF NATURAL LANGUAGE PROCESSING METHODS TO DETECT THE SYMPTOMS OF MENTAL ILLNESSen-US
dc.titleПРИМЕНЕНИЕ МЕТОДОВ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ ОПРЕДЕЛЕНИЯ СИМПТОМОВ МЕНТАЛЬНОГО ЗАБОЛЕВАНИЯru-RU
dc.titleЗАСТОСУВАННЯ МЕТОДІВ ОБРОБКИ ПРИРОДНОЇ МОВИ ДЛЯ ВИЯВЛЕННЯ СИМПТОМІВ МЕНТАЛЬНОГО ЗАХВОРЮВАННЯuk-UA
dc.typeinfo:eu-repo/semantics/article
dc.typeinfo:eu-repo/semantics/publishedVersion


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record