|
С внедрением искусственного интеллекта в процессы анализа и обработки многомодальных данных стало возможно извлекать информацию из неструктурированных текстов, проводить автоматическую кластеризацию, категоризацию и классификацию информации с последующим ее использованием в различных научных и производственных секторах. Автоматизированный анализ позволил исследователям не только собирать и изучать объем материала, анализ которого вручную невозможен, но и выявлять закономерности и взаимосвязи между различными терминами. Автоматизированный анализ на основе международных компьютерных систем, словарей и баз знаний поставил перед собой задачу поиска новых понятий и терминов в уже проанализированных массивах многомерных данных. В рамках данной статьи рассматривается проблема автоматизированного анализа многомодальных данных, а именно: выделения общих терминов и понятий на стыке одной или нескольких предметных областей (тематических кластеров). В частности, в исследовании описываются подходы к построению семантической сети на стыке нескольких предметных областей (тематических кластеров) на базе терминов международной базы знаний медицинских публикаций (PubMed) и международного словаря медицинских терминов (UMLS). Рассматриваемые в рамках данной статьи подходы к построению семантической сети на стыке нескольких предметных областей (тематических кластеров) включают механизмы формирования тематических кластеров, выделение семантических связей между терминами и визуализацию новых терминов. Результатом, описанным в рамках данной статьи, становится создание семантической сети(графа) «Заболеваний и их мутаций» на базе библиотек PubMed (PMC) и UMLS, которая позволит определять новые термины мутаций заболеваний и понимать причины их появления.
Ключевые слова:семантическая сеть(граф), многомодальные данные, автоматизированный анализ, UMLS, PubMed, BERTopic, тематические кластеры.
|