Перейти к содержимому →

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В МЕДИЦИНЕ И ФАРМАЦЕВТИКЕ: ДАННЫЕ, МОДЕЛИ И ИНФРАСТРУКТУРА ПРИ ГОРИЗОНТЕ ПЛАНИРОВАНИЯ 10 ЛЕТ

This article reflects my professional background in pharmaceutical digital transformation. While my public content focuses on aviation and passenger experience, digital systems in healthcare remain my core professional domain.

Медицина и фармацевтика традиционно развиваются много лет в условиях высокой ответственности и регулируемости, поэтому скорость внедрения цифровых инноваций здесь ниже, чем в большинстве других отраслей. Много раз встречал в разговоре, да и сам говорил, что задержка около 10 лет, если сравнивать, например с финансовым сектором, где скорость дикая. Приведу пример, что первые активные приложения во время бума смартфонов были именно банковские приложения. Однако современные вычислительные мощности и «фундаментальные» модели (foundation models) расширили спектр задач начиная от анализа реальных клинических данных (RWD) до извлечения смысла из неструктурированных записей и исторических бумажных архивов, которых в любом ЛПУ, стационаре или поликлиники за многие годы скопилось огромное количество. При этом «железо» и программные стеки ИИ обновляются быстрее, чем успевают окупаться капитальные вложения медицинского сообщества, характерные для здравоохранения и фармы. В данном тексте я рассмотрю со своей стороны, базируясь на своем опыте и доступной информации (1) почему темпы внедрения ИИ в медицине объективно ограничены, а значит и ограничены в фармацевтической отрасли; (2) какие типы данных и какие модели уже применяются для анализа медицинских и фармацевтических данных; (3) как организовать работу с наследием такими огромными массивами бумажных дел и разнородными данными из разрозненных систем и МИСов большого количества ЛПУ в России а также фармацевтических компаний; (4) как выстроить 10‑летнюю стратегию, которая устойчиво переживёт смену поколений GPU и «обновления/закрытия» модельных платформ у вендоров для того чтобы отвечать задачам текущего времени и не оказаться в самом конце прогресса, когда инновации еще один раз сделают обновление цикла.

Ключевые слова данной заметки и личного исследования: RWD/RWE, EHR, МИС, РЭМД, FHIR, медицинские языковые модели, графовые нейронные сети, устойчивость инвестиций в медицине и фарме, жизненный цикл ИИ в фарме.

1. Почему медицина «не любит скорость»

Даже очевидно полезные технологии в здравоохранении во всем мире внедряются осторожно, потому что цена ошибки это здоровье и жизнь наша же, а также наших близких и родителей, а жизнь и здоровье это самое ценное что у нас есть. Также юридические и репутационные риски для всех сторон участников. Международные организации прямо подчёркивают: риски несёт не только использование ИИ, но и «риски бездействия» если не использовать или замедлять использование ИИ или современных систем анализа, однако внедрение должно опираться на принципы безопасности, прозрачности, справедливости и подотчётности [1–3]. Регуляторы многих стран уже развивают механизмы, позволяющие ИИ‑системам эволюционировать без бесконечного цикла «перерегистраций». Самый главный пример, на который смотрит и опирается весь мир это FDA, которая выпускает рекомендации по Predetermined Change Control Plan (PCCP) — плану заранее описанных изменений для ИИ‑функций медицинского ПО, который помогает балансировать итеративные улучшения и контроль безопасности [4–5]. Это отражает ключевой вызов: медицине нужны «скорость итераций» и «скорость доказательств» одновременно т.к. эти кривые не могут быть раздельно в медицинских и фарм процессах.

Параллельно возник разрыв между темпом технологического прогресса и экономикой отрасли. Больницы, фармкомпании и интеграторы планируют инфраструктуру и обучение персонала на годы (амортизация, требования регуляторов, длительные контракты), тогда как рынок ускорителей ИИ сменил ритм. Известный чип H100 (Hopper) компании NVIDIA вводился в массовое производство в 2022 году [6], H200 был представлен в конце 2023‑го [7], а новая платформа Blackwell уже в марте 2024‑го [8]. В результате «лучшее железо прошлого года» действительно может исчезнуть из прайс‑листов или стать экономически нецелесообразным. И здесь случается ситуация, что какие-то фармацевтические компании, которые имеют большие надежды на новые продукты уже не смогут конкурировать со следующей волной R&D или клинических исследований из-за дисбаланса ресурсов и скоростей. И это становится проблемой не только закупок, но и воспроизводимости исследований, поддержки и валидации моделей.

2. Рынок и типовые сценарии применения ИИ в фарме и медицине

2.1. От экспериментов к масштабу — но с разрывом ожиданий и реальности

Согласно отраслевым обзорам по life sciences, которые я изучил и которые доступны на основных ресурсах, компании активно тестируют генеративный ИИ, но масштабирование идёт осторожно. В одном из материалов McKinsey, которые мне попался на LinkedIn (опрос лидеров pharma и medtech) я увидел, что все респонденты сообщают об экспериментах с genAI, но лишь около трети (32%) заявляют о шагах к масштабированию [9]. Одновременно оценки потенциальной экономической ценности заметны: в обзоре McKinsey по фарме приводится оценка порядка $60–110 млрд ежегодной потенциальной ценности для фармы и медизделий по набору приоритетных кейсов [10]. IQVIA в материалах по применению ИИ в life sciences также рассматривает «переход от пилотов к устойчивым решениям» и указывает на разрыв: оцениваемая потенциальная ценность велика, но доля организаций, реально получивших устойчивый эффект, может оставаться небольшой (в отдельных оценках — единицы процентов) [11].

Эта картина типична: «пилоты или тесты» возникают быстро, а «производственная эксплуатация» упирается в данные (качество/доступ/юридические основания), ИТ‑архитектуру, безопасность и подготовку персонала.Даже если пилотов много, фундамент данных все равно остается не подвижным и вопрос как следующие модели будут с этим работать.

2.2. Где ИИ реально приносит ценность, на мой взгляд.

Практика показывает, что максимальная ценность в фарме и здравоохранении возникает там, где ИИ:

  • уменьшает административную нагрузку (извлечение структурированных фактов из текста, подготовка черновиков документов), элементы промоции и обучения врачей новым технологиям и результатам исследований;
  • ускоряет и удешевляет анализ «реальных данных» (RWD) и формирование RWE для исследовательских и регуляторных задач;
  • повышает качество принятия решений (стратификация пациентов, прогноз рисков, оптимизация маршрутизации и ресурсного планирования);
  • ускоряет научный цикл (поиск знаний, анализ публикаций, моделирование биологических структур).

Например, FDA описывает RWE как клинические доказательства, полученные из анализа RWD о применении и пользе/рисках медицинских продуктов [12]. Это открывает для аналитических моделей широкий класс задач для всей отрасли, где важны корректные дизайны исследований, качество данных и воспроизводимость.

3. Данные: что доступно и почему «данные важнее моделей» и это факт, который будет неподвижен в течение долгого времени. Даже если модели не работают, данные в любом виде должны собираться.

3.1. Типы данных, имеющие наибольшее значение

Для медицинских и фармацевтических задач наиболее значимы:

  • структурированные записи EHR/EMR (диагнозы, процедуры, назначения, лаборатория);
  • неструктурированный клинический текст (выписки, протоколы, заключения), особенно это сейчас начали делать в ЛПУ в России, хотя здесь работает другая ситуация, когда врач тратит время на физическое внесение всех этих данных в МИС и карточку пациента;
  • изображения (КТ/МРТ, патоморфология, офтальмология);
  • «омикс»-данные (геномика, протеомика) как в государственном так и в частном сегментах;
  • регистры и административные данные, с доступам страховых и статистических данных в две стороны;
  • данные клинических исследований и фармаконадзора.

Существует и важный класс открытых исследовательских наборов данных, которые используются как «песочницы» и бенчмарки. Например, MIMIC‑IV — публично доступный де‑идентифицированный датасет EHR, включающий как структурированные таблицы, так и клинические тексты [13–14]. Но для внедрения в реальных организациях определяющими остаются локальные данные, и их «готовность» к анализу. Этот пункт один из ключевых в будущей структуре взаимодействия.

3.2. Интеграция и стандартизация: почему без стандартов ИИ «дороже»

Ключевой долгосрочный фактор это конечно же интероперабельность. Международно одним из базовых стандартов обмена данными стал HL7 FHIR, предназначенный для электронного обмена медицинской информацией [15]. Переход к стандартам снижает стоимость интеграции и делает возможной повторную используемость аналитических пайплайнов. Я это часто называю – что нам нужно описать и согласовать некий «USB style” формат обмена данными между всеми игроками.

В России цифровой контур здравоохранения (ЕГИСЗ и сопряжённые подсистемы) строился как инфраструктура межведомственного и межорганизационного взаимодействия. Паспорт федерального проекта «цифровой контур» прямо фиксирует цель повышения эффективности системы здравоохранения через внедрение цифровых технологий и платформенных решений на базе ЕГИСЗ [16]. На практике обмен юридически значимыми документами часто опирается на форматы электронных медицинских документов (например, CDA‑документы в контуре РЭМД), с процедурами форматно‑логического контроля (ФЛК) [17]. На практике сталкивался, что самый качественный и описанный сет данных существует только в рамках города Москва внутри ДИТ.

Для ИИ‑аналитики важно понимать: чем больше разнообразия форматов/справочников/локальных кодировок, тем выше цена «подготовки данных», и тем меньше доля бюджета, остающаяся на собственно модели. И еще в группе нужно оценить вопрос возможное участие государства в основном шаге подготовке и сведению этих данных.

3.3. «Наследие»: бумажные архивы и неструктурированные поля МИС

Существенная доля клинического знания всё ещё «заперта» в:

  • бумажных историях и карточках пациентов, как обычно процессируется внутри поликлиник и ЛПУ в России;
  • сканах и PDF‑вложениях;
  • свободном тексте в МИС/РМИС;
  • локальных справочниках и полях без единых кодировок или едином XLS файле.

4. Какие модели «на практике» применяются для анализа данных в медицине и фарме

В отраслевых дискуссиях под «моделями ИИ» часто имеют в виду LLM, но в реальной аналитике используются несколько классов моделей — и многие из них давно стандартизированы.

4.1. Модели для клинического текста и биомедицинской литературы (NLP)

В медицине крайне распространён подход «предобученная модель + дообучение под задачу». В биомедицинском NLP широкую известность получили:

  • BioBERT — модель семейства BERT, адаптированная к биомедицинским корпусам [20];
  • PubMedBERT — доменно‑специфическое предобучение на PubMed‑корпусах; работа Gu et al. показывает преимущества такого предобучения для биомедицинских задач NLP [21];
  • ClinicalBERT — адаптация BERT для клинических заметок и предиктивных задач (например, реадмиссия) [22];
  • GatorTron — крупная клиническая языковая модель, обученная на больших объёмах де‑идентифицированных EHR‑текстов и оцененная на ряде клинических NLP‑задач [23];
  • BioGPT — генеративная модель (GPT‑стиля) для биомедицинского текста и извлечения знаний [24].
  • В России идет развитие модели ИИ GigaChat от Сбербанка, но какие-то публичные расширенные данные на данный момент не доступны.

Эти модели востребованы не только для «чат‑интерфейсов», а для прикладных задач: извлечение сущностей и отношений (препарат–дозировка–показание), кодирование диагнозов, извлечение нежелательных явлений из сообщений, семантический поиск по клинической документации и научной литературе.

Критический нюанс: в регуляторных и клинических задачах на ежедневной основе важны интерпретируемость, устойчивость и корректность дизайна исследования; «самая точная» модель без доказательной базы и контроля смещений зачастую бесполезна.

4.2. Модели для молекулярного дизайна и открытия лекарств

Для задач drug discovery важен класс моделей, работающих с графами и структурами:

  • AlphaFold2 как прорыв в предсказании структуры белков [26], а также инфраструктуры открытых баз предсказаний (AlphaFold DB) [27–28];
  • графовые нейронные сети (GNN) для предсказания свойств молекул, взаимодействий «лекарство–мишень», оптимизации лид‑соединений и др. Современные обзоры систематизируют роль GNN в drug discovery [29–30].

Важно подчеркнуть: даже «самые мощные» модели не отменяют необходимости лабораторной и клинической верификации; они лишь смещают узкое место с «генерации гипотез» на «проверку гипотез» и качество данных.

4.3. От универсальных foundation‑моделей к отраслевым есть и риск «исчезновения» API. 

Параллельно развиваются «медицински‑настроенные» foundation‑модели. Приведу прекрасно известный пример это семейство MedLM, построенное на исследовательных разработках Med‑PaLM 2 и адаптированное под задачи здравоохранения (обобщение медицинской информации, анализ неструктурированных данных и др.) [31–33]. В обзорах уровня Nature Medicine описываются подходы к повышению качества и безопасности медицинских LLM, включая методы «заземления» на источники и стратегии улучшения рассуждения [34]. Это легко можно взять и поставить как основу локальных процессов.

Однако для 10‑летнего планирования критично помнить: скорость меняется не только у GPU, но и у модельных платформ. Показательный факт это официальная документация Google Vertex AI указывает, что MedLM «deprecated» и доступ к нему «закрыт уже после 29 сентября 2025 года» [35]. Следовательно, при выборе вендорского API нужно закладывать стратегии миграции, совместимость промптов/шаблонов, возможность перехода на альтернативы и/или на открытые модели. И конечно же, с другой стороны, требуется резервное хранение данных в своих репозиториях. В качестве примера «открытой» медицинской foundation‑модели можно указать MedGemma (мультимодальная модель для медицинского текста и изображений), для которой опубликована модельная карта с оговорками об ответственности разработчиков при дообучении и применении [36].

5. Инфраструктура и экономика: как планировать на 10 лет в условиях обновления GPU каждые 1–2 года

5.1. Проблема амортизации

Классическая модель капитальных затрат (CAPEX) в медицине и фармацевтике предполагает срок окупаемости 3–7 лет и более, особенно если речь о специализированном оборудовании и обучении персонала. Однако рынок ИИ‑ускорителей обновляется быстрее, буквально на наших глазах: цепочка H100 (2022) → H200 (2023) → Blackwell (2024) иллюстрирует «сжатие» поколений [6–8] и сейчас ждем появления еще более емких и ресурных ускорителей. Организация, купившая «топовую» инфраструктуру, сталкивается с тем, что:

  • через 12–18 месяцев появляются новые ускорители, меняется энергоэффективность и стоимость инференса;
  • производители и партнёры переключают внимание на новые линейки (поддержка/прайсы/доступность);
  • модели и фреймворки адаптируются под новые возможности (память, interconnect, форматы вычислений).

5.2. Стратегический ответ: разделить «данные», «модели» и «вычисления»

Устойчивое планирование требует архитектурного принципа такого как обязательно разделять слои.

  • «Слой данных» (Data plane) это хранилища, каталоги, стандарты, качество, права доступа.
  • «Слой моделей» (Model plane) это реестр моделей, контроль версий, протоколы валидации, мониторинг дрейфа.
  • «Слой вычислений» (Compute plane) это GPU/CPU‑кластеры, облако/он‑прем, контейнеризация, оркестрация.

Такая структура и подход позволяет обновлять compute‑слой без «капремонта» данных и без переписывания всей аналитики. Практически это означает что инвестировать прежде всего в данные и процессы качества, а не в «самую свежую видеокарту и инфраструктуру».

5.3. Гибридная модель владения вычислениями

Для 10‑летнего горизонта разумно закладывать гибрид:

  • базовая мощность — он‑прем или выделенные облачные ресурсы у игроков рынка. Можно даже с государственным участием, если такое возможно, для стабильных задач и данных повышенной чувствительности;
  • контрактные механизмы «compute‑as‑a‑service» с SLO/SLAs и требованиями к хранению/обработке данных.

Ключевой критерий здесь будут не стоимость GPU как такового, а стоимость полного цикла: безопасность, поддержка, кадры, энергоэффективность, сертификация, воспроизводимость.

6. Как «жить» с быстрыми изменениями. Я рассмотрел варианты для фармы и медицины как отрасли на 10 лет вперёд

Ниже предложены мною несколько сценариев и набор организационных принципов.

6.1. Сценарий A: «Данные‑вперёд, модели‑следом»

Фокус: быстрое наращивание качества и доступности данных (интероперабельность, стандартизация, каталог, качество, мастер‑данные).

Инструменты:

  • единый каталог данных и политик доступа как внутри рынка так и внутри организации в Здравоохранении, это может быть ЛПУ или фармацевтическая компания;
  • согласование с требованиями ЕГИСЗ/РЭМД) [15–17];
  • конвейер извлечения фактов из текста — GigaChat;
  • «доказательная» платформа RWD/RWE с методологией и аудитом [12].

Плюсы: максимальная долгосрочная отдача, снижение стоимости последующих ИИ‑проектов.

Минусы: эффект не всегда виден быстро, требует дисциплины данных.

6.2. Сценарий B: «Модульная платформа ИИ вместо разрозненных пилотов»

Фокус: продуктовая платформа (MLOps) и типовые компоненты.

Компоненты:

  • реестр моделей и датасетов (как локальных так и мировых) контроль версий и воспроизводимость;
  • единые требования к валидации (внутренняя клиническая/статистическая экспертиза);
  • мониторинг качества и дрейфа, протоколы инцидентов;
  • механизмы «контролируемой эволюции» (аналог PCCP‑подходов в духе здесь будет FDA для непрерывно улучшаемых ИИ‑функций) [4–5].

Плюсы: быстрее масштабировать успешные кейсы; легче проходить аудит.

Минусы: требует зрелой ИТ‑функции и управления изменениями в компании, что всегда сложно т.к. фокуса на инвестиции в эту зону нет.

6.3. Сценарий C: «Двухскоростная организация» (two‑speed)

Фокус: разделение контуров.

  • Контур 1 (производственный) где строго валидированные модели, медленный релиз‑цикл, документация, обучение пользователей.
  • Контур 2 (исследовательский) где быстрые эксперименты, «песочница» на синтетике/де‑идентифицированных данных, быстрый перебор гипотез.

Переход из 2 к 1 происходит через «ворота качества»: методология, валидация, безопасность. Такой подход снижает конфликт между «скоростью ИТ» и «скоростью клиники», но требует очень высокой уровня зрелости организации и скорости принятия решения

6.4. Сценарий D: «Инфраструктура как поток обновлений, а не единичная закупка»

Фокус: перестроить закупки и эксплуатацию compute.

Практика:

  • закупать не «железо», а «уровень сервиса» (производительность/энергопотребление/поддержка);
  • закладывать регулярный refresh‑цикл и совместимость софт‑стека;
  • контейнеризация и переносимость (чтобы модель могла работать на разных поколениях GPU с учетом развития).

Мотивация: если смена поколения ускорителей происходит каждые 1–2 года [6–8], то единовременные закупки «на 7 лет» становятся рискованными. Лучше управлять обновлениями как непрерывным процессом.

6.5. Сценарий E: «Кадры и governance как основной актив организации Здравоохранения»

Даже при идеальных данных и инфраструктуре внедрение упирается в компетенции и управление. OECD подчёркивает необходимость наращивания потенциала (skills) здравоохранения для использования ИИ, а также управление рисками и ответственностью [2–3]. Практически это означает:

  • мультидисциплинарные команды (врач + статистик/эпидемиолог + дата‑саентист + инженер + специалист по ИБ/праву);
  • внутренние стандарты «модельного качества» (как валидация, как документировать, как объяснять пользователям);
  • этический и клинический надзор, оценка справедливости и смещений.

7. Выводы которые сделал.

1) Медицинская «медлительность» это точно не консерватизм ради консерватизма, а отражение требований к доказательности и ответственност. Внедрение ИИ должно учитывать этику, безопасность и регулируемость.

2) Наибольшая долгосрочная ценность создаётся не столько выбором «самой новой модели», сколько созданием устойчивого контура данных, интероперабельности и процессов качества.

3) Для анализа медицинских и фармацевтических данных уже существует зрелый «зоопарк» глобальных и локально развивающихся моделей: от специализированных NLP‑моделей (BioBERT, PubMedBERT, ClinicalBERT, GatorTron, BioGPT) [20–24] до изображений (U‑Net) [25], молекулярных и структурных моделей (AlphaFold) [26–28] и GNN‑подходов [29–30] и GigaChat от Сбербанка.

4) Быстрая смена поколений GPU и де‑факто «обновления/закрытия» модельных API 

5) На горизонте 10 лет выигрывают организации, которые инвестируют в «гигиену данных», стандарты, управляемость изменений и кадры это то, что амортизируется медленно, в отличие от железа.

Автор данной работы: Олег Ремизов (Oleg Remizov)

Работа проводилась в промежутке январь-февраль 2026г.

дата публикации на сайте Remizov.com: 22 февраля 2026г.

Об авторе. Олег Ремизов (Oleg Remizov) — is an aviation content creator and reviewer. In his professional career, he works in pharmaceutical digital transformation, AI, and healthcare systems.

Oleg Remizov foto фото Олег Ремизов

Так как тема серьезная, я добавил ссылки, которые использовал для фактов и написание этой заметки:

[1] https://www.who.int/publications/i/item/9789240029200

[2] https://www.oecd.org/content/dam/oecd/en/publications/reports/2024/01/ai-in-health-huge-potential-huge-risks_ff823a24/2f709270-en.pdf

[3] https://www.who.int/publications/i/item/9789240084759

[4] https://www.fda.gov/regulatory-information/search-fda-guidance-documents/marketing-submission-recommendations-predetermined-change-control-plan-artificial-intelligence

[5] https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-software-medical-device

[6] https://nvidianews.nvidia.com/news/nvidia-hopper-in-full-production

[7] https://nvidianews.nvidia.com/news/nvidia-supercharges-hopper-the-worlds-leading-ai-computing-platform

[8] https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing

[9] https://www.mckinsey.com/industries/life-sciences/our-insights/scaling-gen-ai-in-the-life-sciences-industry

[10] https://www.mckinsey.com/industries/life-sciences/our-insights/generative-ai-in-the-pharmaceutical-industry-moving-from-hype-to-reality

[11] https://www.iqvia.com/-/media/iqvia/pdfs/library/white-papers/2025/ai-in-life-science-quality-management-and-regulatory-affairs.pdf

[12] https://www.fda.gov/science-research/science-and-research-special-topics/real-world-evidence

[13] https://www.nature.com/articles/s41597-022-01899-x

[14] https://physionet.org/content/mimiciv/

[15] https://www.hl7.org/fhir/overview.html

[16] https://static-0.minzdrav.gov.ru/system/attachments/attaches/000/046/712/original/FP_Cifrovoj_kontur_zdravooxraneniya.pdf 

[17] https://spbmiac.ru/wp-content/uploads/2021/05/%D0%A0%D0%AD%D0%9C%D0%94.-%D0%9E%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D0%A4%D0%9B%D0%9A-%D0%AD%D0%9C%D0%94-CDA-2-10.pdf

[18] https://pravo.gov.ru/proxy/ips/?docbody=&nd=102108261

[19] https://www.consultant.ru/document/cons_doc_LAW_121895/9f906d460f9454a8a0d290738d9fc2798c1e865a/

[20] https://pmc.ncbi.nlm.nih.gov/articles/PMC7703786/ 

[21] https://arxiv.org/pdf/2007.15779

[22] https://arxiv.org/abs/1904.05342

[23] https://www.nature.com/articles/s41746-022-00742-2

[24] https://arxiv.org/abs/2210.10341

[25] https://arxiv.org/abs/1505.04597 

[26] https://www.nature.com/articles/s41586-021-03819-2

[27] https://deepmind.google/science/alphafold/

[28] https://alphafold.ebi.ac.uk/ 

[29] https://www.sciencedirect.com/science/article/pii/S2211383525006884

[30] https://pubs.acs.org/doi/10.1021/acs.chemrev.5c00461

[31] https://cloud.google.com/blog/topics/healthcare-life-sciences/introducing-medlm-for-the-healthcare-industry

[32] https://docs.cloud.google.com/vertex-ai/generative-ai/docs/medlm/MedLM-model-card.pdf

[33] https://sites.research.google/gr/med-palm/

[34] https://www.nature.com/articles/s41591-024-03423-7

[35] https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models

[36] https://developers.google.com/health-ai-developer-foundations/medgemma/model-card

Опубликовано в Медицина