This article reflects my professional background in pharmaceutical digital transformation. While my public content focuses on aviation and passenger experience, digital systems in healthcare remain my core professional domain.
Медицина и фармацевтика традиционно развиваются много лет в условиях высокой ответственности и регулируемости, поэтому скорость внедрения цифровых инноваций здесь ниже, чем в большинстве других отраслей. Много раз встречал в разговоре, да и сам говорил, что задержка около 10 лет, если сравнивать, например с финансовым сектором, где скорость дикая. Приведу пример, что первые активные приложения во время бума смартфонов были именно банковские приложения. Однако современные вычислительные мощности и «фундаментальные» модели (foundation models) расширили спектр задач начиная от анализа реальных клинических данных (RWD) до извлечения смысла из неструктурированных записей и исторических бумажных архивов, которых в любом ЛПУ, стационаре или поликлиники за многие годы скопилось огромное количество. При этом «железо» и программные стеки ИИ обновляются быстрее, чем успевают окупаться капитальные вложения медицинского сообщества, характерные для здравоохранения и фармы. В данном тексте я рассмотрю со своей стороны, базируясь на своем опыте и доступной информации (1) почему темпы внедрения ИИ в медицине объективно ограничены, а значит и ограничены в фармацевтической отрасли; (2) какие типы данных и какие модели уже применяются для анализа медицинских и фармацевтических данных; (3) как организовать работу с наследием такими огромными массивами бумажных дел и разнородными данными из разрозненных систем и МИСов большого количества ЛПУ в России а также фармацевтических компаний; (4) как выстроить 10‑летнюю стратегию, которая устойчиво переживёт смену поколений GPU и «обновления/закрытия» модельных платформ у вендоров для того чтобы отвечать задачам текущего времени и не оказаться в самом конце прогресса, когда инновации еще один раз сделают обновление цикла.
Ключевые слова данной заметки и личного исследования: RWD/RWE, EHR, МИС, РЭМД, FHIR, медицинские языковые модели, графовые нейронные сети, устойчивость инвестиций в медицине и фарме, жизненный цикл ИИ в фарме.
1. Почему медицина «не любит скорость»
Даже очевидно полезные технологии в здравоохранении во всем мире внедряются осторожно, потому что цена ошибки это здоровье и жизнь наша же, а также наших близких и родителей, а жизнь и здоровье это самое ценное что у нас есть. Также юридические и репутационные риски для всех сторон участников. Международные организации прямо подчёркивают: риски несёт не только использование ИИ, но и «риски бездействия» если не использовать или замедлять использование ИИ или современных систем анализа, однако внедрение должно опираться на принципы безопасности, прозрачности, справедливости и подотчётности [1–3]. Регуляторы многих стран уже развивают механизмы, позволяющие ИИ‑системам эволюционировать без бесконечного цикла «перерегистраций». Самый главный пример, на который смотрит и опирается весь мир это FDA, которая выпускает рекомендации по Predetermined Change Control Plan (PCCP) — плану заранее описанных изменений для ИИ‑функций медицинского ПО, который помогает балансировать итеративные улучшения и контроль безопасности [4–5]. Это отражает ключевой вызов: медицине нужны «скорость итераций» и «скорость доказательств» одновременно т.к. эти кривые не могут быть раздельно в медицинских и фарм процессах.
Параллельно возник разрыв между темпом технологического прогресса и экономикой отрасли. Больницы, фармкомпании и интеграторы планируют инфраструктуру и обучение персонала на годы (амортизация, требования регуляторов, длительные контракты), тогда как рынок ускорителей ИИ сменил ритм. Известный чип H100 (Hopper) компании NVIDIA вводился в массовое производство в 2022 году [6], H200 был представлен в конце 2023‑го [7], а новая платформа Blackwell уже в марте 2024‑го [8]. В результате «лучшее железо прошлого года» действительно может исчезнуть из прайс‑листов или стать экономически нецелесообразным. И здесь случается ситуация, что какие-то фармацевтические компании, которые имеют большие надежды на новые продукты уже не смогут конкурировать со следующей волной R&D или клинических исследований из-за дисбаланса ресурсов и скоростей. И это становится проблемой не только закупок, но и воспроизводимости исследований, поддержки и валидации моделей.
2. Рынок и типовые сценарии применения ИИ в фарме и медицине
2.1. От экспериментов к масштабу — но с разрывом ожиданий и реальности
Согласно отраслевым обзорам по life sciences, которые я изучил и которые доступны на основных ресурсах, компании активно тестируют генеративный ИИ, но масштабирование идёт осторожно. В одном из материалов McKinsey, которые мне попался на LinkedIn (опрос лидеров pharma и medtech) я увидел, что все респонденты сообщают об экспериментах с genAI, но лишь около трети (32%) заявляют о шагах к масштабированию [9]. Одновременно оценки потенциальной экономической ценности заметны: в обзоре McKinsey по фарме приводится оценка порядка $60–110 млрд ежегодной потенциальной ценности для фармы и медизделий по набору приоритетных кейсов [10]. IQVIA в материалах по применению ИИ в life sciences также рассматривает «переход от пилотов к устойчивым решениям» и указывает на разрыв: оцениваемая потенциальная ценность велика, но доля организаций, реально получивших устойчивый эффект, может оставаться небольшой (в отдельных оценках — единицы процентов) [11].
Эта картина типична: «пилоты или тесты» возникают быстро, а «производственная эксплуатация» упирается в данные (качество/доступ/юридические основания), ИТ‑архитектуру, безопасность и подготовку персонала.Даже если пилотов много, фундамент данных все равно остается не подвижным и вопрос как следующие модели будут с этим работать.
2.2. Где ИИ реально приносит ценность, на мой взгляд.
Практика показывает, что максимальная ценность в фарме и здравоохранении возникает там, где ИИ:
- уменьшает административную нагрузку (извлечение структурированных фактов из текста, подготовка черновиков документов), элементы промоции и обучения врачей новым технологиям и результатам исследований;
- ускоряет и удешевляет анализ «реальных данных» (RWD) и формирование RWE для исследовательских и регуляторных задач;
- повышает качество принятия решений (стратификация пациентов, прогноз рисков, оптимизация маршрутизации и ресурсного планирования);
- ускоряет научный цикл (поиск знаний, анализ публикаций, моделирование биологических структур).
Например, FDA описывает RWE как клинические доказательства, полученные из анализа RWD о применении и пользе/рисках медицинских продуктов [12]. Это открывает для аналитических моделей широкий класс задач для всей отрасли, где важны корректные дизайны исследований, качество данных и воспроизводимость.
3. Данные: что доступно и почему «данные важнее моделей» и это факт, который будет неподвижен в течение долгого времени. Даже если модели не работают, данные в любом виде должны собираться.
3.1. Типы данных, имеющие наибольшее значение
Для медицинских и фармацевтических задач наиболее значимы:
- структурированные записи EHR/EMR (диагнозы, процедуры, назначения, лаборатория);
- неструктурированный клинический текст (выписки, протоколы, заключения), особенно это сейчас начали делать в ЛПУ в России, хотя здесь работает другая ситуация, когда врач тратит время на физическое внесение всех этих данных в МИС и карточку пациента;
- изображения (КТ/МРТ, патоморфология, офтальмология);
- «омикс»-данные (геномика, протеомика) как в государственном так и в частном сегментах;
- регистры и административные данные, с доступам страховых и статистических данных в две стороны;
- данные клинических исследований и фармаконадзора.
Существует и важный класс открытых исследовательских наборов данных, которые используются как «песочницы» и бенчмарки. Например, MIMIC‑IV — публично доступный де‑идентифицированный датасет EHR, включающий как структурированные таблицы, так и клинические тексты [13–14]. Но для внедрения в реальных организациях определяющими остаются локальные данные, и их «готовность» к анализу. Этот пункт один из ключевых в будущей структуре взаимодействия.
3.2. Интеграция и стандартизация: почему без стандартов ИИ «дороже»
Ключевой долгосрочный фактор это конечно же интероперабельность. Международно одним из базовых стандартов обмена данными стал HL7 FHIR, предназначенный для электронного обмена медицинской информацией [15]. Переход к стандартам снижает стоимость интеграции и делает возможной повторную используемость аналитических пайплайнов. Я это часто называю – что нам нужно описать и согласовать некий «USB style” формат обмена данными между всеми игроками.
В России цифровой контур здравоохранения (ЕГИСЗ и сопряжённые подсистемы) строился как инфраструктура межведомственного и межорганизационного взаимодействия. Паспорт федерального проекта «цифровой контур» прямо фиксирует цель повышения эффективности системы здравоохранения через внедрение цифровых технологий и платформенных решений на базе ЕГИСЗ [16]. На практике обмен юридически значимыми документами часто опирается на форматы электронных медицинских документов (например, CDA‑документы в контуре РЭМД), с процедурами форматно‑логического контроля (ФЛК) [17]. На практике сталкивался, что самый качественный и описанный сет данных существует только в рамках города Москва внутри ДИТ.
Для ИИ‑аналитики важно понимать: чем больше разнообразия форматов/справочников/локальных кодировок, тем выше цена «подготовки данных», и тем меньше доля бюджета, остающаяся на собственно модели. И еще в группе нужно оценить вопрос возможное участие государства в основном шаге подготовке и сведению этих данных.
3.3. «Наследие»: бумажные архивы и неструктурированные поля МИС
Существенная доля клинического знания всё ещё «заперта» в:
- бумажных историях и карточках пациентов, как обычно процессируется внутри поликлиник и ЛПУ в России;
- сканах и PDF‑вложениях;
- свободном тексте в МИС/РМИС;
- локальных справочниках и полях без единых кодировок или едином XLS файле.
4. Какие модели «на практике» применяются для анализа данных в медицине и фарме
В отраслевых дискуссиях под «моделями ИИ» часто имеют в виду LLM, но в реальной аналитике используются несколько классов моделей — и многие из них давно стандартизированы.
4.1. Модели для клинического текста и биомедицинской литературы (NLP)
В медицине крайне распространён подход «предобученная модель + дообучение под задачу». В биомедицинском NLP широкую известность получили:
- BioBERT — модель семейства BERT, адаптированная к биомедицинским корпусам [20];
- PubMedBERT — доменно‑специфическое предобучение на PubMed‑корпусах; работа Gu et al. показывает преимущества такого предобучения для биомедицинских задач NLP [21];
- ClinicalBERT — адаптация BERT для клинических заметок и предиктивных задач (например, реадмиссия) [22];
- GatorTron — крупная клиническая языковая модель, обученная на больших объёмах де‑идентифицированных EHR‑текстов и оцененная на ряде клинических NLP‑задач [23];
- BioGPT — генеративная модель (GPT‑стиля) для биомедицинского текста и извлечения знаний [24].
- В России идет развитие модели ИИ GigaChat от Сбербанка, но какие-то публичные расширенные данные на данный момент не доступны.
Эти модели востребованы не только для «чат‑интерфейсов», а для прикладных задач: извлечение сущностей и отношений (препарат–дозировка–показание), кодирование диагнозов, извлечение нежелательных явлений из сообщений, семантический поиск по клинической документации и научной литературе.
Критический нюанс: в регуляторных и клинических задачах на ежедневной основе важны интерпретируемость, устойчивость и корректность дизайна исследования; «самая точная» модель без доказательной базы и контроля смещений зачастую бесполезна.
4.2. Модели для молекулярного дизайна и открытия лекарств
Для задач drug discovery важен класс моделей, работающих с графами и структурами:
- AlphaFold2 как прорыв в предсказании структуры белков [26], а также инфраструктуры открытых баз предсказаний (AlphaFold DB) [27–28];
- графовые нейронные сети (GNN) для предсказания свойств молекул, взаимодействий «лекарство–мишень», оптимизации лид‑соединений и др. Современные обзоры систематизируют роль GNN в drug discovery [29–30].
Важно подчеркнуть: даже «самые мощные» модели не отменяют необходимости лабораторной и клинической верификации; они лишь смещают узкое место с «генерации гипотез» на «проверку гипотез» и качество данных.
4.3. От универсальных foundation‑моделей к отраслевым есть и риск «исчезновения» API.
Параллельно развиваются «медицински‑настроенные» foundation‑модели. Приведу прекрасно известный пример это семейство MedLM, построенное на исследовательных разработках Med‑PaLM 2 и адаптированное под задачи здравоохранения (обобщение медицинской информации, анализ неструктурированных данных и др.) [31–33]. В обзорах уровня Nature Medicine описываются подходы к повышению качества и безопасности медицинских LLM, включая методы «заземления» на источники и стратегии улучшения рассуждения [34]. Это легко можно взять и поставить как основу локальных процессов.
Однако для 10‑летнего планирования критично помнить: скорость меняется не только у GPU, но и у модельных платформ. Показательный факт это официальная документация Google Vertex AI указывает, что MedLM «deprecated» и доступ к нему «закрыт уже после 29 сентября 2025 года» [35]. Следовательно, при выборе вендорского API нужно закладывать стратегии миграции, совместимость промптов/шаблонов, возможность перехода на альтернативы и/или на открытые модели. И конечно же, с другой стороны, требуется резервное хранение данных в своих репозиториях. В качестве примера «открытой» медицинской foundation‑модели можно указать MedGemma (мультимодальная модель для медицинского текста и изображений), для которой опубликована модельная карта с оговорками об ответственности разработчиков при дообучении и применении [36].
5. Инфраструктура и экономика: как планировать на 10 лет в условиях обновления GPU каждые 1–2 года
5.1. Проблема амортизации
Классическая модель капитальных затрат (CAPEX) в медицине и фармацевтике предполагает срок окупаемости 3–7 лет и более, особенно если речь о специализированном оборудовании и обучении персонала. Однако рынок ИИ‑ускорителей обновляется быстрее, буквально на наших глазах: цепочка H100 (2022) → H200 (2023) → Blackwell (2024) иллюстрирует «сжатие» поколений [6–8] и сейчас ждем появления еще более емких и ресурных ускорителей. Организация, купившая «топовую» инфраструктуру, сталкивается с тем, что:
- через 12–18 месяцев появляются новые ускорители, меняется энергоэффективность и стоимость инференса;
- производители и партнёры переключают внимание на новые линейки (поддержка/прайсы/доступность);
- модели и фреймворки адаптируются под новые возможности (память, interconnect, форматы вычислений).
5.2. Стратегический ответ: разделить «данные», «модели» и «вычисления»
Устойчивое планирование требует архитектурного принципа такого как обязательно разделять слои.
- «Слой данных» (Data plane) это хранилища, каталоги, стандарты, качество, права доступа.
- «Слой моделей» (Model plane) это реестр моделей, контроль версий, протоколы валидации, мониторинг дрейфа.
- «Слой вычислений» (Compute plane) это GPU/CPU‑кластеры, облако/он‑прем, контейнеризация, оркестрация.
Такая структура и подход позволяет обновлять compute‑слой без «капремонта» данных и без переписывания всей аналитики. Практически это означает что инвестировать прежде всего в данные и процессы качества, а не в «самую свежую видеокарту и инфраструктуру».
5.3. Гибридная модель владения вычислениями
Для 10‑летнего горизонта разумно закладывать гибрид:
- базовая мощность — он‑прем или выделенные облачные ресурсы у игроков рынка. Можно даже с государственным участием, если такое возможно, для стабильных задач и данных повышенной чувствительности;
- контрактные механизмы «compute‑as‑a‑service» с SLO/SLAs и требованиями к хранению/обработке данных.
Ключевой критерий здесь будут не стоимость GPU как такового, а стоимость полного цикла: безопасность, поддержка, кадры, энергоэффективность, сертификация, воспроизводимость.
6. Как «жить» с быстрыми изменениями. Я рассмотрел варианты для фармы и медицины как отрасли на 10 лет вперёд
Ниже предложены мною несколько сценариев и набор организационных принципов.
6.1. Сценарий A: «Данные‑вперёд, модели‑следом»
Фокус: быстрое наращивание качества и доступности данных (интероперабельность, стандартизация, каталог, качество, мастер‑данные).
Инструменты:
- единый каталог данных и политик доступа как внутри рынка так и внутри организации в Здравоохранении, это может быть ЛПУ или фармацевтическая компания;
- согласование с требованиями ЕГИСЗ/РЭМД) [15–17];
- конвейер извлечения фактов из текста — GigaChat;
- «доказательная» платформа RWD/RWE с методологией и аудитом [12].
Плюсы: максимальная долгосрочная отдача, снижение стоимости последующих ИИ‑проектов.
Минусы: эффект не всегда виден быстро, требует дисциплины данных.
6.2. Сценарий B: «Модульная платформа ИИ вместо разрозненных пилотов»
Фокус: продуктовая платформа (MLOps) и типовые компоненты.
Компоненты:
- реестр моделей и датасетов (как локальных так и мировых) контроль версий и воспроизводимость;
- единые требования к валидации (внутренняя клиническая/статистическая экспертиза);
- мониторинг качества и дрейфа, протоколы инцидентов;
- механизмы «контролируемой эволюции» (аналог PCCP‑подходов в духе здесь будет FDA для непрерывно улучшаемых ИИ‑функций) [4–5].
Плюсы: быстрее масштабировать успешные кейсы; легче проходить аудит.
Минусы: требует зрелой ИТ‑функции и управления изменениями в компании, что всегда сложно т.к. фокуса на инвестиции в эту зону нет.
6.3. Сценарий C: «Двухскоростная организация» (two‑speed)
Фокус: разделение контуров.
- Контур 1 (производственный) где строго валидированные модели, медленный релиз‑цикл, документация, обучение пользователей.
- Контур 2 (исследовательский) где быстрые эксперименты, «песочница» на синтетике/де‑идентифицированных данных, быстрый перебор гипотез.
Переход из 2 к 1 происходит через «ворота качества»: методология, валидация, безопасность. Такой подход снижает конфликт между «скоростью ИТ» и «скоростью клиники», но требует очень высокой уровня зрелости организации и скорости принятия решения
6.4. Сценарий D: «Инфраструктура как поток обновлений, а не единичная закупка»
Фокус: перестроить закупки и эксплуатацию compute.
Практика:
- закупать не «железо», а «уровень сервиса» (производительность/энергопотребление/поддержка);
- закладывать регулярный refresh‑цикл и совместимость софт‑стека;
- контейнеризация и переносимость (чтобы модель могла работать на разных поколениях GPU с учетом развития).
Мотивация: если смена поколения ускорителей происходит каждые 1–2 года [6–8], то единовременные закупки «на 7 лет» становятся рискованными. Лучше управлять обновлениями как непрерывным процессом.
6.5. Сценарий E: «Кадры и governance как основной актив организации Здравоохранения»
Даже при идеальных данных и инфраструктуре внедрение упирается в компетенции и управление. OECD подчёркивает необходимость наращивания потенциала (skills) здравоохранения для использования ИИ, а также управление рисками и ответственностью [2–3]. Практически это означает:
- мультидисциплинарные команды (врач + статистик/эпидемиолог + дата‑саентист + инженер + специалист по ИБ/праву);
- внутренние стандарты «модельного качества» (как валидация, как документировать, как объяснять пользователям);
- этический и клинический надзор, оценка справедливости и смещений.
7. Выводы которые сделал.
1) Медицинская «медлительность» это точно не консерватизм ради консерватизма, а отражение требований к доказательности и ответственност. Внедрение ИИ должно учитывать этику, безопасность и регулируемость.
2) Наибольшая долгосрочная ценность создаётся не столько выбором «самой новой модели», сколько созданием устойчивого контура данных, интероперабельности и процессов качества.
3) Для анализа медицинских и фармацевтических данных уже существует зрелый «зоопарк» глобальных и локально развивающихся моделей: от специализированных NLP‑моделей (BioBERT, PubMedBERT, ClinicalBERT, GatorTron, BioGPT) [20–24] до изображений (U‑Net) [25], молекулярных и структурных моделей (AlphaFold) [26–28] и GNN‑подходов [29–30] и GigaChat от Сбербанка.
4) Быстрая смена поколений GPU и де‑факто «обновления/закрытия» модельных API
5) На горизонте 10 лет выигрывают организации, которые инвестируют в «гигиену данных», стандарты, управляемость изменений и кадры это то, что амортизируется медленно, в отличие от железа.
Автор данной работы: Олег Ремизов (Oleg Remizov)
Работа проводилась в промежутке январь-февраль 2026г.
дата публикации на сайте Remizov.com: 22 февраля 2026г.
Об авторе. Олег Ремизов (Oleg Remizov) — is an aviation content creator and reviewer. In his professional career, he works in pharmaceutical digital transformation, AI, and healthcare systems.

Так как тема серьезная, я добавил ссылки, которые использовал для фактов и написание этой заметки:
[1] https://www.who.int/publications/i/item/9789240029200
[3] https://www.who.int/publications/i/item/9789240084759
[6] https://nvidianews.nvidia.com/news/nvidia-hopper-in-full-production
[8] https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing
[12] https://www.fda.gov/science-research/science-and-research-special-topics/real-world-evidence
[13] https://www.nature.com/articles/s41597-022-01899-x
[14] https://physionet.org/content/mimiciv/
[15] https://www.hl7.org/fhir/overview.html
[18] https://pravo.gov.ru/proxy/ips/?docbody=&nd=102108261
[19] https://www.consultant.ru/document/cons_doc_LAW_121895/9f906d460f9454a8a0d290738d9fc2798c1e865a/
[20] https://pmc.ncbi.nlm.nih.gov/articles/PMC7703786/
[21] https://arxiv.org/pdf/2007.15779
[22] https://arxiv.org/abs/1904.05342
[23] https://www.nature.com/articles/s41746-022-00742-2
[24] https://arxiv.org/abs/2210.10341
[25] https://arxiv.org/abs/1505.04597
[26] https://www.nature.com/articles/s41586-021-03819-2
[27] https://deepmind.google/science/alphafold/
[28] https://alphafold.ebi.ac.uk/
[29] https://www.sciencedirect.com/science/article/pii/S2211383525006884
[30] https://pubs.acs.org/doi/10.1021/acs.chemrev.5c00461
[32] https://docs.cloud.google.com/vertex-ai/generative-ai/docs/medlm/MedLM-model-card.pdf
[33] https://sites.research.google/gr/med-palm/
[34] https://www.nature.com/articles/s41591-024-03423-7
[35] https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models
[36] https://developers.google.com/health-ai-developer-foundations/medgemma/model-card