Хемометрические методы, применимые к аналитическим данным

Подробнее
Цель данной работы — предоставить информацию о требованиях надлежащей практики хемометрии, а также ознакомить читателей с рядом устоявшихся хемометрических методов. Здесь будут кратко описаны принципы, важнейшие аспекты и ограничения предлагаемых методов.
Текстовая версия:
1 ХЕМОМЕТРИЧЕСКИЕ МЕТОДЫ, ПРИМЕНИМЫЕ К АНАЛИТИЧЕСКИМ ДАННЫМ 1. ОБЩИЕ АСПЕКТЫ 1.1. ВВЕДЕНИЕ 1.1.1. Область применения данной статьи Эта статья — введение в использование хемометрических техник для обработки множеств аналитических данных. Это представляет интерес для исследовательской деятельности, контроля качества и производства в фармацевтической отрасли. Цель данной статьи — предоставить информацию о требованиях надлежащей практики хемометрии, а также ознакомить читателей с рядом устоявшихся хемометрических методов. Здесь будут кратко описаны принципы, важнейшие аспекты и ограничения предлагаемых методов. Большинство математических подробностей и алгоритмов опущено, а в конце статьи приводится глоссарий. 1.1.2. Определение Актуальное определение хемометрии следующее: «это химическая дисциплина, в которой применяются математические и статистические методы, чтобы (а) разработать или выбрать самые лучшие процедуры измерений и эксперименты, (б) получить максимальное количество химической информации путем анализа химических данных». Если смотреть шире, хемометрия не ограничивается химическими данными и может быть очень полезной для понимания различных систем путем анализа данных, когда ограниченного количества знаний и теорий недостаточно для объяснения характеристик системы и сделанных наблюдений. Методы хемометрии представлены, в основном, техниками многомерного моделирования, которые выбираются в соответствии с полученными данными. В результате строятся эмпирические математические модели, которые впоследствии используются для косвенного расчета представляющих интерес свойств. 1.1.3. Справочные сведения Методы хемометрии могут применяться для качественного или количественного анализа. Они могут помочь специалисту структурировать множества данных и увидеть скрытые отношения между переменными рассматриваемой системы. Тем не менее, следует 2 особо отметить, что хотя диктуемые данными хемометрические методы могут быть весьма эффективными, они не заменят проверенную или устоявшуюся теорию, если таковая имеется. Методы хемометрии в корне изменили отношение ученых к спектроскопии в ближней инфракрасной области (БИК), такие техники теперь являются неотъемлемым компонентом процессно-аналитической технологии (PAT) и принципа «планируемого качества» (QbD) для применения в улучшенном мониторинге процессов и контроле качества в различных сферах. Методами хемометрии повсеместно пользуются и ученые, и технические специалисты. Однако больше всего (конечно, не ограничиваясь этим) хемометрические методы применяются в медико-биологической сфере, например, в сельском хозяйстве, пищевой промышленности, фармации, химии, биохимии и геномике. Кроме того, они нашли применение и в других областях, например, в нефтяной отрасли, текстильной промышленности, изготовлении сенсорных устройств или косметики. Эти методы обладают потенциалом распространиться и дальше. Используемые в хемометрии математические принципы известны с начала 20 века, однако распространение она получила с развитием цифровых технологий и связанным с ними прогрессом в разработке математических алгоритмов. В основе многих методик и методов лежит геометрическое представление, преобразование и моделирование экспериментальных данных. Позднее к этому добавились математические и теоретические разработки. 1.1.4. Знакомство с хемометрией В хемометрии представляющее интерес свойство оценивается исключительно с точки зрения информации, которая содержится в результатах измерения образцов. Алгоритмы применяются к множествам данных напрямую, а представляющая интерес информация извлекается из моделей (этап моделирования или калибровки). Хемометрия ассоциируется с многофакторным анализом данных, который обычно меньше зависит от предположений о распределении данных, чем многие другие статистические методы, поскольку редко предполагает проверку гипотез. В ходе моделирования можно усилить наиболее важные изменения представляющих интерес свойств и в то же время свести до уровня шума менее актуальные изменения дестабилизирующих факторов безотносительно к причине их появления, будь это физическая, химическая, экспериментальная или связанная с оборудованием вариация. Хемометрические модели служат методом прогнозирования. Они не являются формальным или упрощенным представлением какого-либо физического, химического или иного явления. Следует оценивать, насколько можно спрогнозировать рассматриваемые свойства с помощью модели с точки зрения ее качества. Наилучшая модель или калибровка позволят наилучшим образом оценить представляющие интерес свойства. Полезная модель — это такая модель, на которую, например, можно положиться при принятии решений, но такое применение модели обязательно должно быть подкреплено приемлемыми, надежными и понятными процедурами оценки. 3 При однофакторном анализе определенные переменные системы анализируются по отдельности. Однако в реальной жизни системы обычно сложнее: может оказаться, что переменные образца невозможно разделить, они могут взаимодействовать друг с другом, а их комбинации могут производить различный эффект. При многофакторном анализе одновременно рассматривается несколько переменных, поэтому отношения, которые имеют место внутри множества данных или между такими множествами (обычно в виде матриц), нужно представить так, чтобы выявить актуальную информацию. При использовании многофакторных методов исходные данные часто группируют линейно, чтобы учесть как можно больше объяснимых данных, и тогда идеальной будет ситуация, когда неучтенным в модели останется только шум. При условии надлежащей валидации можно вместо дорогостоящих и занимающих долгое время измерений применять для прогнозирования новых значений построенную модель. В целом, рекомендуется использовать такие проекционные методики, как анализ главных компонент (PCA), регрессия на главные компоненты (PCR) или метод дробных наименьших квадратов (PLS). Однако подход будет зависеть от того, как были получены данные: в результате особого дизайна эксперимента (сконструированные данные) или случайным образом из определенной выборки (несконструированные данные). В матрицах сконструированных данных переменные ортогональны в силу конструкции, поэтому для описания данных в таких матрицах хорошо подходят традиционные статистические методы множественной линейной регрессии. В случае несконструированных данных, напротив, переменные редко ортогональны, но более-менее коллинеарны, что делает более предпочтительным многофакторный анализ данных. 1.1.5. Качественный и количественный анализ данных Качественный анализ данных можно разделить на эксплораторный (неконтролируемый) анализ, при котором анализируются данные новой системы, и классификационный (контролируемый) анализ, в ходе которого прогнозируются значения признаков. Неконтролируемый анализ При эксплораторном анализе многофакторные методы используются для получения общего представления о данных для построения гипотезы, выбора подходящих методов анализа и схем отбора проб, а также для определения, как может проводиться многофакторный анализ подобных данных, которые уже имеются и будут получены позже. После того, как будет завершена обработка в эксплораторном анализе, можно проводить классификацию в форме вторичной обработки, при которой образцы распределяются по определенным группа или классам. Контролируемый анализ Классификация — процесс определения, принадлежат ли образцы к тому же классу, что использованные для построения модели, или нет. Если неизученный образец хорошо подходит к определенной модели, говорят, что он относится к описываемому этой моделью 4 классу. В этой категории много задач, которые встают перед специалистами по анализу, например, материалы могут сортироваться по качеству, физическим свойствам и так далее. Испытания на подлинность — особая ситуация, в которой неизученные образцы сопоставляются с подходящими материалами сравнения, напрямую или опосредованно, например, с использованием хемометрической модели. Количественный анализ, с другой стороны, в основном состоит из калибровки, после чего следует его применение к новым неизученным образцам. Калибровка — прогнозирование математического отношения определенного параметра, который предстоит оценить (например, концентрации), к результату измерения переменной. 1.2. НАДЛЕЖАЩАЯ ПРАКТИКА ХЕМОМЕТРИИ В статье используются следующие обозначения:X, Y — множества данных, X — независимые переменные, Y —зависимые переменные, X, Y — матрицы, x, y — векторы, x, y — скалярные величины, i, j — индексы, точки, xi — i-е значение вектора x, xi,j - i-е и j-е значение матрицы X, XT — матрица, транспонированная из матрицы X, X-1 матрица, обратная матрице X (если такая существует), — центр матрицы X относительно ее среднего значения, X̂ — оценка матрицы X, |X| — определитель (квадратной) матрицы X, x — норма вектора x, b — коэффициент уравнения регрессии, e — остатки множества X, f — остатки множества Y.1.2.1. Показатели качества регрессии Построение регрессионной модели при количественном анализе предполагает подгонку какого-либо математического отношения под соответствующие ему независимые (X) и зависимые (Y) данные. Независимые данные могут представлять собой подборку сигналов, то есть откликов на ряд калибровочных образцов, тогда как зависимые данные могут соответствовать величинам признака, то есть представляющего интерес свойства калибровочных образцов. Рекомендуется проверять регрессионную модель набором внутренних и внешних тестовых множеств. Внутреннее тестовое множество состоит из образцов, которые использованы для построения модели (или для достижения калибровки) путем повторной выборки из калибровочных данных и образцов, которые изначально были 5 отброшены при калибровке, чтобы валидировать модель. Использование внутренней тестовой выборки — часть выбора модели и ее оптимизации. Внешнее независимое тестовое множество — это данные, которые обычно становятся доступны, когда модель уже построена, таким образом, внешнее тестовое множество ставит модель под сомнение и проверяет ее робастность для анализа данных, которые будут получены впоследствии. 1.2.1.1. Средняя квадратическая ошибка прогноза Связь между множествами X и Y исследуется по общему множеству образцов (калибровочному), из которого набраны значения x и y, которые четко известны. Затем, для второго множества образцов (валидационного), спрогнозированные значения y сравниваются с референтными значениями y, а в результате получается остаток прогноза, который можно использовать для расчета остаточной дисперсии при валидации, то есть меры неопределенности будущих прогнозов, которая называется «средняя квадратическая ошибка прогноза» (RMSEP). Этим значением оценивается неопределенность, которой можно ожидать, когда делается предположение о значениях y новых образцов. Поскольку в ходе моделирования не делается никаких предположений на счет распределения статистической погрешности, ошибку прогноза нельзя использовать для констатации ценного статистического интервала спрогнозированных значений. Тем не менее, средняя квадратическая ошибка прогноза — довольно хорошая оценка погрешности в тех случаях, когда и калибровочное и валидационное множество данных показательны для будущих образцов. Доверительный интервал для спрогнозированных значений y был бы ± n *RMSEP, где n задается оператором. Обычно берется n = 2. Выбор n должен зависеть от требований конкретного метода анализа. Хемометрические модели могут оказаться более прецизионными, чем референтные методы, используемые для получения калибровочных и экспериментальных данных. Такое обычно наблюдается в паре из определения содержания воды с помощью спектрометрии в ближней инфракрасной области и метода дробных наименьших квадратов, когда в качестве референтного метода выступает определение воды полумикрометодом (общая статья №2.5.12). 1.2.1.2. Стандартная ошибка калибровки и коэффициента детерминации Расчет показателей качества может помочь в оценке того, насколько хорошо калибровка соотносится с данными. Два примера таких статистических выражений: стандартная ошибка калибровки (SEC) и коэффициент детерминации(R2). SEC измеряется в тех же единицах, что и зависимые переменные, и отражает масштаб погрешности моделирования, но не может применяться в оценке будущих ошибок прогноза. Это указание на то, будет ли расчет с помощью уравнения калибровки достаточно точен для намеченной цели. На практике SEC придется сравнивать с ошибкой референтного метода (SEL, стандартная ошибка лаборатории; см. глоссарий). Обычно SEC больше SEL, особенно когда при моделировании учтены не все случаи интерференции для образцов или 6 имеют место какие-то другие физические явления. Коэффициент детерминации (R2) — относительная мера того, насколько хорошо калибровка подогнана к данным. R2 может принимать значения от 0 до 1. Значение, приближенное к 0, указывает, что соотнести данные с референтными значениями при калибровке не удалось. А по мере того, как коэффициент детерминации растет, данные X становятся все более точным предиктором референтных значений. Если независимых переменных больше 1, следует использовать вместо коэффициента детерминации R2 приведенный коэффициент детерминации R2, поскольку количество независимых переменных в модели увеличивает неприведенный R2, даже если часть дисперсии, которая объясняется моделью, не растет. 1.2.2. Этапы применения хемометрических методов на практике На практике хемометрические методы в каждом индивидуальном случае применяются по-разному. Это зависит от конкретных требований анализируемой системы. При анализе несконструированных множеств данных может использоваться нижеописанный общий подход: - при формулировании проблемы для исследования точно определяют, с какой целью собираются данные и, примерно, какие ожидается получить результаты; - изучают источники данных и насколько эти данные доступны. Множество данных должно охватывать разнообразие исследуемой переменной или признака (или нескольких); - если доступные данные не охватывают ожидаемого разнообразия, для восполнения этого недостатка подготавливают дополнительные образцы и проводят измерения для них; - отбор переменных: иногда отбор правильных переменных может повысить робастность, а также точность модели; - возможно, придется преобразовать исходные данные и провести предварительную математическую обработку; - разрабатывают модель путем калибровки и валидации; - подвергают модель испытанию и проверяют ее качество на новых образцах или данных; - валидируют метод в соответствии с текущим фармацевтическим применением и требованиями. 1.2.3. Аспекты, которые следует учитывать для данных 1.2.3.1. Качество образца Тщательный отбор образцов повышает вероятность получения из аналитических данных полезной информации. Всегда, когда есть возможность скорректировать выбранные переменные или параметры в соответствии с дизайном эксперимента, повышается качество результатов. Дизайн эксперимента (также называемый «план эксперимента», «DoE») может использоваться для внесения систематических и контролируемых изменений в образцы (не только для аналитов, но и для случаев интерференции). При моделировании обычно рекомендуется учитывать, какие переменные необходимы для надлежащего описания образцов, какие образцы подобны друг другу, и содержит ли множество данных родственные