Источники данных, предварительная обработка данных
Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.
Если данные расположены в матричной форме, векторы столбцов называются переменными (признаками), а строки - объектами (падежами). По соглашению в хемометрике образцы располагаются в строках, а измеренные величины, переменные, длины волн и т. Д. В столбцах входной матрицы. Аналогично, в хемоинформатике соединения обычно располагаются в рядах условно.
Любому анализу данных предшествует этап обработки данных, часто называемый предварительной обработкой. Термин «предварительная обработка» следует предпочитать термину «предварительная обработка», чтобы не путать его с физической обработкой образца (приготовлением) перед экспериментальным анализом.
Предварительная обработка может привести к серьезной потере информации, но может также отделить полезное и бессмысленное моделирование. Наиболее часто применяемые режимы предварительной обработки: центрирование, масштабирование и преобразование.
Все методы предварительной обработки предполагают некоторые предположения о структуре дисперсии в данных. Среднее центрирование - вычитать средние значения столбцов из каждого элемента матрицы; например сместить начало системы координат в центр облака точек.
Центрирование приводит к тому, что данные с интервальным масштабированием ведут себя как данные с масштабным соотношением, что является типом данных, предполагаемых в большинстве многомерных моделей. Центрирование уменьшает ранг модели, может повысить производительность подгонки, устраняет смещение и позволяет избежать числовых ошибок [1]. Центрирование можно рассматривать как шаг проецирования, оно удаляет постулированное смещение и оставляет структуру данных нетронутой [1]
Зарегистрируйся, чтобы продолжить изучение работы
. Стандартизация означает разделение каждого центрированного матричного элемента со стандартными отклонениями столбцов.
Если переменные измеряются в (существенно) разных единицах, стандартизация абсолютно необходима. Масштабирование или взвешивание преобразует элементы в соразмерный масштаб. Наиболее часто используемые веса - это обратные значения стандартных отклонений.
Таким образом, все переменные масштабируются до стандартного отклонения. Стандартизация позволяет функциям с небольшими вариациями оказывать такое же влияние, как и функции с большими вариациями. Термин автомасштабирование часто используется вместо стандартизации.
Стандартизация не обязательно выгодна: одно и то же влияние пиков и шума в спектральных данных может привести к потере интерпретируемости. В хемометрике нормализация означает масштабирование всех переменных до единичной длины, то есть деление каждого матричного элемента на евклидово расстояние столбца (его часто путают со стандартизацией). Масштабирование диапазона: все переменные могут быть легко преобразованы в интервал [0,1]:
Где j - текущий индекс для столбцов 1, 2,…, m. Все столбцы обязательно будут иметь (как минимум) один ноль и одно целое.
Масштабирование диапазона увеличивает значения ошибок измерений (как и стандартизация), и оно чувствительно к выбросам. После масштабирования диапазона дальнейшая предварительная обработка данных не рекомендуется. Есть много других опций масштабирования (масштабирование Парето, масштабирование Vast, масштабирование уровней и т. д.), см., например, ссылка [2]
50% курсовой работы недоступно для прочтения
Закажи написание курсовой работы по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!