Приложение для анализа и обработки данных KNIME: общие сведения, понятие рабочего процесса, инструменты
Аналитическая платформа KNIME - Data Science без программирования
KNIME - бесплатное приложение для анализа и обработки данных.
Кроме свободного распространения, KNIME не требует от пользователя больших знаний программирования и визуализирует процесс обработки так, что созданный процесс одновременно является и инструкцией к самому себе. Если есть идея о том, что вы хотите в финале сделать с «сырой» таблицей (выгрузкой, текстом, вообще каким-либо набором разрозненных данных), то KNIME обеспечит полный цикл анализа данных, включающий чтение из различных источников, преобразование и фильтрацию, сам анализ, визуализацию и экспорт.
Выглядит это примерно так:
Скачать KNIME можно отсюда: www.knime.org
Рабочий процесс - Workflow
В Knime логика обработки данных закладывается через создание Workflow. Workflow состоит из узлов обработки: чтения данных из БД или таблицы Excel, наложения фильтров, сортировки, построения графиков и т.д. Узлы соединяются между собой стрелками которые показывают направление движение данных.
После создания Workflow его можно запустить на исполнение. Узлы начинают отрабатывать один за одним, начиная с самого первого. Если в ходе выполнения конкретного узла произошла ошибка, то исполнение всей ветки, следующей за ним, прекращается. Существует возможность перезапуска Workflow не с первого, а с произвольного узла.
Светофор у каждого узла отражает его текущее состояние: красный – ошибка/не настроен, желтый – настроен и готов к выполнению, зеленый – выполнен. Результат отработки каждого узла можно посмотреть из контекстного меню по нажатию правой кнопкой мыши.
Node Repository - инструменты KNIME (ноды)
Узлы обработки данных называются нодами. В левом нижнем углу окна приложения находится репозиторий, из которого ноды можно «вытаскивать» на рабочее пространство.
Узлы разбиты на категории. Вот основные:
- IO — ввод/вывод данных (здесь находится узел чтения из файла, например, XLS или CSV);
- Manipulation – преобразование данных (фильтрация, сортировка, группировка и т.д.). Здесь же находятся самые важные ноды для любого сотрудника, часто имеющего дело с Excel: функция ВПР и создание сводной таблицы. Их мы разберем в следующих постах;
- Views – визуализация данных (диаграммы, гистограммы и т.д.);
- Database – возможность подключения к базе данных, чтения/записи. Если ваша работа – не только сводить готовые выгрузки, но и тащить их из базы, то данный блок – ваше спасение. Тоже разберем отдельно;
- Workflow Control – циклы, итерации при выполнении узлов и т.д.
Кроме этого есть ноды для построения корреляций, регрессий, нейронных сетей, проверки гипотез, текст-майнинга, работы с Hadoop и т.д.
Примеры использования нодов можно посмотреть на Knime Hub (https://hub.knime.com/), где есть описание всех нод с примерами на английском языке.
© ООО «Знанио»
С вами с 2009 года.