Приложение для анализа и обработки данных KNIME: фильтр строк Row Filter, фильтр полей column filter
Фильтр строк Row Filter
Допустим, вы считали таблицу через Excel Reader и хотите ее отфильтровать.
Достаем ноду Row Filter и соединяем выход Reader’а cо входом Filter’а, без этого соединения Row Filter настроить будет невозможно.
Вначале разберем левую часть окна настроек, а в следующих постах пройдемся более детально по категориям.
- Include rows by attribute value – оставляем строки с определенным значением;
- Exclude rows by attribute value – исключаем строки с определенным значением;
- Include rows by number – оставляем строки с такой-то по такую-то;
- Exclude rows by number – исключаем строки с такой-то по такую-то;
- Include rows by row ID – оставляем строки с определенными идентификаторами. Это используется в случае, если на каком-то из предыдущих шагов вы добавили идентификаторы (уникальные номера) строк в таблицу;
- Exclude rows by row ID – исключаем строки с определенными идентификаторами.
Допустим, мы хотим оставить только определенные строки. Выбираем Include rows by attribute value, смотрим на правую часть окна:
- column to test – колонка, которую фильтруем;
- use pattern match – здесь прописываем строку, которую отфильтровываем;
- case sensitive match – чувствительность регистра. Если галка не стоит, то нода нафильтрует слова и с заглавными, и строчными буквами;
- contains wild cards – галка допускает использование * в качестве любой последовательности символов в шаблоне и ? в качестве одного любого символа;
- галка filter based on collection elements ставится, если на одном из предыдущих шагов вы слили содержимое нескольких колонок в одну (про эту ноду будем говорить потом), в этом случае достаточно одного из «слитых» слов в качестве шаблона;
- галка regular expression - регулярные выражения (в следующем разделе).
Фильтр строк в KNIME (regular expression - регулярные выражения)
Регулярные выражения – это формальный язык для осуществления различных манипуляций с текстом. В случае ноды row filter это помогает отфильтровать строчки по достаточно сложным принципам, например, оставить только строки, содержащие слова с тремя буквами «а». Список правил для построения регулярных выражений достаточно большой, поэтому вот ссылка на сайт с разбором примеров:
http://website-lab.ru/article/regexp/shpargalka_po_regulyarnyim_vyirajeniyam/
При выборе опции In/Exclude by row number в правой части окна выбираем диапазон строк, которые нужно оставить/исключить. Можно поставить галку to the end of the table, и фильтр сработает от выбранной строки до конца таблицы.
Опция In/Exclude by row ID позволяет прописать регулярное выражение (см. пост выше), для шаблона уникального идентификатора строки.
Фильтр полей в KNIME
Нода column filter фильтрует колонки таблицы, поданной на вход. В окне настроек по умолчанию включена опция Manual Selection, т.е. вручную перемещаем те колонки, которые нужно оставить, в правую часть окна.
Опция Enforce Exclusion/Inclusion позволяет оставить набор колонок в соответствующей части окна тем же самым, даже если что-то меняется в таблице, поданной на вход. Если в результате манипуляций из таблицы исчезает колонка, то половине окна с включенной функцией Enforce появится знак «?».
При выборе опции «Wildcard/Regex Selection» можно вписать в поле шаблона регулярное выражение или шаблон с символами «?» и «*» (описание см. в разделе про Row Filter), и тогда в правую часть (отфильтрованное) переместятся только колонки, имена которых удовлетворяют шаблону. В примере на скриншоте выбрана опция Wildcard и шаблон «1*». В отфильтрованной таблице будут только колонки, которые начинаются с единицы.
Скачано с www.znanio.ru
© ООО «Знанио»
С вами с 2009 года.