Абдыкаримова Алия Тлеулиевна, старший преподаватель кафедры Информационных технологий Жетысуского государственного университета им. И. Жансугурова, г. Талдыкорган, 8 771 495 17 72, aliya_10021980@mail.ru
Технология больших данных
Аннотация: В статье рассматриваются понятие Big Data и история возникновения данной технологии, также подробно описываются основные методы анализа и обработки данных и новые технологии анализа больших данных. Также в статье приводятся примеры использования Big Data в Казахстане.
Түйіндеме: Мақалада Big Data түсінігі мен берілген технологияның тарихы, сонымен қатар мәліметтерді өңдеу мен талдаудың негізгі әдістері және көлемді мәліметтерді талдаудың жаңа технологиялары қарастырылады. Сонымен қатар мақалада Big Data-ны Қазақстанда қолдану мысалдары келтіріледі.
Abstract: The article covers the principles of the Big Data technology and the history of its development. Also main methods of data analysis and processing are given together with the new technologies of the Big Data analysis. The article also provides the examples of using Big Data in Kazakhstan
В 2008 году Клиффорд Линч в журнале Nature опубликовал статью, в которой затронул развитие будущего науки с использованием технологии работы с большим объемом информации. После этого, было еще несколько публикаций по данной теме и только потом, пресса стала использовать такое понятие как Big Data. Технология больших данных вошла не только в научно-исследовательскую деятельность и коммерцию, а также и во многие сферы человеческой жизни, где требуется эффективная система хранения и манипулирования информацией.
Big Data – это не просто большое количество данных, а также технологии их эффективной обработки и использования, различные методы быстрого поиска необходимой информации в огромном потоке информации [1].
Обработка большого потока данных для любых систем всегда оставалась важной и актуальной проблемой. Так как информация в нашем современном мире накапливается в любой сфере человеческой жизни.
За последние года объем цифровых данных значительно вырос, исследования, проведенные компаниями Seagate и IDC приведены на рисунке 1.
Рисунок 1. Рост больших данных к 2020 году, прогноз IDC Digital Universe от 2012 г.
В 2010 году начали решать данную проблему, стали выпускать программные продукты, которые должны были помочь в обработке больших данных.
Уже в 2011 году крупные компании, такие как Oracle, Microsoft, IBM успешно начали использовать технологию Big data. Многие вузы внесли в образовательные программы данную технологию как отдельную дисциплину. Например, кафедра Информационных технологий Жетысуского государственного университета им. И. Жансугурова ввела в модульную образовательную программу на прием 2019 г. специальностей 5В070300-«Информационные системы» и 5В060200-«Информатика» дисциплину Big data, где студенты будут изучать технологии обработки больших данных, методы анализа и обработки данных, применение полученных знаний в профессиональной деятельности.
Основные методы анализа и обработки данных показаны на рисунке 1.
Рисунок 2. Методы анализа и обработки данных.
1. Методы класса или глубинный анализ (Data Mining).
Data Mining (переводится как «раскопка данных» или «добыча») – совокупность методов для обнаружения в ранее неизвестных данных информацию, которая необходима или может быть использована при принятии решений, также методы Data Mining применимы для проведения автоматического анализа данных.
2. Краудсорсинг.
Используя данный метод можно получить информацию из нескольких источников
3. А/В-тестирование.
В данном методе одна совокупность элементов сравнивается с другой совокупностью элементов с разными данными, далее выявляют, у какой совокупности элементов показатели больше.
Благодаря тому, что Big Data содержит большое количество данных, за счет этого можно проводить большое число итераций и с каждой из них приближаясь к максимально достоверному результату.
4. Прогнозная аналитика.
Прогнозная аналитика еще называют предсказательной, предикативной - данный метод анализа данных направлен на прогнозирование будущего поведения объектов и субъектов.
Специалисты работающие в данной области заранее предугадывают как будет вести себя объект, для того чтобы принять наиболее выгодное в этой ситуации решение. Прогнозная аналитика базируется на методах машинного обучения [2].
5. Машинное обучение (искусственный интеллект).
Машинное обучение применяется в автоматизированном интеллектуальном анализе данных с использованием алгоритмов, программных решений и математических методов. Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.
6. Сетевой анализ.
Метод сетевого анализа используется, когда необходимо разобраться в связях, возникающие между подсистемами. Данный метод помогает определить взаимоотношения между отдельными структурами и компонентами.
С каждым годом актуальность анализа больших объемов данных растет. Если же ранее Big data был доступен только большим организациям, то на данный момент благодаря новым технологиям анализ больших данных стал доступен и представителям малых и средних структур. Ниже на рисунке 2 показаны данные технологии..
Рисунок 2. Новые технологии анализа больших данных.
1. Искусственный интеллект и Deep Learning
Deep Learning называется один из подходов к машинному обучению, который позволяет предугадывать результаты по входным данным. Другими словами, автономная система самообучения, где используют данные, которые уже существуют для обучения алгоритмов, чтобы найти образцы и в последующем применить их для прогнозирования новых данных.
2. Облачные хранилища
Облачное хранилище данных, так называемая модель хранилища, где данные хранятся на многочисленных серверах, которые распределены в сети и предоставляются в пользование клиентам. Клиент же не знает о структуре «облака», и на каком из нескольких серверов хранятся данные, он имеет только доступ к аккаунту и управлением им.
3. Blockchain
Блокчейн технология - это — непрерывная последовательность блоков, которые содержат информацию и выстроены по определённым правилам. Это своего рода база данных, представляющая собой непрерывную цепь из блоков, хранящиеся на нескольких компьютерах. В данной базе-цепочке постоянно создаются новые блоки, которые содержат в себе группу упорядоченных записей (транзакций), которые накопились за последнее время.
4. Dark Data
Dark Data – это вся неоцифрованная информация, не играющая ключевой роли при ее использовании, но которая может послужить причиной для перехода на новый формат хранения сведений.
Технологии по обработке Big Data зашли и на казахстанский рынок. Правительство Казахстана, ведет большую работу в области информационных технологий, запуская различные государственные программы, такие как Цифровой Казахстан, smart city и т.п.
Одним из крупных заказчиков в Казахстане по обработке больших данных является государство. Ведь для того чтобы иметь контроль над информацией и быть конкурентоспособным, необходимо обрабатывать и использовать накопившиеся за многие годы данные. Например, в сфере медицины ввелся электронный паспорт здоровья, который образует единую базу данных, база министерства образования и науки интегрирована с базами других госорганов на платформе eGov, в сфере бизнеса необходима обработка больших данных и т.д.[3]
Данные являются двигателем современного цифрового мира. Сейчас очень много новых возможностей, которые раньше трудно было даже представить. Технологические инновации будут играть ключевую роль в анализе гигантских объемов доступной информации и извлечении максимальной пользы из нее [4].
1. Чугреев В. Л., Баданин Д. А. Использование прогнозной аналитики в информационно-аналитических системах поддержки принятия решений // Молодой ученый. — 2016. — №6. — С. 49-52. — URL https://moluch.ru/archive/110/27127/ (дата обращения: 13.12.2018).
2. Соколова, А. Как устроен рынок big data в России [Электронный ресурс]. — Режим доступа: http://rusbase.com/howto/big-data-in-russia/
3. https://kursiv.kz/news/hi-tech/2017-08/v-mire-nastupaet-epokha-big-data
4. kapital.kz/tehnology/71257/big-data-v-kazahstane-o-krupnom-zakazchike-kadrah-i-perspektivah.html
инергия форум объединяя науку, бизнес
и
общество. Резуль-
таты проекта «Системный анализ и прогнозирование в сфере науки и
технологий» по направлению «Информационные и телекоммуникаци-
онные технологии» в Казахстане на период до 2030 г.-Алматы, 2014. -
219 с.
инергия форум объединяя науку, бизнес
и
общество. Резуль-
таты проекта «Системный анализ и прогнозирование в сфере науки и
технологий» по направлению «Информационные и телекоммуникаци-
онные технологии» в Казахстане на период до 2030 г.-Алматы, 2014. -
219 с.
инергия форум объединяя науку, бизнес
и
общество. Резуль-
таты проекта «Системный анализ и прогнозирование в сфере науки и
технологий» по направлению «Информационные и телекоммуникаци-
онные технологии» в Казахстане на период до 2030 г.-Алматы, 2014. -
219 с.
инергия форум объединяя науку, бизнес
и
общество. Резуль-
таты проекта «Системный анализ и прогнозирование в сфере науки и
технологий» по направлению «Информационные и телекоммуникаци-
онные технологии» в Казахстане на период до 2030 г.-Алматы, 2014. -
219 с.
© ООО «Знанио»
С вами с 2009 года.