Лекція 4. Банк даних його склад і особливості.
Банк даних (Бнд) - це автоматизована система спеціальним образом організованих даних - баз даних, програмних, технічних, язикових, організаційно-методичних засобів і персоналу, призначених для забезпечення централізованого нагромадження й колективного багатоцільового використання даних.
Банк даних покликаний забезпечувати інтегрованість і цілісність баз даних, незалежність і мінімальну надмірність збережених даних, їхній захист від несанкціонованого доступу або випадкового знищення.
У загальному випадку банк даних складається з бази даних (або декількох баз даних), системи керування базами даних (СУБД), словника даних, адміністратора, комп'ютерної системи й обслуговуючого персоналу
Користувачами комп'ютерної БД можуть бути різні прикладні програми, програмні комплекси, фахівці предметної області, що виступають у ролі споживачів або джерел інформації.
Організація даних у базі даних вимагає попереднього моделювання, тобто побудови логічної моделі даних.
Модель даних - це деяка абстракція, що, будучи застосовна до конкретних даних, дозволяє розроблювачам і користувачам трактувати їх уже як інформацію - відомості, що містять не тільки дані, але взаємозв'язок між ними. Головне призначення моделі даних - систематизація різноманітної інформації й відбиття її властивостей по змісту, структурі, обсягу, зв'язкам, динаміці з урахуванням задоволення інформаційних потреб всіх категорій користувачів.
До класичних моделей подання даних відносять ієрархічну, мережну й реляционную.
Ієрархічна модель даних представляє інформаційні відображення об'єктів реального миру - сутності і їхнього зв'язку у вигляді орієнтованого графа, або дерева.
Структура відносин між об'єктами може представлятися не тільки деревоподібними структурами, але й мережною моделлю даних Мережна модель організації даних є розширенням ієрархічної моделі. В ієрархічних структурах запис- нащадок повинна мати тільки одного предка - у мережній структурі даних нащадок може мати будь-яке число предків.
Мережна модель, як більше загальна, надає більші можливості в порівнянні з ієрархічної, однак вона складніше в реалізації й використанні.
У цей час найбільше поширення при розробці БД одержали реляционные моделі. . Ці моделі характеризуються простотою структури даних, зручним для користувача табличним поданням і можливістю використання формального апарата реляционной алгебри й реляционного вирахування для обробки даних.
Реляционная модель орієнтована на організацію даних у вигляді двовимірних таблиць. Реляционная таблиця являє собою двовимірний масив і має наступні властивості:
кожний елемент таблиці - один елемент даних;
всі стовпці в таблиці однорідні, тобто всі елементи в стовпці мають однаковий тип (числовий, символьний або інший) і довжину;
кожний стовпець має унікальне ім'я;
однакові рядки в таблиці відсутні;
порядок проходження рядків і стовпців може бути довільним.
Проектування реляционной БД складається із трьох самостійних етапів: концептуального, логічного й фізичного проектування.
Метою концептуального проектування є розробка БД на основі опису предметної області. Опис повинне містити сукупність документів і даних, необхідних для завантаження в БД, а також відомості про об'єкти й процеси, що характеризують предметну область. Розробка БД починається з визначення складу даному, підлягаючому зберіганню в БД для забезпечення виконання запитів користувача. Потім виробляються їхній аналіз і структурування.
Логічне проектування здійснюється з метою вибору конкретної СУБД і перетворення концептуальної моделі в логічну. Розробляються структури таблиць, зв'язку між ними й визначаються ключові реквізити.
Етап фізичного проектування доповнює логічну модель характеристиками, які необхідні для визначення способів фізичного зберігання й використання БД, обсягу пам'яті й типу пристроїв для зберігання.
При фізичній організації баз даних мають справа не з поданням даних у прикладних програмах, а з їхнім розміщенням на запам'ятовувальних пристроях.
У результаті проектування БД повинна бути розроблена інформаційно-логічна модель даних, тобто визначений склад реляционных таблиць, їхня структура й логічні зв'язки. Структура реляционной таблиці визначається складом полів, типом і розміром кожного поля, а також ключем таблиці.
В останні роки з'явилися й активно впроваджуються постреляционная, багатомірна й объектно-ориентированная моделі даних, розробляються системи, засновані на інших моделях даних, що розширюють існуючі: объектно-реляционные, семантичні й ін. Деякі їх їх служать для інтеграції баз даних, баз знань і мов програмування.
Система керування базами даних (СУБД) - комплекс програмних і язикових засобів, призначений для створення, ведення й спільного використання БД багатьма користувачами. СУБД розрізняють по використовуваній моделі даних. Вони забезпечують багатоцільовий характер використання БД, захист і відновлення даних. Наявність розвинених діалогових засобів і мови запитів робить СУБД зручним засобом для кінцевого користувача.
Мова структурованих запитів SQL (Structured Query Language) є стандартною мовою запитів по роботі з реляционными БД. Він призначений для виконання операцій над таблицями (створення, видалення, зміна структури) і над даними таблиць (вибірка, зміна, додавання й видалення). SQL не містить операторів керування, організації підпрограм, уведення- висновку й тому автономно не використовується. Звичайно він занурений у середовище убудованої мови програмування СУБД (наприклад, VBA - Vіsual Basіc for Applіcatіons СУБД MS Access і ін.).
Стандарт мови SQL підтримує сучасні реалізації ряду мов програмування. У спеціалізованих системах розробки додатків типу клієнт- сервер середовище програмування, крім того, звичайно доповнена комунікаційними засобами, засобами розробки користувальницьких інтерфейсів, засобами проектування й налагодження.
Основним призначенням мови SQL є підготовка й виконання запитів користувачів.
2.4. Сховища даних і бази знань
Основні проблеми, пов'язані з аналізом інформації, як правило, обумовлені розрізненістю даних у першоджерелах, їхньою якістю й рівнем готовності (відсутністю агрегатів, що обчислюються показників) для рішення аналітичних завдань. Тому на сьогоднішній день найбільш затребуваною технологією, використовуваної при реалізації аналітичної інформаційної системи є Сховища даних, за допомогою яких вирішується завдання збору, очищення й перетворення первинних даних.
Основними ідеями, що лежать в основі концепції сховища даних, є:
інтеграція роз'єднаних деталізованих даних, які описують деякі конкретні факти, властивості, з буття й т.д., у єдиному сховищі;
поділ наборів даних і додатків на використовувані для оперативної обробки й застосовувані для рішення за дач аналізу.
Сховище даних (ХД) - це система, що містить несуперечливу інтегровану предметно-предметно-орієнтовану сукупність історичних даних великої корпорації або іншої організації з метою підтримки прийняття стратегічних рішень
Інформаційні ресурси ХД формуються шляхом витягу моментальних знімків БД операційної ИС організації й різних зовнішніх джерел. ХД збирає, очищає, завантажує, агрегирует, зберігає дані й надає до них швидкий доступ.
При ефективному використанні ХД може бути одним з основних джерел достовірної інформації для керівників і фахівців всіх підрозділів організації.
Про сховище даних можна говорити як про сукупність джерела даних (структура зв'язаних таблиць - це і є сховище), де збирається інформація для подальшої обробки, і процедур витягу, перетворення й завантаження даних (ETL - extractіon, transformatіon, loadіng).
Фізично сховище даних являє собою реляционную базу даних. Однак на відміну від БД корпоративних інформаційних систем (КИСНУВ) сховище має принципово іншу структуру. Наприклад, сховище містить агрегированные дані, що обчислюються показники, зберігає історичні накопичені дані по конкретних об'єктах (період зберігання інформації - тривалий). На відміну від ХД бази даних КИСНУВ містять деталізовані дані, період їхнього зберігання відносно короткий.
Класична архітектура ХД складається з наступних елементів: реляционная, багатомірна, або гібридна БД, засобу витягу, очищення й завантаження даних, засобу візуалізації даних і генерації звітів ( OLAP-Клієнти). Реляционная БД будується по архітектурі "зірка", у якій з однією таблицею фактів зв'язані кілька таблиць вимірів (довідників), або "сніжинка", що відрізняється наявністю ієрархічних довідників. Це робиться для оптимізації швидкості виконання об'ємних запитів (останнім часом з'явилося багато статей, що критикують цей підхід за його спрощеність і неможливість рішення винятково в рамках "зірки" усього різноманіття завдань ХД). У багатомірної БД будуються "куби" - специфічні структури, аналогічні за змістом реляционным "сніжинкам", але обчислені агрегати, що зберігають, на всіх перетинаннях вимірів.
Дані з різних джерел містяться в ХД, а опису цих даних у репозитории метаданных. Кінцевий користувач, використовуючи різні інструменти (засобу візуалізації, побудови звітів, статистичної обробки й т.д.) і вміст репозитория, аналізує дані в сховище. Результатом його діяльності є інформація у вигляді готових звітів, знайдених схованих закономірностей, яких-небудь прогнозів. Тому що засобу роботи кінцевого користувача зі сховищем даних можуть бути найрізноманітнішими , те теоретично їхній вибір не повинен впливати на його структуру й функції його підтримки в актуальному сосгоянии.
Особливості сховища даних пов'язані з особливостями завдань, на рішення яких воно орієнтовано: аналітичну оперативну обробку інформації й, як наслідок, складні для оперативних баз даних SQL- Запити.
На основі ХД створюються підмножини даних - OLAP- Куби, багатомірні ієрархічні структури даних, що містять безліч ознак:
дата/час (період часу, до якого ставляться дані);
сфера діяльності ( бізнес-сфера, результат), до якої від носяться дані;
суб'єкт керування (особа, що приймає рішення - ЛПР);
вид ресурсу й ін.
Ці ознаки дозволяють агрегировать дані шляхом довільного сполучення ознак і обчислення статистичних оцінок. У результаті аналізу інформації створюється нове знання, корисне для цілей керування.
Дані в сховище попадають із оперативних систем ( OLTP-Систем), які призначені для автоматизації бізнес- процесів. Крім того, сховище може поповнюватися за рахунок зовнішніх джерел, наприклад статистичних звітів.
QLAP ( On-Lіne Analytіcal Processіng) не являє собою необхідний атрибут сховища даних, але він все частіше й частіше застосовується для аналізу накопичених у цьому сховищі відомостей.
Таким чином, завдання сховища - надати "сировину" для аналізу в одному місці й у простій, зрозумілій структурі.
Є й ще одна причина, що виправдує появу окремого сховища. Складні аналітичні запити до оперативної інформації гальмують поточну роботу компанії, надовго блокуючи таблиці й захоплюючи ресурси сервера.
Основними причинами, що спонукують організації впроваджувати сховища даних, є:
необхідність виконання аналітичних запитів і генерації звітів на не задіяних основними ИС вычис лительных ресурсах;
необхідність використання моделей даних і технологій, що прискорюють процес виконання запитів і підготовки від парності, але не призначених для обробки транзакцій;
створення середовища, у якій навіть щодо невеликих знань основ СУБД досить для створення запитів і під готування звітів, що означає скорочення часу, необхідно го від персоналу Ит- Відділу для супроводу системи;
створення джерела з попередньо очищеної информа цией;
спрощення процесу підготовки звітів на основі информа ции з декількох транзакционньгх систем і/або зовнішніх ис точников даних і/або даних, використовуваних винятково для генерації звітів;
створення виділеного джерела в тих випадках, коли віз можности операційної системи не відповідає необхідно му бізнесом строку зберігання даних і/або необхідно мати можливість підготовки звітів на певні моменти часу в минулому;
захист кінцевих користувачів від необхідності в який би те не було ступеня вникати в структуру й логіку роботи БД системи, що реєструє.
Перехід від даних до знань - логічний наслідок розвитку й ускладнення інформаційно-логічних структур, оброблюваних за допомогою комп'ютера. Активно, що розвивається областю, використання сучасних комп'ютерів є створення баз знань (БЗ) і їхнє застосування в різних галузях науки й техніки.
Знання - це закономірності предметної області (принципи, зв'язки, закони), отримані в результаті практичної діяльності й професійного досвіду, що дозволяють фахівцям ставити й вирішувати завдання в цій області.
Знання можна розглядати як стратегічну інформацію, необхідну для формування мети й побудови кінематичної траєкторії, а інформацію - як оперативні знання, використовувані системою в динамічному процесі.
Під базою знань (БЗ) розуміють сукупність знань, накопичених людиною в певній предметній області, виражену за допомогою деякої мови подання знань.
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.