Цитаты автора Джон Келлехер

Alexey Nitsaцитирует2 года назад
Например, нам понадобилось выявить закономерности, которые помогут идентифицировать группы клиентов, демонстрирующих сходное поведение и вкусы. На языке бизнеса эта задача известна как сегментация клиентов, а в терминологии науки о данных выявление такого типа закономерностей называется кластеризацией
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
называется поиском ассоциативных правил.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
обнаружение аномалий или выбросов
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
Реляционная модель позволила извлекать данные из базы путем простых запросов, которые определяли, что нужно пользователю, не требуя от него знания о внутренней структуре данных или о том, где они физически хранятся.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
рганизация хранилищ данных — это процесс агрегирования и анализа данных для поддержки принятия решений.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
Извлечение, преобразование и загрузка (ETL) — это термин, используемый для описания стандартных процессов и инструментов для сопоставления, объединения и перемещения данных между базами.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
. Куб данных имеет фиксированный, заранее определенный набор измерений, где каждое измерение отображает одну характеристику данных.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
Большие данные часто описываются по схеме «3V»: экстремальный объем (Volume), разнообразие типов (Variety) и скорость обработки данных (Velocity).
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
Преимущество использования объектного представления данных (по сравнению с моделью на основе реляционной таблицы) состоит в том, что набор атрибутов для каждого объекта заключен в самом объекте, а это открывает дорогу к гибкому отображению данных
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Alexey Nitsaцитирует2 года назад
При работе с большими объемами информации на высоких скоростях может быть полезным с точки зрения вычислений и поддержания скорости распределять данные по нескольким серверам, затем обрабатывать запросы, вычисляя их результаты по частям на каждом из серверов, а затем объединять их в сгенерированный ответ. Такой подход использован в модели MapReduce на платформе Hadoop. В этой модели данные и запросы отображаются на нескольких серверах (распределяются между ними), а затем рассчитанные на них частичные результаты объединяются.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться