?

Log in

No account? Create an account

Entries by category: общество

Хакатон по оценке онтологий
2019
ailev
Продолжается Ontology Summit 2013 (ontolog.cim3.net/cgi-bin/wiki.pl?OntologySummit2013). Мой доклад про методологию инженерии справочных данных ISO 15926 был в прошлый четверг (аудио и ссылка на слайды -- http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2013_02_07), в слайдах есть и скриншот нашего .15926 Editor.

Очередная тамошняя идея -- это провести хакатон (hackathon) или онтологическую клинику (ontology clinic) в рамках темы этого саммита, ontology evaluation (а именно -- верификация, валидация, выбор, оценка качества онтологий).

Хакатон (ontology hachathon) -- это когда люди собираются очно (иногда и виртуально) и день-два кодят программы по работе с онтологиями. Ontology clinic -- это когда люди пытаются что-то сделать с онтологией (например, провести какую-то её оценку: измерить качество, верифицировать, валидировать, выбрать).

Есть предложение провести такой хакатон/клинику и у нас, на русском языке. Мы (TechInvestLab) предоставим офис, чай, консультации для участников. Результаты будут доступны всем. Содержанием этого хакатона/клиники могло бы быть выполнение мини-проектов:

-- написание расширений к .15926 Editor по оценке онтологий (тут огромное поле для идей даёт сессия с описанием множества технологий и наборов метрик по оценке онтологий: http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2013_01_31).

-- оценка (взаимные консультации, ontology peer review, а также использование написанных тут же специальных расширений) для каких-то справочных данных ISO 15926, которые привезут с собой участники. А если не привезут, то мы будем делать оценку JORD RDL (благо наш софт позволяет работать с этой библиотекой быстро).

-- оценка соответствия (compliance) представления справочных данных (предоставленных участниками хакатона/клиники) Стандарту.

По традиции (а традиции есть -- погуглите ontology hackathon) число мест ограничивается, иногда берутся оргвзносы (думаю, мы пока это делать не будем), на самом мероприятии не только кодируют, прогоняют тесты и удавливают баги, но и проводят брейнстормы, обмен опытом, тьюториалы и т.д. Результаты обычно публикуются в Сети (в нашем случае они будут доведены и до участников Ontology Summit -- а для этого хакатона там есть и специальный список рассылки, в том числе в котором обсуждаются работы по их собственному репозиторию онтологий OOR: http://ontolog.cim3.net/forum/ontolog-dev/2013-02/index.html, подписка-отписка тут: http://ontolog.cim3.net/mailman/listinfo/ontolog-dev/).

Мы готовы принять очно 15 человек в нашем офисе и ещё 20 человек по скайпу+mikogo.com (то есть устроить virtureal event).

Чаще всего эти хакатоны и клиники идут пару выходных дней. Как нам лучше сорганизоваться: один или два дня? В будни или таки в выходные? Сколько желающих поработать в Москве, и сколько удалённо? Что нужно было бы обязательно иметь в программе мероприятия? В феврале проводить, или через месяц, в марте? Нужно ли о чём-то предварительно договариваться через интернет "на берегу", или делать всё в классической манере хакатона: решить всё на утреннем очно-виртуальном общем совещании в день мероприятия? Отпишитесь по этим вопросом тут в комментах, плиз.

Почему ISO 15926
2019
ailev
За последнюю пару лет ситуация с объяснением того, почему интеграционные (федеративные, MDM и т.д.) решения нужно делать именно на основе ISO 15926, изменилась. Если раньше нужно было сравнивать реляционные и объект-атрибутные (то бишь традиционные ООП) модели данных традиционных MDM и иных "интеграционных" и "шинных" решений в их конкуренции с ISO 15926, то сегодня на рынке много самых разных игроков:
-- аристотелевская традиция (куда попадают практически все известные на сегодня варианты MDM-решений, SOA-реализаций с ESB, варианты "много интеграций точка-точка, и ничего в этом нет страшного").
-- простая интеграция на основе технологий семантического веба (т.е. факт-ориентированная модель, а не объект-ориентированная, но без какой-то онтологической начинки). Это новые игроки, которые подчёркивают преимущество, гибкость и всеохватность факт-ориентированной модели, считая что они легко моделируют "по потребности" недостающие справочные данные. Более того, они демонстрируют убедительные примеры. Грубо говоря, "всё то же самое, что ISO 15926, только без этих ваших сложностей овладения 201 типом, темплейтами, паттернами".
-- "словарное соответствие" ISO 15926 -- по факту, сюда попадает любая схема данных, если она опубликована и открыта (т.е. её можно пробовать мэппить независимо от разработчика). Например, XMpLant и множество схем данных CAD/PLM вендоров попадает в эту категорию. Это может быть как "семантические технологии" (то есть RDF/OWL), так и "просто XML схема" (в разы чаще).
-- "внеуставное моделирование" для ISO 15926 (попытка использовать кусочек RDL -- но не полностью, например, игнорируя 4D)
-- полноценное моделирование в ISO 15926, "как задумано разработчиками"

Сразу скажу, что полноценный разбор особенностей всего этого зоопарка реализаций выходит за рамки формата поста в нашем комьюнити .15926 (хотя мы регулярно обсуждаем эти вопросы с клиентами). Но понимание ситуации хороший повод вспомнить, для чего затевалась вся эта история с ISO 15926 и сформулировать ключевые конкурентные преимущества, отличающие от всех других решений (в том числе от относительно новых решений на базе трипл-сторов, предлагающих факт-ориентированные модели данных, и тем самых эквивалентных по преодолению проблемы "что в одном проекте объект, то в другом атрибут -- и наоборот").

Аналогичные аргументы используются и для обсуждения MDM-предложений (централизованное ведение RDL внутри компании с надеждой на обслуживание этой RDL партнёров и поставщиков в масштабе отрасли или бизнес-эко-системы).

Вот эти "преимущества ISO 15926" (и огромное спасибо Hans Teijgeler за обсуждение):

1. ISO 15926 -- это стандарт (да, включая и часть, находящуюся в JORD -- POSCCaesar Association "майнтейнер" этого стандарта-базы-данных для ISO). Вкладываться в изучение или написание софта для стандарта -- это вкладываться в что-то, что более стабильно, чем решения какого-то одного вендора или какого-то одного проекта. Стандарт описывает систему накопления знания в виде федерации библиотек справочных данных, но верхушка этой знаниевой пирамиды относительно стабильна. Далее могут быть много конкурирующих между собой вендоров с разными реализациями, много использующих эти реализации проектов, но знания об этой "верхушке пирамиды" будут переносимы людьми из проекта в проект. Обучение в одном проекте сможет быть использовано в другом проекте, где все вендоры другие.

Кроме того, вокруг стандарта возникает множество реализаций, которые конкурируют друг с другом по качеству и достаточно близки по функциям, чтобы потенциальные клиенты могли выбирать из их числа. Вокруг стандартов возникает рынок, выбор, разнообразие, что повышает доверие клиентов -- и тем самым защищает вендоров, вложившихся в поддержку стандарта. Для новых участников этого интеграционного рынка не нужно никаких договорённостей с поставщиками технологий, стандарт позволяет свободное присоединение новых участников.

2. "Простые решения", как основанные на ISO 15926 (но игнорирующие 4D онтологию), так и основанные на RDF/OWL, хорошо работают только в рамках одной стадии жизненного цикла (только проектирования, или только сооружения, или только эксплуатации). При выходе за рамки стадии жизненного цикла приходится моделировать всю сложность объекта "система", который изменяется во времени.

ISO 15926 за счет использования 4D онтологии предлагает нормализацию до 6й нормальной формы. Если использовать более простые модели данных, то денормализация порождает кошмар управления конфигурацией данных, находящихся у разных участников жизненного цикла: синхронизация изменений становится весьма и весьма нетривиальной, как в любом случае денормализации.

Все альтернативные решения не гарантируют этой нормализации по всему жизненному циклу системы, а ограничиваются только нормализацией вплоть до 5й нормальной формы на одной стадии жизненного цикла. Но ведь кто-то после этого должен будет проинтегрировать/профедерировать на всём жизненном цикле эти островки интеграции/федерации для одиночных стадий! В этот момент выяснится, что от "простых и быстрых решений" опять придётся переходить к специально предназначенным для этого решениям ISO 15926, переучивать людей, делать очередной мэппинг данных. Ибо модель данных ISO 15926 как раз и получилась такой нетривиальной из-за того, что решала проблему интеграции данных по всему жизненному циклу: в ней полностью поддержано понятие "система", в части постепенной эволюции и уточнения модели системы, а затем замены компонент в ходе функционирования воплощённой "в металле и бетоне" системы (подробнее о сложности понятия "система" и требований к языкам поддержки системы, в том числе необходимость поддержки темпоральных объектов и отношений, см. доклад http://incose-ru.livejournal.com/39744.html).

Управление конфигурацией данных жизненного цикла без активного задействования всей этой сложной модели данных со множественными классификациями (классификацией отношений, аппаратом классов классов), а также 4D (темпоральные части), плюс особенности поддержки понятия системы (физические объекты и функциональные физические объекты) представляется опрометчивым. В случае ISO 15926 есть набор типовых практик решения типовых возникающих при этом проблем, и эти практики не являются ноу-хау каких-то поставщиков: эти практики заложены в стандарт.

3. Стандарт позволяет организовывать массовую (bulk, batch) передачу не только "трансакционных" (проектных) данных как данных об индивидах, но и справочных данных -- данных о классах (классификаторов и справочников НСИ), единиц измерения, ограничений из нормативных актов (типа таблицы номинальных диаметров) и т.д.. Более простые (без использования классов классов и без возможности классифицировать отношения классификации и специализации) модели данных обычно трудно использовать для передачи не только данных, но и сопутствующих им справочных данных (что особенно хорошо проявляется при "странных" видах данных -- вроде каталогов промышленной продукции, которые точно не про экземпляры, а про классы -- много разных железок с серийными номерами для одной строчки каталога, но во многих чертах записи о моделях в каталоге ведут себя как экземпляры. Так же возникают обычно проблемы корректной массовой передачи как проектных, так и справочных данных при "дизайне в классах" и при обсуждении "типовых дизайнов" -- в этих случаях тоже довольно просто запутаться с управлением конфигурацией по всему жизненному циклу.

4. Для надёжности реализации модели данных, поддерживающей весь жизненный цикл, необходима коллективная работа и перепроверки со стороны представителей разных стадий жизненного цикла. Для этого модель данных должна быть
-- открыта для коллективных проверок
-- иметь явные процедуры пополнения, проверки и утверждения

Тем самым возникает необходимость иметь RDL, в которой:
-- публично известен и доступен формат обращения
-- понятно, как работать с метаданными
-- данные в которой имеют статус стандарта (и, соответственно, проходят коллективное обсуждение перед утверждением и публикацией).

ISO 15926 предоставляет детальное описание, как могла бы выглядеть RDL в форме файла, и в форме онлайн-фасада, какие должны быть мета-данные для ведения библиотеки (да, какие-то нюансы этого описания уторговываются прямо сейчас -- но мы же понимаем, что такие неуторгованные моменты всё одно всплывут в любых проприетари реализациях "библиотекоидов". Я намеренно использую суффикс "оид" для указания на объект, который похож на библиотеку, но не библиотка -- типа "гуманоид", который на человека похож, но не человек).

5. Особое внимание к повышению уровня языка:
-- над триплами реализована семантическая сетка из типов Части второй.
-- темплейты, что позволяет резко упростить работу.
-- паттерны, что позволяет ещё больше упростить работу.

Альтернативные интеграционные предолжения содержат какие-то свои собственные способы поднимать уровень высказываний по сравнению с "ассемблером из триплов", но указанных трёх уровней нет ни у кого.
* * *
Конечно, обратной стороной медали тут является сложность освоения модели данных ISO 15926 по сравнению с "простыми и поэтому надёжными решениями" для одной стадии жизненного цикла (неудивительно, что список "трудностей освоения" по факту совпадает со списком "главных достоинств" -- http://dot15926.livejournal.com/30492.html). Но наш опыт показывает, что не так страшен чёрт, как его малюют. Особенно, если учесть:
-- понимание, как осваивать стандарт, потихоньку растёт (см. http://dot15926.livejournal.com/27293.html, довольно много людей успешно продвинулись, следуя этой последовательности).
-- усилия по подъему уровня языка (т.е. освоение работы с паттернами, это писк ISO 15926-моды буквально последнего года) дадут ещё одно снижение образовательного ценза для подключения к работе с модельерами данных обычных инженеров
-- наличие такого софта, как .15926 Editor, который поддерживает всё вышеописанное "из коробки", свободно доступен и позволяет попробовать все решения без привлечения какого-то крупного поставщика RDL и программного обеспечения.