September 21st, 2010

2021 год
  • ailev

Семинар по каталогам в Росатоме

Все на свете -- это единый RDL с технической точки зрения. Если уточнить, то выясняется, что "федерация RDL" и поднимается вопрос об оргдизайне разных промышленных инициатив по стандартизации: "этому королевству мы не верим", "эта демократия пошла неправильным путём", "этим уважаемым людям мы поверим", "эту картину мира мы возьмем к себе, так и быть" и т.д. Не технологический и даже не экспертный вопрос. Это вопрос оргдизайна: целей, полномочий, разделения труда (capabilities/skills) и т.д. То бишь это предмет PraxOS (организация организаторов).

"Я, как инженер, кодировал всю жизнь формы спецификаций на Excel. Опыт показал, что кодировать формы на XML ничуть не труднее, дело не в языке записи, а в содержании" -- это говорит Магне.

"Существующим схемам данных мы не верим: их делали не для дела, а для сдачи приложений в срок -- значительная часть implicit информации ушла либо в код приложения, либо в ручную работу тех, кто работает с этим приложением. Нужно брать выходные формы и заново получать схему данных, по максимуму вытаскивая imlicit информацию" -- это Глендинниг.

RDL (онтология) -- это список сигнатур шаблонов (и связанных с ними логических высказываний по подъему-опусканию). То есть текст на языке (по части 8 -- это язык OWL), на который можно напустить XSLT, прувер для проверки их целостности и т.д. Пополнение RDL -- это пополнение списка этих сигнатур. Хранится RLD вообще в форме набора файлов OWL (а хранение в триплах -- это уже неважная подробность).

Каждое поле текстовой строки в какой-то базе данных/Excel-таблице/экранной форме -- это микроDSL, за которым стоит небольшая онтология (набор сигнатур шаблонов). Пока никто не думал, что кроме "онтологии за текстовой строкой" у нее есть еще и синтаксис, ибо часто в поле появляется только набор литералов. Проблема в том, что набор литералов -- это только простейший частный случай "текста вообще". Про семантизацию (определение семантики для текстовых строк), как связь ("подъем") синтаксиса до онтологии тоже пока не думалось.

Оценка: для описания инженерного оборудования нужно порядка 1200-1600 базовых шаблонов (для сигнатуры каждого из которых нужно задать граф подъема-опускания). Вообще-то этих шаблонов миллионы, для разных отраслей знаний.

Сам стандарт ("слон") настолько запутанный, что не мешало бы его описать на самом себе. Но этим, похоже, никто пока не озабочен.
2021 год
  • ailev

Семинар по каталогу Росатома, день второй

Маг и волшебник Джохан Клювер убедительно показал, что всё добро в части 7, а в части 8 одновременно ужас и счастье. Счастье заключается в том, что мы попадаем в волшебный мир трипл-сторов с мидлверами, множества учебников OWL и SPARQL, готовых пруверов и таких восхитительных программ, как Protege. А вот ужас в том, что вышивание шаблонов на OWL невыносимо: пара строчек шаблона разворачивается 80-ю строчками на SPARQL в дикую структуру OWL, которую даже поглядеть через Protege очень трудно, не то чтобы в самом тексте на OWL. Опять же счастье, что технически этого развернутого в OWL шаблона никто никогда не увидит. Несчастье в том, что пока нет никакой технологии, которая позволяла бы реализоваться предыдущему предложению: как раз сейчас-то все именно это и видят. И это мейнстрим, куда пойдут все.

Макропрограммирование на OWL -- это отдельная специальная песня, когда вы делаете маленькую онтологию шаблона-как-такового, просто чтобы пронумеровать позиционные параметры в сигнатуре шаблона.

К проблеме масштабируемости с предлагаемыми в части 8 технологиями страшно подступиться. Вечный вопрос: на какой уровень предварительно всё разворачивать, а что оставлять для разворачивания на лету при любом запросе? Как предлагаемый темплейтный подход будет тянуть стандартный для семантического веба софт, ежели его грузануть каким-нибудь проектом атомной станции или подводной лодки в порядке handover этого проекта в формате ISO 15926? Сколько там будут шуршать проверки при добавлении/удалении какого-нибудь темплейта? Сутки? Двое?

Кстати, iRING не соответствует части 8.

И OIM -- не рекомендованный к применению термин, ибо это дань уважения объект-ориентированным программистам (и именно поэтому в тексте рядом с описанием того, что такое OIM много объектных, т.е. UML диаграмм. Именно поэтому много комментариев, нивелирующих значение OIM). Лучше говорить {local, domain, выберите любое слово по вкусу} ontology.

Вера в осмысленность нашего .15926 в мировом мастабе у меня растёт ежедневно.