?

Log in

No account? Create an account

Previous Entry Share Next Entry
Хакатон по оценке онтологий
2011
ailev wrote in dot15926
Продолжается Ontology Summit 2013 (ontolog.cim3.net/cgi-bin/wiki.pl?OntologySummit2013). Мой доклад про методологию инженерии справочных данных ISO 15926 был в прошлый четверг (аудио и ссылка на слайды -- http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2013_02_07), в слайдах есть и скриншот нашего .15926 Editor.

Очередная тамошняя идея -- это провести хакатон (hackathon) или онтологическую клинику (ontology clinic) в рамках темы этого саммита, ontology evaluation (а именно -- верификация, валидация, выбор, оценка качества онтологий).

Хакатон (ontology hachathon) -- это когда люди собираются очно (иногда и виртуально) и день-два кодят программы по работе с онтологиями. Ontology clinic -- это когда люди пытаются что-то сделать с онтологией (например, провести какую-то её оценку: измерить качество, верифицировать, валидировать, выбрать).

Есть предложение провести такой хакатон/клинику и у нас, на русском языке. Мы (TechInvestLab) предоставим офис, чай, консультации для участников. Результаты будут доступны всем. Содержанием этого хакатона/клиники могло бы быть выполнение мини-проектов:

-- написание расширений к .15926 Editor по оценке онтологий (тут огромное поле для идей даёт сессия с описанием множества технологий и наборов метрик по оценке онтологий: http://ontolog.cim3.net/cgi-bin/wiki.pl?ConferenceCall_2013_01_31).

-- оценка (взаимные консультации, ontology peer review, а также использование написанных тут же специальных расширений) для каких-то справочных данных ISO 15926, которые привезут с собой участники. А если не привезут, то мы будем делать оценку JORD RDL (благо наш софт позволяет работать с этой библиотекой быстро).

-- оценка соответствия (compliance) представления справочных данных (предоставленных участниками хакатона/клиники) Стандарту.

По традиции (а традиции есть -- погуглите ontology hackathon) число мест ограничивается, иногда берутся оргвзносы (думаю, мы пока это делать не будем), на самом мероприятии не только кодируют, прогоняют тесты и удавливают баги, но и проводят брейнстормы, обмен опытом, тьюториалы и т.д. Результаты обычно публикуются в Сети (в нашем случае они будут доведены и до участников Ontology Summit -- а для этого хакатона там есть и специальный список рассылки, в том числе в котором обсуждаются работы по их собственному репозиторию онтологий OOR: http://ontolog.cim3.net/forum/ontolog-dev/2013-02/index.html, подписка-отписка тут: http://ontolog.cim3.net/mailman/listinfo/ontolog-dev/).

Мы готовы принять очно 15 человек в нашем офисе и ещё 20 человек по скайпу+mikogo.com (то есть устроить virtureal event).

Чаще всего эти хакатоны и клиники идут пару выходных дней. Как нам лучше сорганизоваться: один или два дня? В будни или таки в выходные? Сколько желающих поработать в Москве, и сколько удалённо? Что нужно было бы обязательно иметь в программе мероприятия? В феврале проводить, или через месяц, в марте? Нужно ли о чём-то предварительно договариваться через интернет "на берегу", или делать всё в классической манере хакатона: решить всё на утреннем очно-виртуальном общем совещании в день мероприятия? Отпишитесь по этим вопросом тут в комментах, плиз.

  • 1
Я бы с удовольствием принял участие. Удаленно и в выходные. Один день, конечно, удобнее, но за два, наверное, получится успеть в 3 раза больше, чем за один.

простейшая модель

пару лет назад я проверял как работает резонер Pellet на простейшей русскоязычной онтологии для решения загадки Эйнштейна

http://test.feofan.com/

Здесь я сохранил код
http://code.google.com/p/ddtor/source/browse/?r=281#svn%2Fpallet

Этот проект сейчас бежит на Гугле (AppEngine)

Я думаю, что было бы неплохо построить похожую простую модель (но в более удобоваримом виде, конечно) для представления идеи оценки качества разных онтологий и резонеров.

Первое, что хочется понять - что будет оцениваться? разрешимость онтологий или собственно онтологический контент?

Давайте сделаем, например, несколько простых примеров онтологий и решающих их резонеров, отвечающих на два вечных вопроса: "Кто виноват?" и "Что делать?"

Сделаем несколько разных онтологий на тему "Кто виновыат" - одна будет полная но с "глупым" контентом, другая с более-менее нормальным контентом и разрешимая но "плохо" организованная, а третья - неразрешимая, но хорошо организованная (структурированная на абракции и т.п.)

Поставим также работать несколько разных резонеров, некоторые из которых могут быть несовместимыми с "языком" какой-то онтологии.

Аналогичные онтологии напишем по теме "Что делать?" (например, какое вино лучше подходит в данной ситуации)

Одна онтология, к примеру, будет утверждать, что лучше всего выдержанные французские вина, другая - что критерием "что делать?" (что пить?) является соотношение крепость/цена, а третья опишет доступность вин в зависимости от координт и кошелька вопрошающего.

И еще можно сделать клиенткую часть в виде аппликации для Андроида, к примеру, чтобы протестироваться с телефона

Задавая гаджету вопросы "Кто виноват?" и "Что делать?" вопрошающий будет получать на выбор ответы от разных резонеров и онтологий

Предпочтение свободным рынком "ответов на вопросы" соответствующих решений и будет их оценкой

Грубо говоря, я предлагаю сделать модель надстройки ("семантический гаджет") над "семантическим поиском", где внешне "простые"
вопросы переформатируются в "правильные" запросы к соответствующим онтологиям и резонерам для последующего выявления "победителей" в свободной конкурнетной борьбе на свободном рынке онтологий и резонеров

Думаю что шести онтологий и трех резонеров будет достаточно, чтобы простейший "семантический гаджет" продемонтрировал все черты этого подхода.

Чево скажете?


Re: простейшая модель

У нас более простые и приземлённые идеи: в .15926 Editor есть интерфейс для написания алгоритмов (в том числе, если есть желание, подключение ризонеров и т.д.) над онтологиями ISO 15926. Вот для этого интерфейса и нужно написать какие-то фрагменты кода, делающие оценку онтологии.

Онтологии для оценки можно взять или те, которые принесут участники (там обычно не про "что делать" и не про "кто виноват", а какое-нибудь оборудование для какого-нибудь каталога), или прямо JORD RDL, качество которого не слишком высоко, но никто не может ткнуть пальцем и сказать что-то об этом конкретное. Вот мы оценкой этих онтологий и займёмся.

Если честно, то жалко тратить время на решение абстрактных задач на этих хакатонах, когда есть асболютно конкретные и понятные -- типа адаптировать метрики качества онтологии для ISO 15926 и замерить их нахаканным конкретным кодом на свежей версии JORD RDL.

Для ISO 15926 конкретно Pellet будет бесполезен, ибо OWL используется только как своеобразный сериализационный формат. У ISO 15926 своя семантика, не совпадающая с семантикой OWL.

Конечно, любители OWL и Pellet могут похакать что-нибудь тоже, но лучше это делать в рамках каких-то других хакатонов Ontology Summit, у нас же фокус будет на оценке онтологий именно ISO 15926.

Кстати, прямо сейчас идёт активнейшая работа по оценке compliance выдаваемого .15926 Editor кода требованиям разных частей ISO 15926 -- и в этой работе занято довольно много людей, исправляются ошибки, много чего происходит, причём в разных странах и городах. А на хакатоне можно было бы задействовать всё это, чтобы попроверять онтологии, подготовленные разными группами модельеров, использовав как раз нашу софтинку и предлагаемый ей способ работы exploratory programming на языке Python.


Re: простейшая модель

конечно, это понятно и разумно, я согласен - нет вопросов

кстати, я потусовался на этом саммите пару лет назад (да и сейчас иногда посещаю виртуально) - там мало что выходит за рамки общих разговоров и протоколирования - кто чего сказал - разве что мониторится "семантический" процесс в целом, что тоже понятно и оправданно

я лично не представляю как можно собрать "хакатон" из нескольких начальников и руководителей, которые за день напишут работающий код

не верю! - как говорил великий Станиславский :)



Re: простейшая модель

Так мы ведь не начальников соберём, а тех, кто может поработать :-)
Начальники тоже могут поучаствовать, например, в тьюториалах -- ежели будет запрос. Но тьюториалы на хакатонах явно не просто для общего развития, так что начальникам будет неинтересно.

Re: простейшая модель

я никогда подобного (хакафонов) не видел и в подобном не участвовал

Питер сказал, что они не живьем предполагают - а виртуально

а там (в виртальном "сексе") хрен поймешь, кто есть кто и кто чего может сделать

давайте посмотрим - интересно :-)


Re: простейшая модель

А можете прикрутить свой код
чтобы наковырять онтологии из википедий или других справочников ?

Re: простейшая модель

"мой код" - это несколько строк на основе демонстрашек (онтологий и ризонеров)

остальное осталось "начать и кончить" :-)

онтологии уже должны быть, конечно, как и ризонеры

"выковыривать" знания из доступных в интернете текстов на русском языка - это интересно, но проблема-то все-равно остается, если там (в текстах) утверждается нечто противоречивое - типо кто-то говорит, что "Вася хороший", а кто-то, что "Вася плохой" - и чо тут делать???

именно поэтому я считаю более актуальной проблему оценки контента а не формализмов (программ и т.п.)

если нас обдурят качественным софтом - нам от этого будет легче???

именно поэтому я предлагаю запустить семантический поисковик по русским онтологиям, чтобы русскоязычные онтологописатели получили свои награды (или наоборот)

но я согласен с Анатолием, что это не совсем по теме предложенного хакафона (что мне сказал и Питер Йим, кстати)

Юрий Милов

ПС Если кому будет интересно обсудить и сделать чё-то подобное - дайте знать, а то одному скучно :-(

Re: простейшая модель

Наибольше времени тратиться на выковыривание знаний/построение онтологий, поэтому лучше тут копаться. А с контентом проблем нет, вот например инженерная энциклопедия в 29 томах с подробным описанием физических процессов, тут уж точно про васю неправильно не напишут.

Какое-то у вас слишком социальное направление в исследованиях, можете не использовать термины-ссылки на людей, ссылки на сложные абстрактные понятия-рынок покажет.

Если привязываться к понятиям о физических объектах, их измеряемых свойствах и процессах, то вопрос достоверности утверждения легко будет проверить экспериментом.
Поменьше менеджмента, побольше инжиниринга.

А какая цель этих ризонеров ? Ну выдаст оно слово, и что? Делать то что в реальности?

Re: простейшая модель

"резонер" - идеальный логик

типо идеальный шахматист (программа)

мы имеем явную проблему и существующее решение, которое не можем найти в силу нашей человеческой ограниченности

ризонер за нас доделывает вывод на основе отологий (описаний некой позиции-ситуации)

удобно иметь такого помошника, если играешь типо в шахматы

в жизни нам тоже много чего открыто, но не все мы умеем эффективно прочитать и просчитать с помошью нам понтной логики рассуждений

в том примере с загадкой Эйнштейна не каждый может быстро вывести немца, хоть никакого секрета там нет

если мы имеем описание физических законов и доступных устройств, то вопрос о возможности технического устройства с определенными свойствами ризонер выведет быстрей чем любой из нас-человеков :-)

давайте научное знание сформулируем в виде онтологии

там сразу очевидны нестыковки в классической и квантовой механике

в математике тоже онтологии распадутся на коструктивистскую, интиционистскую и т.д.

цель ризонеров - проявить противоречия нашего формального знания и поставить вопросы ребром

а решать, конечно, нам, людям - размышлениями, верой, экспериментами


ежели мероприятие на двое суток - хорошо бы поставить дроссель на освещение...

  • 1