Enzymes ISSN 1867-3317 www.enzymes.at © by Dr. A. Poleev
A. Poleev. Universal Metadata Standard. Enzymes, 2011.
Универсальный стандарт метаданных.
8.03.2011
Резюме. Основой сознания является ассоциативная связь понятий, согласованная работа элементов нейрональной сети. Аналогично этому, создание интернета нового поколения (semantic web) невозможно без атрибутов, позволяющих осуществлять семантическую связь документов и интеграцию их в информационный контекст. Для реализации этих целей предлагается ввести Универсальный Стандарт Метаданных (universal metadata standard, ums), который мог бы служить основой документографии (documentography), функционально необходимой для интерпретации документов в автоматических операционных системах.
Цель научного познания – объять необъятное. Невозможность достижения этой цели очевидна, однако если принимать её за максиму научно–познавательной деятельности и путеводную звезду в поисках истины, удовлетворение стремления узнать больше и расширить индивидуальный круг знаний представляется вполне разумным и оправданным мотивом любого человека. [...]
Непрерывное совершенствование техники коммуникации, преодоление семантических барьеров методом проб и ошибок привело к возникновению стандартов передачи и восприятия информации, примером чего является книгопечатание (полиграфия). Проделав значительный путь, полиграфическая техника привела к становлению микроэлектроники [!!? - А.Л.], которая не только улучшила качество и расширила область достоверного знания, но и ознаменовала собой возможность злонамеренного манипулирования сознанием, поскольку из поля зрения читателей и зрителей, т.е. реципиентов информации, стали исчезать сферы производства и распространения знания, а также те аспекты документов, которые недоступны непосредственному человеческому восприятию, однако могут или должны быть восприняты обрабатывающими информацию машинами (компьютерами). [...]
В центре внимания учёного сообщества находится проблема накопления, верификации и систематизации знаний, оформляемых в виде научных публикаций. Однако появлению всякой публикации предшествует значительная деятельность, как правило сокрытая от публики. Черновой вариант научных статей – лабораторный журнал – это ни что иное, как сборник протоколов о запланированных экспериментах и их результатах.
Однако в идеальном случае он должен протоколировать всё, относящееся к проводимой научной работе и отражать всё, что происходит в лаборатории в хронологическом порядке, начиная от целеполагания, гипотезы, экспериментальной проверки, выводов, впечатления об увиденном и услышанном. В формальном плане, лабораторный журнал должен описывать документы различного формата: фотографии, тексты протоколов, тексты публикаций, видеозаписи конференций (lab meetings), указания на источники в интернете и т.д. Все эти документы должны быть связаны
между собой, снабжены комментариями, и доступны для просмотра и каталогизации. Например, в хронологическом порядке друг за другом могут следовать эксперименты или мысли, относящиеся к различным темам: теоретическое исследование определённого вопроса и сбор соответствующей информации; написание статьи или книги на основании уже завершённой работы; планирование тематически разнородных экспериментов. [...] эта тематическая разнородность должна быть отражена в списках тем, а также в возможности экстрагировать однородную (родственную) информацию посредством указателей (thematic tags) и ссылок (location tags).
Компьютер MacBook, которым я пользуюсь, является таким собранием разнородных документов, и предоставляет возможности их тематического объединения. Однако для их описания, воспроизведения или визуализации необходимо дополнительное программное обеспечение. File Maker только частично удовлетворяет потребности систематизации и описания: на данном этапе отсутствует приемлемая панель обозрения и возможность открывать и использовать документы внутри данной программы, не
прибегая к дополнительным программам. Все эти дополнительные программы в идеальном случае должны быть встроены в качестве опций, а не разбросаны по разным местам: web editor, web browser, photoshop, file maker, pdf reader, video or photo visualiser, text editor и т.д.
[...] проблема документации и систематизации данных приобретает первостепенное значение. Обычно документы классифицируют по алфавиту, по дате, по теме, по проекту, по формату, по местонахождению (local folder, internet address). Для их идентификации служит дата, порядковый или систематический номер, имя (название). Например, изображения (images) имеют формат (file format) jpg, gif, png, psd; тексты (texts) имеют формат pdf, doc, txt. Формат документа – это его идентификационный признак (identification tag), необходимый для опознания в операционных системах и инициации программ (процессирования).
Однако в каждом формате до сих пор отсутствует его систематическое описание, необходимое и достаточное для интеграции и переноса в другие описательные системы [...]. фотография не сохраняет информации о размерах объекта, о его происхождении, истории, цели. Всё это в идеальном случае должно входить в метаинформационное дополнение документа, по крайней мере в виде ссылок. Однако увеличение количества документов и форматов не сопровождается совершенствованием технических возможностей их восприятия и систематизации. Вместо этого происходит размножение описательных систем (doi, ISBN, URN, PURL, ISNI и др.) и псевдонимов (aliasing). Так например, журнальная статья, как правило в форматах html или pdf, в описательной системе NCBI/NLM получает номер (PUBMED ID), добавляется резюме (abstract) с сопряжённым указанием на время публикации, название журнала, имён авторов, языка, ключевых слов.
Необходимо, однако, чтобы эта описательная метаинформация добавлялась непосредственно в документ в качестве дополнения или расширения, чтобы было возможно упорядочивание документа при перемещении его в другие описательные системы (например, при переводе на другой язык или при использовании в другой базе данных), а история такого перемещения [...] отображалась бы в документе. Для достижения этой цели следует создать универсальный стандарт для всех типов документов и договориться о том, какие опции будут присутствовать в каждом формате; как их будут заполнять или модифицировать; что не должно подвергаться изменению.
Мне представляются очевидными нижеперечисленные опции метаинформационного описания документов:
имя * (preferably unique name)
формат (format)
дата создания (date)
классификационная система (classification system used)
идентификационный номер (identity number)
язык ** (language)
локализация или место происхождения (position, location)
источник или автор (creator, origin, source)
* Систематическое имя (systematic designation) – это последовательность символов (знаковая секвенция), на основании которой
происходит идентификация обозначаемого объекта и установление
соответствия между восприятием его посредством органов чувств [...] и языковой интерпретацией этого восприятия. Систематическое имя должно отличаться качествами, позволяющими отнести
его к классу наименований, а также содержать необходимое дополнение,
достаточное для однозначной идентификации среди родственных названий, обозначений и имён.
Например, в узком круге лиц достаточным является имя Андрей, в то
время как в группе, имеющей в своём составе несколько людей с тем
же именем, необходимо указывать родовое имя (фамилию) для различения. В планетарном масштабе достаточным является указание имени, даты
и места рождения для установления идентичности. Систематическое
имя для обозначения персон может состоять из двух или трёх имён, последовательности цифр и географического определителя. Аналогично
этому, систематическое имя организаций может содержать название, указание на дату и место основания, адрес, дату завершения
деятельности. [...]
Понятия каталог, номенклатура, классификация, регистр в значительной
мере синонимичны и обозначают список имён, объединённых в родственные
группы, которые в свою очередь также сгруппированы на основании
определённых критериев. Порядок группирования может изменяться в
зависимости от выбранных критериев. Имена персон можно группировать
по алфавиту, на основании даты или места рождения их прообразов. В
динамичном пространстве категоризации систематическое имя остаётся
константой, кристаллизационным пунктом, отправной точкой в процессе
семантической ассоциации, поиска и установления отношений и
взаимосвязей между именами, понятиями, определениями, категориями.
** язык подразумевает знаковые системы естественных языков, имеющих
дескриптивный и индикативный характер [...]
Если документ будет претерпевать модификации (перенос в другую
описательную систему, изменение размера, формата, названия), то
первичные метаданные должны сохраняться, а изменения автоматически
или мануально записываться: при переименовании добавляться
синонимическое имя; в другой описательной системе (системе классификации) добавляться её обозначение и идентификационный номер
в этой системе; при транспозиции записываться новый адрес в интернете
или географическое соответствие и т.д.
Для каждого атрибута УМС следует определить форму опции, дать её
определение и формальное описание. Содержание каждой опции должно
соответствовать правилам, на основании которых составлялся бы
каталог допустимых значений (metabase: catalog of systematic designations).
Например, авторство документов должно быть однозначным на основании
списка авторов. Происхождение документа должно указываться на
основании списка организаций. Указание типа документа (текст, рисунок,
фотография, видео, звук) должно сопровождаться описанием (резюме), и
типологической атрибутикой, характерной для каждого типа документов. Каждый документ должен содержать перечень объектов или явлений, отображением или описанием которых он является (биологический вид, астрономический объект, персона или группа лиц, организация, научная
публикация и т.д.). Классификационная основа такого перечисления
в настоящее время существует (Encyclopedia of Life, International Plant Names Index, Catalogue of astronomical objects, PubMed, ICD и другие), следует использовать её в УМС.
[...]
Подводя итоги, следует предложить программистам, терминологам, ISO и индустрии знаний разработать логически выверенную систему метаинформационного обеспечения для всеобщего пользования, чтобы производство документов не превратилось в самоцель, а приобрело
бы надёжную основу, позволяющую на новом этапе социального и технического развития эффективно усваивать и организовывать знания. Параллельно следовало бы дополнить существующие программы модулем, позволяющим визуализировать и редактировать метаданные, а также ввести в употребление универсальные программы для всех типов документов (metadata editors).
Более общей тематической идеей данной статьи является создание комплекса семантических стандартов, частью которых может стать УМС. [...] Сегодня интернет, став реальностью, сам создаёт виртуальную реальность, на основании которой конструируется действительность, сознание и общество. Необходимо указать на связанные с этим опасности. Так например, смысловое содержание одного из центральных понятий интернета 3 поколения – онтология***, умышленно искажается
в идеологических целях: Онтологиями в бизнесе стали обозначать логические схемы, разработанные для манипуляции сознания, вбивания заранее заданных стереотипов мышления, пропаганды групповых интересов. Написанные на непонятном широкой публике искусственном языке, онтологические схемы призваны осуществлять скрытый контроль над обществом узким кругом лиц, определяющих правила их написания. В связи с этим семантический интернет может стать инструментом тоталитарного управления, имеющего глобальный характер. Понятно, что захват власти может осуществиться конспиративно, а сам тоталитарный процесс в таком случае будет вынесен за рамки юридического регулирования. Чтобы исключить злонамеренное использование технологии интернета, необходимо своевременно принять упреждающие меры. Предлагаемые в данной статье универсальные стандарты позволят избежать данного развития и сделать семантический интернет более осмысленным, реалистичным и доступным для регулирования широким кругом его пользователей.
***
[...] Онтологическая схема – это формализованое описание связей и взаимодействия между объектами в определённом множестве объектов. Примером применения онтологических схем может служить научная область, включающая всю совокупность изучаемых явлений и объектов, методов изучения и описания, гипотез и теорий. Другой пример: производственное предприятие, являющееся совокупностью оборудования (средств производства), технологического описания производства (методов производства), правил поведения персонала (инструкций управления предприятием) и других условий его функционирования.
В центре онтологической схемы находится описание объектов, включающее наименование или адресацию и установление свойственных им атрибутов (качеств и свойств проявления). Всякое описание основывается на систематизации, позволяющем отнести описываемый объект к группе объектов данной онтологической схемы. При этом атрибуты объектов могут приобретать более общий характер систематических категорий, на основании которых всё множество объектов распределяется на субгруппы. Например, во множестве предметов некоторые из них могут быть шаровидной формы, отличаться по цвету и т.д. Таким образом, различение объектов происходит путём систематизации на основании индивидуальных признаков, а категоризация является рекурсивной операцией, выделяющей необходимые и достаточные признаки объектов, на основании которых осуществляется их систематизация и распределение внутри данного множества объектов.
Однако онтологические схемы могут не только описывать данность, но и активно влиять на объекты, определять их поведенческий модус посредством установления правил взаимодействия.
Субъективный фактор онтологических схем наглядно проявляется в государственном управлении, основывающемся на неполном, искажённом или неадекватном описании объектов, т.е. людей, социальных групп и их взаимоотношений, а также исключающем из рассмотрения онтологические схемы более общего характера (экология, биосфера, космология, философия). Неудивительно, что люди в таких онтологиях до сих пор рассматриваются как расходный материал, с которым можно обращаться как с неодушевлёнными предметами или домашним скотом.
Приложение.
Экстракт метаданных упомянутого в тексте статьи документа из
библиотеки PUBMED; экстракция произведена с помощью
[
www.serversniff.net].
1. [
www.ncbi.nlm.nih.gov]
FileType(guessed) = XML
title - Was the serine protease cathepsin G discovered by ... [Acta Biochim Pol. 2011] - PubMed result
keywords -PubMed, National Center for Biotechnology Information, NCBI, United States National Library of
Medicine, NLM, MEDLINE, Medical Journals, pub med, Entrez, Journal Articles, Citation search
description -PubMed is a service of the U.S. National Library of Medicine that includes over 19 million
citations from MEDLINE and other life science journals for biomedical articles back to the 1950s. PubMed
includes links to full text articles and other related resources.
author - pubmeddev
ncbi_stat = false
ncbi_phid = CE8875A4D78C969100000000001DA980
ncbi_pdid = abstract
Keywords = PubMed, National Center for Biotechnology Information, NCBI, United States National Library of
Medicine, NLM, MEDLINE, Medical Journals, pub med, Entrez, Journal Articles, Citation search
Title = Was the serine protease cathepsin G discovered by ... [Acta Biochim Pol. 2011] - PubMed result
ncbi_pagesize = 20
ncbi_filter = all
FileSize = 92 kB
ncbi_format = html
ncbi_uidlist = 21383996
Author = pubmeddev
ncbi_report = abstract
ncbi_resultcount = 1
MIMEType = text/html
ncbi_app = entrez
ncbi_hitstat = true
FileType = HTML
ncbi_pageno = 1
ncbi_db = pubmed
ncbi_sortorder = default
ncbi_sessionid = CE8875A4D78C9AD1_0029SID
Robots = index,nofollow,noarchive
ncbi_op = retrieve
Description = PubMed is a service of the U.S. National Library of Medicine that includes over 19 million citations from MEDLINE and other life science journals for biomedical articles back to the 1950s. PubMed includes links to full text articles and other related resources.
[
www.actabp.pl]
МОИ КОММЕНТАРИИ
1. Еще один пример взгляда физика на лирику. Автор изобретает уже даже не библиографический велосипед, а библиографическое колесо. Самодельная философия "от Адама", Общая Теория Всего и одновременно - чрезвычайно узкие, частные задачи, очень частные подходы или методы...
Описанный воображаемый идеальный лабораторный журнал - это самоформируемая и саморазвивающаяся ПОЛИВИДОВАЯ ПРОБЛЕМНО-ОРИЕНТИРОВАННАЯ МУЛЬТИМЕДИЙНАЯ научная супербаза метаданных:
"начиная от целеполагания, гипотезы, экспериментальной проверки, выводов, впечатления об увиденном и услышанном. [...] лабораторный журнал должен описывать документы различного формата: фотографии, тексты протоколов, тексты публикаций, видеозаписи конференций, указания на источники в интернете и т.д. Все эти документы должны быть связаны между собой, снабжены комментариями, и доступны для просмотра и каталогизации. [...] друг за другом могут следовать эксперименты или мысли, относящиеся к различным темам: теоретическое исследование определённого вопроса и сбор соответствующей информации; написание статьи или книги на основании уже завершённой работы; планирование тематически разнородных экспериментов."
То есть суперзаписная книжка исследователя (совсем непохожая на ИРБИС-записную книжку дистрибьютора, описанную некогда Л.З.Рудзским)... Можно фантазировать акаядальше: документы должны сами себя классифицировать, сами себя библиографически (метаграфически) описывать, снабжать себя библиографическими списками, ссылками, гиперссылками... такая супербаза будет додумывать мысли ученого, обобщать их, делать выводы, совершать открытия...
2. MacBook, конечно, крутейшая штука, но вот ведь незадача: предназначен в основном для домашних развлечений (iPhoto, iMovie и т.д.), а не в помощь научному работнику... "предоставляет возможности их тематического объединения" - это как? Всего-навсего раскладывать файлы по папкам? "...для их описания, воспроизведения или визуализации необходимо дополнительное программное обеспечение. File Maker только частично удовлетворяет потребности систематизации и описания: на данном этапе отсутствует [...] возможность открывать и использовать документы внутри данной программы, не прибегая к дополнительным программам. Все эти дополнительные программы в идеальном случае должны быть встроены в качестве опций [...]: web editor, web browser, photoshop, file maker, pdf reader, video or photo visualiser, text editor и т.д."
То есть нужен одновременно супербраузер-суперплейер-суперредактор, даже систематизатор и, "описатель" (каталогизатор?), причем, насколько можно понять, встроенный в ОС? Нужен ли такой на самом деле?
3. "Мне представляются очевидными нижеперечисленные опции метаинформационного описания документов: имя, формат, дата создания, классификационная система, идентификационный номер,
язык, локализация или место происхождения, источник или автор".
То есть собственная версия Dublin Core? Зачем? Набор обязательных элементов библиографического описания собственного изготовления, конечно, безо всяких там ГОСТов и МАРКов (и правильно, кому они нужны - разве что интеллигентишкам недобитым, если они где-то еще уцелели), а от балды, по одному только гениальному физико-математическому наитию (вот ведь дураки были Воройской, Вислый, Шрайберг и пр., уразумевшие эту пыльную, никому не нужную халдейскую премудрость).
4. Откуда-то взялась очередная теория заговора. Очень похоже на многочисленные антиутопии, особенно "1984" Дж.Оруэлла с его иделогически "новоязом". Только теперь не рептилоиды, а некие "онтологи". Итак, "микроэлектроника [...] ознаменовала собой возможность злонамеренного манипулирования сознанием, поскольку из поля зрения читателей и зрителей [...] стали исчезать сферы производства и распространения знания".
О вреде НТП, и особенно ИКТ, вообще любых технических средств, "информационных фасилитаторов", говорили всегда. Платон считал, что письмо - вредное изобретение, из-за него слабеет память. Он же упрекал Аристотеля, что тот записал не предназначенное для непосвященных.
"А также те аспекты документов, которые недоступны непосредственному человеческому восприятию однако могут или должны быть восприняты обрабатывающими информацию машинами (компьютерами)" - что за секретные аспекты такие - водяные знаки или нечто инфракрасное, ультразвуковое, или 25-й кадр? Машины "или должны" научиться читать между строк, "воспринимать" тайные мысли написавшего!?
Подробнее о планах злодеев: "...смысловое содержание одного из центральных понятий интернета 3 поколения – онтология, умышленно искажается в идеологических целях: Онтологиями в бизнесе стали обозначать логические схемы, разработанные для манипуляции сознания, вбивания заранее заданных стереотипов мышления, пропаганды групповых интересов. Написанные на непонятном широкой публике искусственном языке, онтологические схемы призваны осуществлять скрытый контроль над обществом узким кругом лиц [...] семантический интернет может стать инструментом тоталитарного управления, имеющего глобальный характер. Понятно, что захват власти может осуществиться конспиративно, а сам тоталитарный процесс в таком случае будет вынесен за рамки юридического регулирования. [...] необходимо своевременно принять упреждающие меры." А это как - совершить антионтологическую революцию?
5. Итак, "предлагается ввести Универсальный Стандарт Метаданных (UMS), который мог бы служить основой документографии, функционально необходимой для интерпретации документов в автоматических операционных системах". Может быть, все-таки в информационных, а не операционных? Задача сверхграндиозная - долой все классификации, все описания, даешь взамен них единственную, а на самом деле миллиард первую. Много почти неразрешимых задач. Автоклассифицирование, автоиндексирование, для чего нужен смысловой анализ...
irbis_arbat@mail.ru
Редактировано 4 раз. Последний раз 03.01.2013 05:25 пользователем Lavrinovich.