среда, 21 июля 2010 г.

INSPIRE and INVENIO

На днях посетил один занимательный семинар. Проводили его два человека: Тревис Брукс из СЛАКа и Сальваторе Меле из ЦЕРНа. Рассказывали они про новую систему для работы со статьями по физике высоких энергий INSPIRE. Её бета-версия доступна по адресу http://inspirebeta.net.

Дело в том, что SPIRES стремительно устаревает. Недавно ему исполнилось 40 лет. Как рассказали на семинаре, SPIRES был вообще одним из первых сайтов в США. Первый компьютер на котором запускали SPIRES — гробина два на полтора метра с пятью сотнями кнопок — спокойно доживает свой век в стенфордском музее вычислительной техники. Естественно, ни о каких SQL базах никто тогда не знал. Та отчаянная тормозня, которую регулярно демонстрирует современная версия SPIRES, это всё то генетические наследство мутировавших заплаток накопившихся за сорок лет. Короче, настало время отпустить его с миром. INSPIRE — это совместный проект Фермилаба, ЦЕРНа и СЛАКа, разрабатываемый на замену SPIRES. Судя по семинару, KEK тоже внесет свою посильную лепту.

Инспая работает много быстрее Спайрса. Больше ничего хорошего про него сказать не могу. Главным образом потому, что все те принципы, которые создатели хотят воплотить в Инспая, ещё не реализованы и на пять процентов.

Вообще весь проект можно идеологически разделить на две части. Первая — это, собственно, создание современной базы данных и всяческих прибамбасов к ней. Второе — это выстраивание партнерских отношений с Архивом, ведущими издательствами и другими базами.

Про второе могу сказать очень мало: вроде как, для работы можно будет пользоваться той же учетной записью, что и в Архиве. Вроде как, большинство издателей (Springer, APS, IOP, Elsevier и т.д.) уже согласились давать доступ к собственным полнотекстовым архивам для поиска внутри книг и статей (см. ниже). Взаимодействие с другими базами данных, например, гарвардской ADS NASA (базой по астрофизике), будет очень простым, поскольку обе будут использовать одну и ту же платформу. И вот тут мы переходим к первой части. Платформа называется Invenio — это комплексная система по созданию и дальнейшему управлению электронными библиотеками больших размеров (от 0.2 до 10 миллионов документов). Насколько я понял, Invenio изначально была разработана в ЦЕРНЕ под названием CDSware (CDS от CERN Document Server) в очередной тщетной попытке систематизировать все научные тексты, результаты, документы, рожденные на свет божий в этом научном центре. Как сказал Тревис Брукс, Invenio базируется на всё тех же трех мировых китах — Lunix, Apache, SQL, плюс ещё одна змея Гвидо Ван Россума — Python.

На демо-странице Invenio приведен полный список проектов уже работающих на основе этой платформы. Список, ничего не скажешь, обширен, но нас прежде всего интересует физика высоких энергий, т.е., сам CERN Document Server, библиотека канадского центра TRIUMF (раньше это была аббревиатура TRI-University Meson Facility, но сейчас это уже имя собственное), и ещё, например, ILC Document Server, т.е., библиотека содержащая все работы так или иначе связанные с проектом Международного линейного коллайдера.

ЦЕРНовская база данных наиболее развитая, поэтому в ней можно увидеть основные достоинства Invenio.

1. Рендеринг формул. Опытный взгляд легко замечает запуск jsMATH. Теперь в названиях и аннотациях формулы выглядят вполне приемлемо.

2. Google-type поиск без синтаксиса. Введите, например, CPT violation constrains и получите все статьи касающиеся этой темы, или global design report, и получите последние новости о проекте ILC.

3. RSS-feeds или email рассылку можно сделать по результатам любого запроса. Достаточно кликнуть на иконку внизу страницы и вы будете получать соответствующие обновления. Например, ищите experiment:atlas и обрящите.
 4. Формирование специальных коллекций и наборов данных. Что-то типа глобальных тегов. Чтобы понять что это такое, достаточно зайти на CDS и увидеть их коллекции: Articles&Preprints, Books&Proceedings, Presentations&Talks, Multimedia&Outreach. Наряду с глобальными тегами есть и нормальная система горизонтальных сквозных тегов.

5. Из предыдущего пункта видно одно из основных новшеств: это различные типы складируемых данных. Инспая как CDS наряду с препринтами будет собирать диссертации, материалы конференций, видео-лекции, репортажи, стендовые доклады и даже интернет ресурсы (пример: QCD  в коллекции Video lectures). Но это еще не все. Будут собираться Mathematica notebooks (я аж подскочил на месте). В целесообразности этого никто не сомневается: Тревис Брукс сказал, что-то типа “теоретики пишут формулы и рисуют графики, хорошо бы экспериментаторам сразу получить в руки соответствующие файлы Wolfram Mathematica”. Экспериментаторы будут в свою очередь выкладывать root-файлы. И наступит после этого всеобщее благоденствие: все монте-карло генераторы будут доступны прямо из Инспая, вместе с документацией, хочешь — куски любого кода, хочешь — алгоритма. Что-то я размечтался, но про это все было говорено на семинаре.

6. Полное досье на автора. Этому вообще уделяется очень много внимания. Одно из главных усилий разработчиков, это создание алгоритма распознавания авторских “клонов”. INSPIRE сейчас поддерживает вариант досье (см. например Glashow, Sheldon) с разделами: статьи, место работы, используемые ключевые слова, частые соавторы, информация о цитировании. Invenio сама по себе будет поддерживать форматы MARC21, что делает её совместимой с большинством электронных библиотек мира (в том числе и с Библиотекой Конгресса США). Более того учетные записи будут поддерживать проект ORCID (Open Researcher&Contributor ID). В случае, когда автоматический метод не сработает, то будет предоставлен ручной метод отбора статей: на объединенном списке надо будет проставить галочки “мое”, “не мое”.

7. Создание страниц с подробной информацией о документе. Кликните на любую статью (например Weak Interactions with Lepton-Hadron Symmetry) и получите страницу со множеством вкладок. Например в INSPIRE это только: информация, список литературы и цитирования. Вкладка citations, как обычно, включает прямые цитирования и ещё два дополнительных новых пункта: график истории цитирования и так называемые co-cited — статьи которые часто появляются в том же списке литературы, что и исходная. Все списки упорядочены по цитируемости.

Хорошо иметь дальнозоркость, во время демонстрации возможностей, которые будут включены в ближайшем будущем, Сальваторе Меле набрал адрес страницы разработчиков http://inspire-hep-dev.cern.ch, где уже подключены вкладки Full text и Plots. К сожалению они там тоже ещё не работают (хотя у них все работало, я просто не запомнил все что они делали), но скоро можно будет выдергивать все картинки любой статьи прямо из INSPIRE, и драг’н’дропом кидать их в павер-пойнт. Выглядело все очень и очень впечатляюще. Зато можно попробовать полнотекстовый поиск: набрать Monte Carlo и выбрать пункт fulltext — вместе с результатами вы увидите цитаты из полных текстов, а первой ссылкой будет цитата из книги “Quantum Chromodynamics on the Lattice” — результат договоренности со Springer.

8. В CDS и Invenio at TRIUMF также подключены вкладки “Discussion” “Usage statistics”. Во разделе “Discussion” можно писать комментарии и/или обзоры на данную запись. Вообще система интерактивного общения обещает быть самой широкой: я спросил Сальваторе Меле будет ли поддерживаться так полюбившаяся MathOverflow технология Trackback подключенная в Архиве. В ответ оба докладчика энергично закивали головами.

9. Самая широкая насколько это можно себе представить система персонализации. Фактически будет сделан персональный reference manager, то есть создание собственных наборов, раздача меток (тегов), система коллективного пользования подборками литературы (sharing) в том числе “всем”, urbi et orbi так сказать (“без-д-воз-д-мез-д-но, то есть дагом”).

10. Будут созданы и приватные режимы, где коллаборации будут собирать препринты для внутреннего пользования (или еще не подписанные).

11. Интерфейс Invenio уже сейчас поддерживает 20 языков. Например, CDS отображается по-русски.

И последнее. В размышлении насколько тупая вещь индекс цитирования я провел много бессонных ночей. Лежал, зарывшись головой в подушку, и напряженно думал, время от времени переворачиваясь с боку на бок. Единственный вывод, который я для себя сделал, это, что никакой формальный показатель не способен адекватно оценить труд научного работника. Т.е. без вхождения в суть вопроса ценность конкретной статьи оценить нельзя, а сделать это могут только коллеги ученого. С другой стороны, чиновники требуют численного показателя. Следовательно коллективная оценка должна быть численной. И вот что я придумал: не секрет, что все современные библиотечные архивы в автоматическом режиме выдергивают список литературы из статьи. Так и формируются все индексы цитирования. Проблема в том, что не все ссылки равнозначны. Некоторые статьи были действительно важны и полезны для твоей работы, а некоторые ты упомянул только по тому, что там имеются неправильные результаты. Хорошо бы было, если помимо просто ссылки, ты бы мог ранжировать цитируемые статьи. Для начала, можно сделать очень просто: заходишь на вкладку “References” для своей статьи и галочкой проставляешь "важная"/"неважная“. Конечно, для старых статей так уже не сделать, но для новых это не очень большой дополнительный труд. По этим оценкам можно уже формировать разные “индексы Хирша”. Я спросил об этом на семинаре, но они, естественно, ничего дельного ответить не могли, кроме как: “сейчас это можно сделать только в персональном порядке, расшарив свой индивидуальный список с тегами важно/неважно”. Но ведь у них есть feedback, можно ведь и письменно все им изложить. На самом деле что-то похожее уже есть: в билиотеке TRIUMF (например вот) есть система из пяти звездочек для оценки статьи. Чистый плагиат из социальных сетей :)