Обзор состояния набора ОД "Общедоступные сведения из Единого федерального реестра туроператоров" на 27 августа 2014 года

1. Соответствие МР 3.0

Формально паспорт набора (будем рассматривать http://opendata.russiatourism.ru/7708550300-ReestrRosturizm77B ) соответствует МР3.0. RDFa разметка полностью удовлетворяет рекомендациям. Паспорт описан полностью и корректно. Данные обновляются регулярно. Наименование файлов наборов и структуры — формально корректное.

Однако, хочу заметить, что в августе в структуру набора фактически были внесены изменения: поля с информацией о документах фин.обеспечения стали представляться не скалярными значениями, а векторами (для описания нескольких документов без добавления новых полей); срок действия договора стал представляться двумя датами.

К сожалению, это не вылилось в появление нового файла структуры набора (это очень плохо). В старый файл структуры не были внесены изменения отражающие суть (это скорее хорошо, чем плохо).

В данный момент в описаниях полей нет указания, что в полях может быть несколько значений, разделенных «|». Не указано, что период действия договора — это два значения (начало и конец).

...
5. при изменении структуры открытых данных должна обеспечиваться версионность 
структуры и соответствие данной версии последующим итерациям открытых данных;
6. необходимо обеспечивать хранение всех версий структуры открытых данных;
...

Хочу также отметить, что старые версии наборов подверглись обновлению, что недопустимо. В приложении к данной статье представлены версии набора за 1 июля 2014 года, скачанные до и после изменения структуры.

Версия структуры набора — это идентификатор способа обработки информации, представленной в наборе. При появлении новой структуры разработчики приложений, пользующихся данными этого набора, внесут изменения в свои программы, чтобы они начали уметь пользоваться новыми версиями, сохраняя способность пользоваться старыми версиями наборов. Имя файла (точнее uri файла) структуры - это идентификатор версии. Именно поэтому в наименование помещена отсечка времени публикации структуры. Подразумевается, что содержимое файла структуры меняться не будет, а если требуется внести изменение, будет создан новый файл.

Что же произошло при внесении изменений в структуру набора? Программы, использующие эти данные, не узнали, что структура изменилась и продолжали действовали по-старому. А так как характер данных изменился существенно, то программы перестали работать корректно... Если бы появилась новая структура, то программа сказала бы об этом своему владельцу.

Промежуточный итог.
Представленная паспортом информация формально корректна, а процесс публикации — не совсем.

2. Ошибки в наборе

2.1. Фатальные ошибки, которые не позволяют использовать данные

2.1.1. Неполнота раскрытия

ООО «Корал тревел», МТ1 001376, http://reestr.russiatourism.ru/?ac=view&id_reestr=224
Страница на момент публикации

В интерфейсе просмотра реестра на сайте для данного туроператора доступна информация о 3х договорах финансового обеспечения:

  • 100 000 000 рублей на текущий период
  • 110 000 000 рублей на следующей период (50 + 60 млн. рублей)

В наборе представлена информация только о 2 договорах на будущий период. При этом для второго договора не указан тип документа (для первого — договор страхования).
 

ООО «Меридиан Экспресс Холидэйз», МТ2 012989, http://reestr.russiatourism.ru/?ac=view&id_reestr=5225
Страница на момент публикации

В интерфейсе информация о 2х документах:

  • Договор страхования на 60 000 000 на текущий период
  • Договор страхования на 60 000 000 на следующий период

В наборе информация только о договоре на будущий период.
 

ООО «САНМАР ТУР», МТ1 000870, http://reestr.russiatourism.ru/?ac=view&id_reestr=412
Страница на момент публикации

В интерфейсе информация о 5ти документах:

  • 200 000 000 на текущий период (100 + 100)
  • 200 000 000 на следующий период (50 + 50 + 100)

В наборе информация только 2х договорах на будущий период (50 + 50).
В поле D11 (The overall amount of financial guarantee) соответственно сумма — 100 000 000 рублей.

Промежуточный итог.
Была проведена выборочная проверка. Ошибки могут встретиться и в информации о других ТО.

2.2. Технические ошибки

2.2.1. Неудобные форматы дат

Поле D16 — Срок действия финансового обеспечения (согласно документу о финансовом обеспечении)

В данный момент в поле содержится массив периодов. Периоды отделены друг от друга символом «|», а начало периода от конца — символом «/». Начало и конец периода представлены ввиде unix timestamp. Открытость данных подразумевает их доступность и читаемость.

Доступность и читаемость: данные должны быть доступны целиком не дороже разумной стоимости их воспроизведения; желательно через интернет. Формат данных должен быть удобным для чтения и изменения.

К сожалению, данный формат не удобен для чтения: мало кто знает, что такое unix timestamp; чтобы узнать человеческое значение — надо произвести сложный расчет или воспользоваться дополнительными средствами (например, число 1409515200 — момент начала действия одного из документов финансового обеспечения ООО «САНМАР ТУР» — это на самом деле Sun, 31 Aug 2014 20:00:00 GMT, а сразу и не скажешь...).

В то же время объединение момента начала и окончания действия финанасового обеспечения в одном поле — головная боль при работе с файлом в Excel’е или другом табличном процессоре. Необходимо каждый раз при просмотре очередной версии разбивать поле на 2, конвертировать значение. Само движение «открытые данные» нацелено на эффективность, так что подобный формат не соответствует свойствам открытости и духу открытых данных.

Аналогичная проблема наблюдается и с полями D13 и D22 — дата в формате unix timestamp.

Предлагаю заменить unix timestamp на дату в одном из форматов, предлагаемых стандартом ISO 8601 (https://ru.wikipedia.org/wiki/ISO_8601). Например, YYYYMMDDThhmmss±hhmm. Период действия финансового обеспечения — разбить на два поля.

Итог по пункту:
Мои предложения заключаются в том, чтобы сохранив машиночитаемость данных, сделать их человекочитаемыми и удобными в использовании!

2.2.2. Лишние пустые значения

В значениях полей, предназначенных для показа нескольких значений, в окончании часто можно встретить разделитель «|» или даже несколько. Получается, что в поле попадают «пустые» значения — зачем?

2.3. Смысловые ошибки

2.3.1. «Лишние» туроператоры в наборе

ООО «ВОКРУГ СВЕТА»

В наборе представлена информация об этом ТО. Реестровый номер — МТ3 007066.
В интерфейсе на сайте найти информацию о нем не удалось, т.к. он исключен. http://reestr.russiatourism.ru/?fr_name=007066&ac=search&mode=1

Получается, что в наборе присутствуют исключенные из реестра ТО. Для извлечения списка действующих туроператоров надо совершать дополнительные операции.

С одной стороны хорошо, что есть история. С другой стороны — нет. Если выводить всех туроператоров, когда-либо попадавших в реестр, надо выводить и всю историю их финансового обеспечения, а не только актуальные документы.

Итог по пункту:
Надо где-то определить какие функции выполняет данный набор и как извлечь из набора актуальный реестр.

2.3.2. Дублирование реестровых номеров и записи без реестрового номера

А что тут писать? Все и так должно быть понятно... Ошибка целостности данных.

Добавить комментарий

Plain text

  • HTML-теги не обрабатываются и показываются как обычный текст
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Строки и параграфы переносятся автоматически.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.