Дела библиотечные

04 июня 2018

1446 просмотров

Обработка библиографических данных – дело монотонное и ответственное. Чаще всего эта работа проводится вручную, что негативно сказывается как на временных, так и на трудовых затратах человека. Победитель конкурса «УМНИК», магистрант кафедры Информатики и программного обеспечения вычислительных систем НИУ МИЭТ Евгений Петров представил свой вариант решения этой проблемы.

- Евгений, почему Вы решили заняться решением именно этой задачи?

- Как и во всякой рутинной работе, выполняемой вручную, её качество сильно страдает из-за человеческого фактора: ошибок, опечаток и невнимательности. Поэтому мне показался перспективным поиск решения именно этой проблемы.

- Кто Ваш адресат и какой принцип работы будет у Вашей программы?

- Во-первых, это будет полезно высшим учебным заведениям при учёте научных трудов. Также актуальна задача автоматизации процесса обработки и структуризации библиографических данных – перевод данных из различных форматов в единое представление. Существующие программные средства, доступные в сети Интернет в виде облачных сервисов, не позволяют в достаточной степени ускорить процесс подготовки списков литературы и представляют собой поиск публикаций по имеющимся базам данных, формирование библиографической ссылки по заполненным вручную полям формы, либо разбиение библиографической записи на структурные компоненты. Последняя категория облачных сервисов является наиболее актуальной и соответствующей современному уровню развития информационных технологий, однако приложения, поддерживающие русский язык и стандарт ГОСТ 7.0.5-2008, среди них отсутствуют. Как следствие, на территории Российской Федерации существует неудовлетворенная потребность в наличии программного средства автоматизации процесса форматирования списка использованной литературы для статей, тезисов конференций и других научных трудов, в полной мере поддерживающего русский язык и стандарт ГОСТ 7.0.5-2008.

- В чём преимущества вашей разработки перед другими аналогами?

- Аналоги существующих программ я разделил на три больших категории. Первая, это когда поиск проводится по базе публикаций. Если требуемая публикация найдена, пользователю выдается ее библиографическая ссылка в выбранном формате. А если такой публикации не нашлось, обычно предлагается ввести все вручную, как в следующем пункте, где пользователю требуется самостоятельно заполнить поля «автор статьи», «название статьи», «название журнала» и т.д. После этого ему выдаётся библиографическая ссылка в соответствии с ГОСТ 7.0.5-2008 или другим выбранным стандартом. Такой метод приемлем только для единичных записей. Третий пункт – это когда проводится классификация введённой библиографической записи и её «пересборка» в требуемый формат. Однако работа алгоритма опирается на англоязычные словари и зарубежные форматы, иначе говоря, отсутствует полноценная поддержка русского языка.

Моя разработка близка к последнему пункту, но в ней есть поддержка русского языка и отечественных форматов, так что, грубо говоря, она является импортозамещающим продуктом.

- Как Вы сможете гарантировать точность обработки библиографических записей? Будет ли какой-нибудь способ верификации?

- На данном этапе точность обработки колеблется около отметки в 80%, если брать среднее по всем классам элементов. Однако эта оценка сильно варьируется в зависимости от качества исходных данных: если элементы сильно перепутаны, процент будет ниже, а если ошибки незначительны – выше.

Будут предприняты меры по дальнейшему улучшению качества обработки, однако от визуальной верификации пользователя уйти не удастся. Всё-таки компьютер, обрабатывающий тексты на естественном языке, «играет на чужом поле» и полностью заменить человека не сможет, но сможет стать верным помощником, решающим основные рутинные задачи для типичных случаев, таких как перевод из одного стандарта в другой стандарт или сводную таблицу.

- Какие научные подходы и методы будут применены в дальнейшем процессе исследования?

- В работе используются методы из разных областей: предобработка входных данных осуществляется с помощью регулярных выражений (теория автоматов), обучение и классификация – с помощью условно-случайных полей (машинное обучение, статистические методы, методы оптимизации), и все это будет «крутиться» в единой программной системе с пользовательским web-интерфейсом и серверной частью (методы разработки программного обеспечения, базы данных).

- Сколько времени Вам потребуется для реализации данного проекта и вывода его на рынок?

В соответствии с заключённым договором – два года. Первый год – теоретические и испытательные работы, создание и улучшение опытного образца. Второй год – непосредственная реализация облачного сервиса и встраивание в него результатов, полученных за первый год.

Может показаться, что это очень много, однако я занимаюсь этим один, в свободное от учебы и основной работы время, и не в ущерб своей семье: жене и сыну. Поэтому такой темп меня более чем устраивает и позволяет не бежать за сроками, а работать размеренно и на совесть.

- Кто помогал Вам в работе над данным проектом?

- Мой научный руководитель, Александра Игоревна Кононова. Она занимается подготовкой тех самых отчётов о научной деятельности, поэтому эта задача является для неё крайне актуальной. Без неё я бы, возможно, и не узнал, что такая проблема существует, за что очень ей благодарен, потому что задача оказалась интересной. Кроме того, именно предоставленные ею исходные данные для отчётов и легли в основу обучающей выборки.