МИЭТ

Национальный
исследовательский
университет

Орден трудового красного знамени
Рейтинг QS

National Research University of
Electronic Technology

Версия для слабовидящих Версия для печати Поиск по сайту На гланую страницу сайта
Дела библиотечные 04.06.2018

Дела библиотечные

Обработка библиографических данных – дело монотонное и ответственное. Чаще всего эта работа проводится вручную, что негативно сказывается как на временных, так и на трудовых затратах человека. Победитель конкурса «УМНИК», магистрант кафедры Информатики и программного обеспечения вычислительных систем НИУ МИЭТ Евгений Петров представил свой вариант решения этой проблемы.

- Евгений, почему Вы решили заняться решением именно этой задачи?

- Как и во всякой рутинной работе, выполняемой вручную, её качество сильно страдает из-за человеческого фактора: ошибок, опечаток и невнимательности. Поэтому мне показался перспективным поиск решения именно этой проблемы.

- Кто Ваш адресат и какой принцип работы будет у Вашей программы?

- Во-первых, это будет полезно высшим учебным заведениям при учёте научных трудов. Также актуальна задача автоматизации процесса обработки и структуризации библиографических данных – перевод данных из различных форматов в единое представление. Существующие программные средства, доступные в сети Интернет в виде облачных сервисов, не позволяют в достаточной степени ускорить процесс подготовки списков литературы и представляют собой поиск публикаций по имеющимся базам данных, формирование библиографической ссылки по заполненным вручную полям формы, либо разбиение библиографической записи на структурные компоненты. Последняя категория облачных сервисов является наиболее актуальной и соответствующей современному уровню развития информационных технологий, однако приложения, поддерживающие русский язык и стандарт ГОСТ 7.0.5-2008, среди них отсутствуют. Как следствие, на территории Российской Федерации существует неудовлетворенная потребность в наличии программного средства автоматизации процесса форматирования списка использованной литературы для статей, тезисов конференций и других научных трудов, в полной мере поддерживающего русский язык и стандарт ГОСТ 7.0.5-2008.

- В чём преимущества вашей разработки перед другими аналогами?

- Аналоги существующих программ я разделил на три больших категории. Первая, это когда поиск проводится по базе публикаций. Если требуемая публикация найдена, пользователю выдается ее библиографическая ссылка в выбранном формате. А если такой публикации не нашлось, обычно предлагается ввести все вручную, как в следующем пункте, где пользователю требуется самостоятельно заполнить поля «автор статьи», «название статьи», «название журнала» и т.д. После этого ему выдаётся библиографическая ссылка в соответствии с ГОСТ 7.0.5-2008 или другим выбранным стандартом. Такой метод приемлем только для единичных записей. Третий пункт – это когда проводится классификация введённой библиографической записи и её «пересборка» в требуемый формат. Однако работа алгоритма опирается на англоязычные словари и зарубежные форматы, иначе говоря, отсутствует полноценная поддержка русского языка.

Моя разработка близка к последнему пункту, но в ней есть поддержка русского языка и отечественных форматов, так что, грубо говоря, она является импортозамещающим продуктом.

- Как Вы сможете гарантировать точность обработки библиографических записей? Будет ли какой-нибудь способ верификации?

- На данном этапе точность обработки колеблется около отметки в 80%, если брать среднее по всем классам элементов. Однако эта оценка сильно варьируется в зависимости от качества исходных данных: если элементы сильно перепутаны, процент будет ниже, а если ошибки незначительны – выше.

Будут предприняты меры по дальнейшему улучшению качества обработки, однако от визуальной верификации пользователя уйти не удастся. Всё-таки компьютер, обрабатывающий тексты на естественном языке, «играет на чужом поле» и полностью заменить человека не сможет, но сможет стать верным помощником, решающим основные рутинные задачи для типичных случаев, таких как перевод из одного стандарта в другой стандарт или сводную таблицу.

- Какие научные подходы и методы будут применены в дальнейшем процессе исследования?

- В работе используются методы из разных областей: предобработка входных данных осуществляется с помощью регулярных выражений (теория автоматов), обучение и классификация – с помощью условно-случайных полей (машинное обучение, статистические методы, методы оптимизации), и все это будет «крутиться» в единой программной системе с пользовательским web-интерфейсом и серверной частью (методы разработки программного обеспечения, базы данных).

- Сколько времени Вам потребуется для реализации данного проекта и вывода его на рынок?

В соответствии с заключённым договором – два года. Первый год – теоретические и испытательные работы, создание и улучшение опытного образца. Второй год – непосредственная реализация облачного сервиса и встраивание в него результатов, полученных за первый год.

Может показаться, что это очень много, однако я занимаюсь этим один, в свободное от учебы и основной работы время, и не в ущерб своей семье: жене и сыну. Поэтому такой темп меня более чем устраивает и позволяет не бежать за сроками, а работать размеренно и на совесть.

- Кто помогал Вам в работе над данным проектом?

- Мой научный руководитель, Александра Игоревна Кононова. Она занимается подготовкой тех самых отчётов о научной деятельности, поэтому эта задача является для неё крайне актуальной. Без неё я бы, возможно, и не узнал, что такая проблема существует, за что очень ей благодарен, потому что задача оказалась интересной. Кроме того, именно предоставленные ею исходные данные для отчётов и легли в основу обучающей выборки.