Разработка автоматической системы перевода биомедицинских патентов в режиме реального времени.

Работа исследователей TALP UPC, которая длилась более трех лет, является частью совместного проекта под названием MOLTO в Седьмой рамочной программе Европейского Союза. MOLTO сотрудничает с исследовательскими группами в Гетеборге (Швеция), Хельсинки (Финляндия), Утрехте (Голландия), Софии (Болгария) и Цюрихе (Швейцария).С общей целью получения системы автоматического перевода на несколько языков, которая может обеспечивать высококачественный перевод, исследователи MOLTO работали над тремя случаями: формулировками математических упражнений, описанием предметов в музее и моделью для перевода патентов, которая дело, над которым члены TALP работали напрямую.В качестве общей техники в проекте MOLTO исследователи использовали синтаксико-семантические грамматики, созданные на основе онтологий конкретных предметных областей (концептуальные схемы, которые облегчают обмен информацией между системами).

В свою очередь, эти компоненты были интегрированы в так называемую грамматическую структуру (GF): ИТ-инструмент, который делает возможными автоматические переводы на разные языки с помощью общего абстрактного представления. Чтобы облегчить его использование в Интернете, был разработан интерфейс прикладного программирования (API), позволяющий включить инструмент в любое веб-приложение.

Для перевода патента использовались методы гибридизации, сочетающие грамматические рамки и статистические методы. GF производит грамматически правильные переводы, в то время как включение статистических методов (подобных тем, которые используются машинными переводчиками, такими как Google Translate), может охватывать обширные области, такие как биомедицина.

Кроме того, патенты являются частью системы восстановления документов, которая изначально могла искать документы только на английском языке. Поэтому особое внимание было уделено созданию метода, поддерживающего сложное расположение тегов и семантических аннотаций, присутствующих в документах. Среди прочего, это означает, что структура химических соединений, описанных в биотехнологических регистрах, может быть сохранена, а документы могут быть найдены на языке перевода.

Результатом является автоматический перевод патентов на английский, французский и немецкий (три официальных языка Европейского патентного ведомства) с дополнительным преимуществом, заключающимся в том, что переводы могут выполняться в режиме реального времени. Это очень полезно при поиске в многоязычных базах данных.


Портал обо всем