Евразийский сервер публикаций

Евразийский патент № 037106

   Библиографические данные
(11)037106    (13) B1
(21)201990920

 A ]   B ]   C ]   D ]   E ]   F ]   G ]   H ] 

Текущий раздел: G     


Документ опубликован 2021.02.05
Текущий бюллетень: 2021-02  
Все публикации: 037106  
Реестр евразийского патента: 037106  

(22)2016.10.11
(51) G06F 19/28 (2011.01)
G06F 19/22(2011.01)
(43)A1 2019.07.31 Бюллетень № 07  тит.лист, описание 
(45)B1 2021.02.05 Бюллетень № 02  тит.лист, описание 
(86)EP2016/074301
(87)2018/068828 2018.04.19
(71)ГЕНОМСЫС СА (CH)
(72)Рензи Даниэле, Зоиа Гиоргио (CH)
(73)ГЕНОМСЫС СА (CH)
(74)Пронин В.О. (RU)
(54)СПОСОБ И СИСТЕМА ДЛЯ ЗАПОМИНАНИЯ БИОИНФОРМАЦИОННЫХ ДАННЫХ И ДОСТУПА К НИМ
   Формула 
(57) 1. Способ сжатия данных генома, картируемых на референсную последовательность, содержащий этап разделения файла данных генома на единицы доступа различных типов, указанные единицы доступа содержат данные генома, классифицируемые согласно подстановке в референсный геном и структурированные в виде уровней однородных данных, причем указанное разделение выполнено так, что
единицы доступа первого типа (280) содержат данные генома, причем указанные данные генома являются частью референсной последовательности, используемой для картирования закодированных данных и данных позиционирования, обозначающих абсолютные координаты местоположения первого считанного фрагмента указанной части референсной последовательности, причем указанные данные генома не соотносятся с единицами доступа любого другого типа (290, 300, 310, 320, 321),
единицы доступа второго типа (290) содержат информацию, относящуюся к данным позиционирования, обозначающим позицию последовательности, идеально вписывающуюся в последовательность, содержащуюся в единице доступа первого типа (280), и информацию об обратном замещении по отношению к информации генома, содержащейся в единице доступа первого типа, и где
указанные данные позиционирования записаны на хранение таким образом, что позиция картирования первого считанного фрагмента запоминается в виде абсолютной позиции, а все другие позиции выражаются в виде разности по отношению к предыдущей позиции и запоминаются на специфическом уровне, и
указанные данные позиционирования и данные обратного замещения структурируются на различных уровнях однородных данных и сжимаются путем применения специфического для соответствующих данных позицинирования и данных обратного замещения алгоритмов сжатия.
2. Способ по п.1, в котором указанные единицы доступа второго типа (290) дополнительно содержат информацию, относящуюся к образованию пар (294) считанных фрагментов генома и/или дополнительную информацию, относящуюся к длине считанных фрагментов (295).
3. Способ по любому из предшествующих пунктов, в котором указанное разделение данных генома на единицы доступа различных типов дополнительно включает в себя единицу доступа дополнительного типа (300), содержащую информацию, относящуюся к позициям рассогласования, где автомату секвенирования не удалось определить какой-либо нуклеотид.
4. Способ по любому из предшествующих пунктов, в котором указанное разделение данных генома на единицы доступа различных типов дополнительно включает в себя единицу доступа дополнительного типа (310), содержащую информацию, относящуюся к позиции рассогласования (311) и к типу рассогласования (312), где указанное рассогласование относится к данным генома, относящимся к единице доступа первого типа (280).
5. Способ по любому из предшествующих пунктов, в котором указанное разделение данных генома на единицы доступа различных типов дополнительно включает в себя единицы доступа добавочного типа (320, 321), содержащие информацию, относящуюся к позиции вставок-удалений и рассогласований (321), к типу вставок-удалений и рассогласований (322) и информацию о мягко усеченных последовательностях нуклеотидов и о последовательностях нуклеотидов с жестким усечением (323).
6. Способ по любому из предшествующих пунктов, в котором разделение дополнительно включает в себя единицы доступа еще одного отличного от других типа, содержащие информацию, относящуюся к метаданным (432) и/или оценочным показателям качества и/или аннотационным данным (431), связанным с единицами доступа.
7. Способ по п.6, в котором разделение дополнительно включает в себя единицы доступа отличного от других добавочного типа, содержащие аннотационные данные.
8. Способ по п.7, котором данные единиц доступа по любому из предшествующих пунктов упорядочены размещением на уровнях, где каждый уровень содержит информацию, относящуюся к отличной от других категории: данные позиционирования, обратное замещение, по дополнительному выбору образование пар, по дополнительному выбору рассогласование и по дополнительному выбору аннотационные данные.
9. Способ по любому из предшествующих пунктов, в котором единицы доступа содержат заголовок и данные полезной нагрузки.
10. Способ по п.1, в котором единица доступа второго типа содержит информацию об образовании пар считанных фрагментов и в котором наличие такой информации помечено в заголовке единицы доступа.
11. Способ по любому из предшествующих пунктов, в котором количество считанных фрагментов, содержащихся в единице доступа первого типа, определяется параметром конфигурирования ввода.
12. Способ по п.11, в котором указанный параметр конфигурирования ввода записан на хранение в заголовок единицы доступа.
13. Способ по любому из предшествующих пунктов, в котором содержимое единиц доступа зашифровано.
14. Устройство для сжатия данных генома, содержащее средства, выполненные с возможностью реализации этапов способа по пп.1-13.
15. Запоминающее устройство для данных генома, содержащее данные генома, разделенные на единицы доступа и сжатые согласно способу по пп.1-13.
16. Считываемый компьютером записывающий носитель с записанной на нем программой, содержащей набор команд для реализации способа по пп.1-13.
17. Способ сжатия данных генома согласно способу по пп.1-13, в котором указанные данные скомпонованы для образования формата файла.
18. Способ транскодирования файла данных генома, сжатого согласно способу по пп.1-13, в котором при восстановлении выравнивания данных по отношению к новому референсному геному изменяют только информацию полезной нагрузки данных доступа.
19. Способ по п.18, в котором структура файла остается неизменной.
20. Способ по п.19, в котором изменяются только выбранные единицы доступа.
21. Способ по п.20, в котором выбранными единицами доступа являются единицы указанного первого типа (280).
22. Способ по п.21, в котором выбранными единицами доступа являются единицы любого типа (290, 300, 310, 320, 321).
Zoom in