Как именно были проанализированы «Панамские документы»

Логин:
Пароль:

ГЛАВНАЯ

СОБЫТИЯ

ОТПРАВИТЬ НОВОСТЬ

КОНТАКТЫ

регистрация / забыл пароль

Главная / Как именно были проанализированы «Панамские документы»
05.04.2016

Случившаяся накануне утечка данных связала более чем семьдесят текущих и бывших мировых лидеров со схемами по уклонению от налогов, при помощи которых миллиарды фунтов стерлингов уходили на секретные оффшорные аккаунты. Таким образом ушедшие данные были проанализированы.
В «Панамских документах» (такое название получила утечка) обнаруживается, что юридическая фирма Mossack Fonseca помогала тысячам клиентов, в том числе, тем, кто находится в списке самых могущественных людей на планете, отмывать деньги, избегать налогов и, потенциально, санкций.
Сами документы начали публиковаться новостными агентствами, которые получали их из неизвестного источника. Информация появилась в более чем ста новостных агентствах, где расследованиями занимались более 400 журналистов в течение года.
Для того, чтобы данные в исходном виде стали доступны журналистами, их пришлось форматировать в цифровой формат при помощи мощных компьютеров, на которых использовались алгоритмы для поиска всем известных имен среди огромного числа прочих деталей.
Те документы, которые были получены изначально, опубликованы не были. Интернациональный Консорциум Журналистов-Расследователей (International Consortium of Investigative Journalists, ICIJ) заявляет, что список компаний, названия которых появились в документах, будет обнародован в мае.
По сообщениям, «слив» информации содержит более 11,5 миллионов файлов компании Mossack Fonseca. В них входят письма, контракты, расшифровки документов и сканы. Если быть точнее, 4,8 миллиона писем, три миллиона записей базы данный, два миллиона файлов PDF, миллион изображений и 320000 текстовых документов.
Это гораздо больше, чем любой набор данных из Викиликс, или даже все документы, посвященные Эдварду Сноудену.
Всего было получено 2,6 терабайта информации. В это входят файлы, которые получала немецкая газета Süddeutsche Zeitung с 1977 по 2015 годы.
Для того, чтобы сообщить о полученных документах, необходимо было убедиться, что доступ к нужным данным можно будет получить, а также, что компьютер сможет прочитать эти данные и искать среди них. «Разнородные данные сложно обрабатывать», говорит Гэбриел Бростоу, пофессор компьютерной науки Университетского колледжа в Лондоне. «Таблицы, диаграммы, файлы PDF практически недоступны для обработки».
Süddeutsche Zeitung (или, Южногерманская газета) и Интернациональный Консорциум Журналистов-Расследователей работали совместно с компанией-разработчиком программного обеспечения Nuix для того, чтобы отсортировать и организовать файлы. Затем нужно было начать работу над данными, которые хранились на частном сервере и не были связаны со всеми остальными.
«Мы просто вытаскивали весь текст из файлов, мы вытаскивали все метаданные, а затем исследовали их», говорит Карл Бэррон, старший консультант Nuix.
Самую большую сложность при обработке данных составляло общее количество текста, который, первоначально, не мг быть опознан компьютером. Оптическое распознавание символов было использовано для того, чтобы трансформировать данные в текст, который может быть понят компьютерами, и среди которого компьютеры могут проводить поиск. После того, как текст был извлечен, его вводили в поисковый указатель, или в базу данных. Карл Бэррон предсказывает, что конечный размер базы данных будет в 30 раз меньше по объему, чем первоначальная утечка.
«Мы позволили Интернациональному Консорциуму Журналистов-Расследователей и Южногерманской газете проводить поиск по ключевым словам, а также вводили свои поля: имена, фамилии и цифры», говорит Бэррон. «Кроме того, наши аналитики определяли, как именно эти имена связаны с документами. Если вы находите чье-то имя, допустим, в письме, возможно, вы захотите посмотреть, где еще это имя было упомянуто в других документах».
После того, как информация была проиндексирована, алгоритмы Nuix искали специфические связи внутри обширной базы данных. В конечном итоге, эта, найденная автоматически информация, была скомбинирована с найденной вручную.
«Журналисты составили лист важных политиков, международных преступников, а также популярных спортсменов-профессионалов и многих других», объясняется в колонке редактора Süddeutsche Zeitung. После этого стало возможным создание инструмента поиска по именам, попавшим в списке.
В газете пишется также: «Политический скандал в Германии, получивший название «скандал партийных пожертвований (CDU)» включал в себя 130 имен, лица, избегающие санкций ООН, составляют 600 человек. В течение всего нескольких минут мощный поисковый алгоритм сравнил эти листы с 11,5 миллионами документов».

	Новости инженерии
	Новости политики
	Социальные новости
	Мировые происшествия

	Ваши новости
	Поставщики
	Диллеры
	Дистрибьютеры