27 февраля 2018 г. Выступление Дмитрия Скугаревского «Text-as-data analysis of international trade»

10.04.2018

Факультет экономики

27 февраля 2018 года на заседании семинара имени С. Л. Печерского с докладом «Text-as-data analysis of international trade» выступил ведущий научный сотрудник Института проблем правоприменения ЕУСПб Дмитрий Скугаревский. Отчёт об этом докладе подготовил лаборант факультета экономики Азер Шахвердиев.

Выступление Дмитрия можно разбить на две части: первая непосредственно посвящена описанию используемого подхода «text-as-data», а именно, применению коэффициента Жаккара как меры схожести текстов. Вторая часть посвящена сравнению существующих модификаций гравитационной модели внешней торговли с гравитационной моделью, в которой присутствует коэффициент Жаккара. Чтобы лучше понять суть представленного Дмитрием исследования, стоит подробнее описать обе части выступления.

В первой части выступления Дмитрий объясняет, как можно использовать тексты договоров о льготной торговле (PTA — preferential trade agreement) для изучения их влияния на внешнюю торговлю. В исследовании, о котором рассказывал Дмитрий, использовался набор из 450 договоров о льготной торговле. В последние десятилетия количество таких договоров возросло, также увеличился объем каждого из них — это объясняет главный минус существующих подходов к их анализу. Главный минус заключается в привлечении экспертов, которые готовят набор переменных вручную. Эти подходы, помимо временной затратности, также связаны с материальными издержками. Дмитрий в своем выступлении предлагает новый подход, который заключается в формировании корпуса, т.е. обработанного специальным образом текста всех договоров, который позволяет использовать различные метрики для анализа содержания этих текстов. Один из подходов к преобразованию текстов — это мешок слов (bag-of-words), который заключается в подсчёте частот слов в тексте. Но этот подход не учитывает порядок слов, что достаточно важно в контексте юридических документов, поэтому в исследовании, проведенном Дмитрием использовался подход n-грамм, если быть точным, то 5-грамм, когда весь текст делится на 5-символьные последовательности. Так, например, из «free trade» будет получено 6 компонент «free_», «ree_t», «ee_tr», «e_tra», «_trad» и «trade». Затем подсчитывается коэффициент Жаккара для двух текстов, который представляет собой отношение числа пересечений 5 символьных последовательностей этих текстов с объединением этих последовательностей для двух текстов. Дмитрий отметил, что коэффициент Жаккара является достаточно простой метрикой для оценки схожести текстов, но тем не менее очень информативной. Эта метрика позволяет посмотреть на общую картину, где мы можем увидеть, как формируются кластеры из похожих договоров. Помимо этого, формирование корпуса позволяет проанализировать содержание этих договоров, и понять, к каким сферам они относятся (например, инвестиции, торговля и т.п.).

Во второй части выступления Дмитрий продемонстрировал, как в рамках существующих моделей можно объяснять влияние договоров о льготной торговле на внешнюю торговлю в рамках гравитационной модели. Главный вывод из этой части выступления состоит в том, что подход «text-as-data» дает, как минимум, такие же результаты, как существующие модели, которые являются намного более трудоёмкими и более затратными, плюс ко всему они не масштабируемы, поскольку для обработки новых текстов или изменения набора переменных нам необходимо привлекать экспертов.

На мой взгляд, выступление Дмитрия было очень интересным и познавательным, поскольку продемонстрировало как с помощью современных подходов к обработке текстов можно снизить затраты на обработку текстов экспертами, а также сохранить качество исследуемых моделей.

Азер Шахвердиев