ИИ может изменить нашу жизнь навсегда — но в настоящее время мы движемся по темному пути
Искусственный интеллект (ИИ) уже перекраивает мир видимым образом. Данные управляют нашей глобальной цифровой экосистемой, а технологии ИИ выявляют закономерности в данных.
Смартфоны, умные дома и умные города влияют на то, как мы живем и взаимодействуем, а системы искусственного интеллекта все активнее участвуют в принятии решений о найме, медицинской диагностике и вынесении судебных решений. Является ли этот сценарий утопическим или антиутопическим, зависит от нас.
Потенциальные риски ИИ перечислены неоднократно. Роботы-убийцы и массовая безработица являются общими проблемами, в то время как некоторые люди даже боятся вымирания. Более оптимистичные прогнозы утверждают, что к 2030 году ИИ добавит в мировую экономику 15 триллионов долларов США и в конечном итоге приведет нас к некоторой социальной нирване.
Нам, безусловно, необходимо учитывать влияние, которое такие технологии оказывают на наши общества. Одна важная проблема заключается в том, что системы ИИ усиливают существующие социальные предубеждения — к разрушительному эффекту.
Несколько печально известных примеров этого явления получили широкое внимание: современные автоматизированные системы машинного перевода и системы распознавания изображений.
Эти проблемы возникают из-за того, что в таких системах используются математические модели (например, нейронные сети) для определения шаблонов в больших наборах обучающих данных. Если эти данные сильно искажены различными способами, то присущие им ошибки неизбежно будут изучены и воспроизведены обученными системами.
Предвзятые автономные технологии являются проблематичными, поскольку они могут потенциально изолировать группы, такие как женщины, этнические меньшинства или пожилые люди, тем самым усугубляя существующие социальные дисбалансы.
Если системы ИИ обучаются, например, по данным полицейских арестов, то любые сознательные или неосознанные предубеждения, проявляющиеся в существующих схемах арестов, будут дублироваться системой ИИ «предвидения полицейских», обученной по этим данным.
Признавая серьезные последствия этого, различные авторитетные организации недавно рекомендовали, чтобы все системы искусственного интеллекта были обучены на объективных данных. Этические руководящие принципы, опубликованные ранее в 2019 году Европейской комиссией, предложили следующую рекомендацию:
Когда данные собраны, они могут содержать социально сконструированные ошибки, неточности. Это должно быть решено до обучения ИИ любому набору данных.
Все это звучит достаточно разумно. Но, к сожалению, иногда просто невозможно обеспечить беспристрастность определенных наборов данных до начала обучения. Конкретный пример должен прояснить это.
Все современные системы машинного перевода (такие как Google Translate) обучаются на парах предложений.
Англо-французская система использует данные, которые связывают английские предложения («she is tall») с эквивалентными французскими предложениями («elle est grande»).
В данном наборе обучающих данных может быть 500 миллионов таких пар, и, следовательно, всего один миллиард отдельных предложений. Все предубеждения, связанные с полом, должны быть удалены из набора данных такого рода, если мы хотим предотвратить создание в системе результатов, таких как следующие:
Вход: The women started the meeting. They worked efficiently.
Результат: Les femmes on commencé la reunion. Ils on travaillé эффективность.
Французский перевод был создан с помощью Google Translate 11 октября 2019 года, и он неверен: «Ils» — это местоимение мужского рода во множественном числе на французском языке, и оно появляется здесь, несмотря на то, что контекст явно указывает на то, что ссылаются на женщин.
Это классический пример того, что автоматическая система предпочитает мужской стандарт по умолчанию из-за систематических ошибок в данных обучения.
В целом, 70 процентов родовых местоимений в наборах данных перевода являются мужскими, а 30 процентов — женскими. Это связано с тем, что тексты, используемые для таких целей, чаще относятся к мужчинам, чем к женщинам.
Чтобы не допустить повторения существующих погрешностей системы перевода, из данных необходимо было бы исключить конкретные пары предложений, чтобы местоимения мужского и женского рода встречались в соотношении 50/50 как на английской, так и на французской сторонах. Это предотвратит систему присвоения более высоких вероятностей местоимениям мужского рода.
И даже если результирующее подмножество данных будет полностью сбалансировано по полу, оно все равно будет искажено различными способами (например, этнической или возрастной). По правде говоря, было бы трудно полностью устранить все эти ошибки.
Если один человек посвятит всего пять секунд чтению каждого из одного миллиарда предложений в данных обучения ИИ, потребуется 159 лет, чтобы проверить их все — и это предполагает готовность работать весь день и ночь, без перерывов на обед.
Альтернатива?
Поэтому нереально требовать, чтобы все наборы данных для обучения были беспристрастными, прежде чем будут построены системы ИИ. Такие требования высокого уровня обычно предполагают, что «ИИ» обозначает однородный кластер математических моделей и алгоритмических подходов.
На самом деле, разные задачи ИИ требуют совершенно разных типов систем. И преуменьшение в полной мере этого разнообразия маскирует реальные проблемы, связанные, скажем, с сильно искаженными данными. Это прискорбно, поскольку это означает, что другими решениями проблемы смещения данных пренебрегают.
Например, смещения в обученной системе машинного перевода могут быть существенно уменьшены, если система адаптирована после того, как она была обучена на большом, неизбежно смещенном, наборе данных.
Это может быть сделано с использованием значительно меньшего, менее искаженного набора данных. Поэтому большая часть данных может быть сильно предвзятой, но обученной системе нет необходимости. К сожалению, эти методы редко обсуждаются теми, кто занимается разработкой руководств и законодательных рамок для исследований ИИ.
Если системы ИИ просто усиливают существующие социальные дисбалансы, то они скорее препятствуют, чем способствуют позитивным социальным изменениям. Если бы технологии ИИ, которые мы все чаще используем ежедневно, были бы гораздо менее предвзятыми, чем мы, то они могли бы помочь нам распознать и противостоять нашим собственным скрывающимся предрассудкам.
Конечно, это то, к чему мы должны стремиться. Поэтому разработчики ИИ должны гораздо тщательнее задумываться о социальных последствиях создаваемых ими систем, в то время как те, кто пишет об ИИ, должны более подробно понимать, как системы ИИ действительно проектируются и создаются.
Потому что, если мы действительно приближаемся либо к технологической идиллии, либо к апокалипсису, первое было бы предпочтительнее.