Тема 1. Что такое ИИ: история и классификация подходов
Искусственный интеллект занимает особое место среди дисциплин, связанных с информационными технологиями. В отличие от большинства инженерных направлений, ИИ с момента зарождения ставил перед собой не только практические, но и фундаментальные вопросы: может ли машина мыслить, каковы границы автоматизации интеллектуальной деятельности, чем формальное рассуждение отличается от понимания. Окончательных ответов нет до сих пор, однако попытки их найти породили методы, которые сегодня лежат в основе машинного обучения, компьютерного зрения, обработки естественного языка и многих других прикладных областей. В рамках этой темы мы проследим, как формировалась дисциплина, какие подходы в ней сложились и какое место среди них занимает машинное обучение — центральный предмет настоящего курса.
Становление искусственного интеллекта как научной дисциплины
Истоки и предпосылки
Идея создания искусственного разума значительно старше самих вычислительных машин. Ещё в XVII веке Лейбниц предложил концепцию универсального исчисления (лат. calculus ratiocinator) — формальной системы, способной механически порождать истинные утверждения 1. До появления программируемых вычислительных устройств подобные идеи оставались философскими конструкциями, но они задали направление мысли: интеллект можно попытаться свести к вычислению.
Поворотной точкой стала работа Алана Тьюринга «Computing Machinery and Intelligence» 2. Предложенный в ней тест формулируется просто: если человек, общаясь с собеседником через текстовый интерфейс, не может надёжно определить, является ли тот человеком или машиной, то машину следует признать обладающей интеллектом. Тест Тьюринга не является строгим научным критерием — он не определяет, что именно означает «мыслить». Его заслуга в другом: проблема была переведена из философской плоскости в операциональную и стала предметом инженерного исследования.
Параллельно развивалась математическая логика. Работы Гёделя, Чёрча и самого Тьюринга показали, что существуют чётко определённые границы вычислимости: не всякая математическая задача может быть решена алгоритмически. Эти результаты обозначили пределы того, на что в принципе способна вычислительная машина, но одновременно дали ИИ строгий язык для постановки задач.
Ещё одна предпосылка — кибернетика Норберта Винера 3. Винер показал, что процессы управления у живых организмов и в технических системах подчиняются общим закономерностям: и те и другие используют обратную связь для корректировки поведения. Этот взгляд — интеллектуальное поведение как результат взаимодействия системы со средой — впоследствии нашёл развитие в обучении с подкреплением.
Основные этапы развития
Формальной датой рождения ИИ как самостоятельной дисциплины принято считать 1956 год — Дартмутский семинар, организованный Джоном Маккарти, Марвином Минским, Натаниэлем Рочестером и Клодом Шенноном. Именно в заявке на его проведение впервые появился термин artificial intelligence 4. Участники исходили из оптимистичного предположения, что за одно лето удастся существенно продвинуться в моделировании мышления. Оптимизм оказался преждевременным, но направление было задано.
Первые два десятилетия после семинара прошли под знаком символьного подхода. Исследователи создавали программы, оперирующие символами и правилами: Logic Theorist Ньюэлла и Саймона 5 доказывала математические теоремы, другие системы планировали действия и играли в шахматы. Результаты впечатляли — машины справлялись с задачами, которые считались интеллектуальными. Проблема обнаружилась при попытке выйти за пределы хорошо формализованных областей: стоило задаче столкнуться с неструктурированной реальностью, система оказывалась беспомощной.
Разрыв между обещаниями и реальностью привёл к первой «зиме ИИ» (середина 1970-х). Отчёт Лайтхилла 6 в Великобритании и аналогичные оценки в США констатировали провал: комбинаторный взрыв при масштабировании задач, неспособность работать с неточной информацией, отсутствие обучения на опыте — всё это оказалось значительно сложнее, чем предполагалось. Финансирование было резко сокращено.
Новую волну интереса в 1980-х вызвали экспертные системы — программы, воспроизводящие рассуждения специалиста в конкретной предметной области. MYCIN диагностировала инфекционные заболевания 7, XCON конфигурировала вычислительные системы 8. Коммерческая ценность была продемонстрирована, но обнаружилось узкое место: базы знаний приходилось формировать вручную, что делало системы дорогими в создании и неустойчивыми к изменениям предметной области.
Именно разочарование в ручном формировании знаний стало одной из причин статистического поворота 1990–2000-х — смены научной парадигмы, при которой исследователи перестали пытаться описать интеллект через явные логические правила и перешли к его моделированию средствами математической статистики и теории вероятностей. Знание в такой постановке — не набор предписанных экспертом утверждений, а закономерность, оценённая по выборке наблюдений; рассуждение — не дедуктивный вывод, а оценка вероятности гипотезы при имеющихся данных. К этому методологическому сдвигу добавились два внешних фактора — рост объёмов доступных данных и удешевление вычислений. Вместо попыток явно запрограммировать интеллектуальное поведение исследователи стали строить модели, обучающиеся на данных: деревья решений, метод опорных векторов, байесовские классификаторы.
Наконец, прорыв 2012 года: свёрточная нейронная сеть AlexNet 9 выигрывает конкурс ImageNet с радикальным отрывом от конкурентов. С этого момента глубокие нейронные сети стали доминирующим инструментом в компьютерном зрении, обработке естественного языка, распознавании речи. Три фактора сделали это возможным: большие размеченные датасеты, вычислительная мощность GPU и усовершенствованные алгоритмы обучения (dropout, batch normalization, улучшенные функции активации).
Десятилетие после AlexNet принесло ещё один сдвиг — на этот раз в обработке естественного языка. В 2017 году была предложена архитектура трансформера 10, основанная на механизме внимания и допускающая параллельное обучение на огромных корпусах текста. На её основе выросло семейство больших предобученных моделей, дообучаемых под частные задачи: BERT — для понимания текста, GPT-серия — для генерации, CLIP — для согласования текста и изображений. Качественный скачок произошёл в 2022–2023 годах: появление ChatGPT, диффузионных моделей синтеза изображений (Stable Diffusion, Midjourney), мультимодальных систем, способных одновременно работать с текстом, изображением и звуком. К 2024–2025 годам в фокус вышли ИИ-агенты — модели, не только отвечающие на вопрос, но и самостоятельно планирующие последовательность действий, обращающиеся к внешним инструментам и API. Технологически это всё то же глубокое обучение, выросшее из коннекционистских идей середины XX века, — но масштаб моделей и широта решаемых задач изменили общественное восприятие ИИ радикальнее, чем любой прежний этап.
Классификация подходов к ИИ
Символьный ИИ и коннекционизм
Всю историю ИИ пронизывает противостояние двух подходов к моделированию интеллекта.
Символьный подход (англ. symbolic AI, иногда GOFAI — Good Old-Fashioned AI 11) исходит из того, что интеллектуальная деятельность сводится к манипулированию символами по формальным правилам. Знания представляются явно — факты, правила, онтологии — а рассуждение реализуется как логический вывод. Чтобы понять, как это работает на практике, достаточно вспомнить экспертную систему MYCIN: она хранила несколько сотен правил вида «если у пациента наблюдается симптом X и результат анализа Y, то с вероятностью Z причина — инфекция W». Система была способна обосновать каждый шаг рассуждения — и в этом главное достоинство символьного подхода. Его главное ограничение — там, где знания трудно формализовать (распознавание образов, понимание естественного языка), символьные системы работают плохо.
Коннекционистский подход (англ. connectionism) устроен принципиально иначе. Вместо явного задания правил система обучается на примерах, самостоятельно выявляя закономерности. Перцептрон Розенблатта 12, многослойные сети с обратным распространением ошибки 13 — ранние модели демонстрировали способность к обобщению, но упирались в нехватку данных и вычислительных ресурсов. Современные глубокие нейронные сети — по сути, развитие того же коннекционистского подхода, получившего практическую применимость благодаря аппаратному и алгоритмическому прогрессу.
Современные нейро-символьные системы разделяют задачу между подходами: нейронная сеть распознаёт объекты на изображении или извлекает сущности из текста, а затем передаёт результат символьному модулю, который выполняет логический вывод, проверяет ограничения или строит план действий. Например, в системе визуального ответа на вопросы (англ. visual question answering) нейросеть определяет, какие объекты присутствуют на изображении, а логический модуль отвечает на вопрос «сколько красных предметов левее куба?», оперируя уже структурированными фактами 14. Тем не менее для осознанного выбора методов и понимания их ограничений различение символьного и коннекционистского подходов остаётся принципиально важным. В настоящем курсе мы работаем преимущественно в коннекционистской и статистической парадигмах, но в теме 2 рассмотрим и классические методы поиска, восходящие к символьной традиции.
Иерархия понятий: ИИ, машинное обучение, глубокое обучение
Термины искусственный интеллект, машинное обучение, глубокое обучение и наука о данных в популярных источниках часто используются как синонимы — это создаёт устойчивую путаницу. Между ними есть строгая вложенность.
Искусственный интеллект — самое широкое из перечисленных понятий: дисциплина, охватывающая любые методы автоматизации интеллектуальной деятельности, включая символьные системы, эвристический поиск, экспертные системы и обучающиеся модели. Машинное обучение (англ. machine learning, ML) — подраздел ИИ, в котором поведение системы определяется не правилами, написанными человеком, а параметрами, подобранными по данным. Глубокое обучение (англ. deep learning, DL) — частный случай машинного обучения, использующий многослойные нейронные сети с большим числом параметров; именно благодаря ему произошли прорывы 2010-х в задачах восприятия и языка.
Наука о данных (англ. data science) расположена иначе — это пересекающаяся, а не вложенная область. Она включает сбор, очистку, разведочный анализ, визуализацию данных и статистический вывод; машинное обучение для неё — лишь один из инструментов, а не центральный предмет. Инженер ML опирается на навыки data scientist на этапе подготовки данных, но дальше работает с алгоритмами обучения и метриками качества модели.
Практическое следствие простое: говоря «применим ИИ», уточняйте — символьное правило, классическая ML-модель или глубокая сеть. Каждый уровень предъявляет разные требования к данным, вычислительным ресурсам, интерпретируемости и квалификации команды.
Парадигмы машинного обучения
Внутри машинного обучения принято выделять три парадигмы, различающиеся не алгоритмами, а характером обратной связи, по которой модель учится.
Обучение с учителем (англ. supervised learning) — самая распространённая постановка: модель получает обучающую выборку из пар «вход → правильный ответ» и подбирает параметры так, чтобы её предсказания на этих парах согласовывались с эталоном. Сюда относятся классификация (предсказать метку класса) и регрессия (предсказать число). Ограничение метода — необходимость размеченных данных, разметка которых, как правило, трудоёмка и дорога. Темы 3–6 настоящего курса посвящены именно этой парадигме.
Обучение без учителя (англ. unsupervised learning) работает с неразмеченной выборкой и ищет в ней скрытую структуру: кластеризация (группировка похожих объектов), снижение размерности, обнаружение аномалий. Здесь не существует «правильного ответа», поэтому оценка качества опирается на косвенные метрики и интерпретацию полученной структуры экспертом.
Обучение с подкреплением (англ. reinforcement learning, RL) описывает агента, взаимодействующего со средой: он совершает действия, получает в ответ числовое вознаграждение и со временем подбирает стратегию (англ. policy), максимизирующую суммарное вознаграждение. Парадигма применима там, где правильный ответ заранее неизвестен, но известен критерий успеха: игры, робототехника, оптимизация рекламы, управление сетевой инфраструктурой. Идейно RL восходит к кибернетике Винера с её обратной связью, упомянутой выше.
В реальных системах парадигмы редко используются в чистом виде. Самообучение (англ. self-supervised learning) формирует учительский сигнал из самих данных — на этом подходе обучены большие языковые модели. Полу-учитель (англ. semi-supervised learning) комбинирует малую размеченную выборку с большой неразмеченной. Понимание базовых трёх парадигм даёт каркас, на который такие гибриды естественно укладываются.
Сильный и слабый ИИ
Другая фундаментальная классификация касается не методов, а целей и претензий ИИ-систем.
Слабый (узкий) ИИ (англ. narrow AI, weak AI) — система, спроектированная для решения конкретной задачи или класса задач. Шахматная программа, система распознавания лиц, голосовой ассистент, рекомендательный алгоритм — всё это слабый ИИ. Такая система может превосходить человека в своей области, но не обладает общим пониманием мира, не переносит знания между доменами без специальной адаптации, не имеет самосознания.
Сильный (общий) ИИ (англ. artificial general intelligence, AGI) — гипотетическая система с когнитивными способностями на уровне человека: обучение в произвольных областях, рассуждение, планирование, адаптация к новым ситуациям.
Разграничение сильного и слабого ИИ восходит к работе Джона Сёрла 15, предложившего мысленный эксперимент «Китайская комната». Суть эксперимента: человек, не знающий китайского языка, сидит в закрытой комнате и получает записки с иероглифами. У него есть подробная инструкция на английском, которая для каждой комбинации входных символов предписывает, какие символы написать в ответ. Следуя инструкции, он выдаёт ответы, неотличимые от ответов носителя языка, — но при этом не понимает ни слова по-китайски. Сёрл утверждал, что компьютерная программа находится в том же положении: она манипулирует символами по правилам, однако не обладает пониманием их смысла. Аргумент остаётся дискуссионным, но он наглядно показывает, почему корректное выполнение задачи не тождественно пониманию. Ни одна существующая система определению сильного ИИ не соответствует.
Для нас это разграничение имеет практическое значение. Все методы настоящего курса относятся к слабому ИИ: каждый решает определённый тип задач, требует соответствующей подготовки данных, выбора архитектуры и настройки гиперпараметров. Представление о том, что современные нейронные сети «понимают» данные в человеческом смысле слова, — распространённое заблуждение, которое ведёт к некорректному применению методов и завышенным ожиданиям от результатов.
Ландшафт методов и задач ИИ
Для дальнейшего изложения выделим четыре крупных класса задач ИИ.
Задачи восприятия — извлечение структурированной информации из неструктурированных входных данных: распознавание объектов на изображениях, детекция лиц, сегментация сцен, преобразование речи в текст, анализ сенсорных данных. Эти задачи долгое время считались одними из самых трудных, поскольку требуют обобщения на уровне, естественном для человека, но плохо поддающемся формализации. Прорыв произошёл именно в задачах восприятия — с появлением свёрточных нейронных сетей, о которых пойдёт речь в теме 7.
Задачи рассуждения охватывают логический вывод, планирование действий, принятие решений в условиях ограничений: доказательство теорем, планирование маршрутов, составление расписаний, конфигурирование сложных систем. Исторически это территория символьного ИИ, и для ряда таких задач символьные методы по-прежнему наиболее эффективны. Подробнее — в теме 2.
Ядро настоящего курса составляют задачи обучения: классификация (отнесение объекта к одному из заранее определённых классов), регрессия (предсказание непрерывной величины), кластеризация (группировка объектов по сходству без заданных меток). Именно им посвящены темы 3–7, и именно на них мы будем отрабатывать полный цикл — от подготовки данных до оценки качества модели.
Задачи генерации связаны с созданием нового контента: текстов, изображений, музыки, программного кода. От простых марковских цепей до больших языковых моделей (англ. large language model, LLM) и диффузионных моделей — это одно из наиболее активно развивающихся направлений. Основы генеративных подходов рассматриваются в заключительной теме курса.
Границы между классами условны. Беспилотный автомобиль одновременно решает задачи восприятия (камеры, лидар), рассуждения (планирование маршрута) и обучения (адаптация к дорожным условиям). Но как рабочая классификация для структурирования учебного материала это деление достаточно.
Литература
- Russell S., Norvig P. Artificial Intelligence: A Modern Approach. — Pearson, 2021.
- Turing A. M. Computing Machinery and Intelligence. — Mind, 1950, С. 433–460, DOI: 10.1093/mind/LIX.236.433.
- Wiener N. Cybernetics: Or Control and Communication in the Animal and the Machine. — MIT Press, 1948.
- McCarthy J., Minsky M. L., Rochester N., Shannon C. E. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. — AI Magazine, 2006, С. 12–14, DOI: 10.1609/aimag.v27i4.1904.
- Newell A., Simon H. A. The Logic Theory Machine: A Complex Information Processing System. — IRE Transactions on Information Theory, 1956, С. 61–79, DOI: 10.1109/TIT.1956.1056797.
- Lighthill J. Artificial Intelligence: A General Survey. — 1973.
- Shortliffe E. H. Computer-Based Medical Consultations: MYCIN. — Elsevier, 1976.
- McDermott J. R1: A Rule-Based Configurer of Computer Systems. — Artificial Intelligence, 1982, С. 39–88, DOI: 10.1016/0004-3702(82)90021-2.
- Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks. — Advances in Neural Information Processing Systems (NeurIPS), 2012, С. 1097–1105.
- Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser {., Polosukhin I. Attention Is All You Need. — Advances in Neural Information Processing Systems (NeurIPS), 2017, С. 5998–6008.
- Haugeland J. Artificial Intelligence: The Very Idea. — MIT Press, 1985.
- Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. — Psychological Review, 1958, С. 386–408, DOI: 10.1037/h0042519.
- Rumelhart D. E., Hinton G. E., Williams R. J. Learning Representations by Back-Propagating Errors. — Nature, 1986, С. 533–536, DOI: 10.1038/323533a0.
- Yi K., Wu J., Gan C., Torralba A., Kohli P., Tenenbaum J. B. Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding. — Advances in Neural Information Processing Systems (NeurIPS), 2018.
- Searle J. R. Minds, Brains, and Programs. — Behavioral and Brain Sciences, 1980, С. 417–424, DOI: 10.1017/S0140525X00005756.