Бывший разработчик Windows Дэйв Пламмер напомнил о том, что вокруг искусственного интеллекта слишком много лишней мистики. На этот раз специалист показал, как базовые принципы работы современных нейросетей можно продемонстрировать буквально на музейном железе — PDP-11, системе конца 1970-х с процессором 6 МГц и 64 КБ оперативной памяти.
Для эксперимента использовалась модель ATTN/11 — это одноголовый однослойный трансформер, полностью написанный на ассемблере PDP-11.
Проект создал Damien Buret, и его идея довольно проста: не гнаться за мощностью, а показать трансформер в максимально «разобранном» и понятном виде.
Задача у модели с виду совсем скромная — научиться переворачивать последовательность из восьми цифр. Но, как объясняет Пламмер, здесь важен не сам фокус с числами, а принцип: системе нужно уловить структуру правила, а не просто запомнить отдельные примеры. Именно в этом, по сути, и проявляется базовая механика, на которой работают большие языковые модели.
Особенно интересно то, насколько крошечной получилась эта демонстрация. В модели всего 1216 параметров, она использует fixed-point arithmetic, а вычисления для прямого прохода ужаты до 8-битной точности.
Модель смогла добиться 100% точности на задаче разворота последовательностей после примерно 350 шагов обучения. На PDP-11/44 с кеш-платой на это ушло около 3,5 минуты. Для машины такого возраста результат выглядит невероятно хорошим.
Пламмер, в сущности, пытался доказать, что суть современного ИИ в очень большом количестве арифметики, повторений и постепенной коррекции ошибок. Просто сегодня всё это происходит в несравнимо большем масштабе и на куда более мощном железе.
Заодно история красиво бьёт ещё в одну точку: в эпоху, когда индустрия всё чаще упирается в дефицит вычислительных ресурсов, старое доброе искусство оптимизации снова становится особенно ценным.







