Искусственный интеллект — на кого он работает

«1958 г., Н.П. Брусенцов построил в МГУ первую опытную электронную троичную ЭВМ ... «Сетунь» на ячейках из ферритдиодных магнитных усилителей переменного тока, работавших в двухбитном троичном коде, четвёртое состояние двух битов не использовалось. ... В США в то время тоже рассматривали преимущества и недостатки троичного компьютера и после проведённых теоретических исследований строить троичный компьютер не стали».

И, спустя более полувека (а с точки зрения бурного развития вычислительной техники — это огромный срок),

«...из-за массового производства двоичных компонентов для компьютеров троичные компьютеры занимают очень малое место в истории вычислительной техники. Однако троичная логика элегантнее и эффективнее двоичной и в будущем, возможно, вновь вернутся к её разработке. ... возможным путём считают комбинацию оптического компьютера с троичной логической системой» (Википедия).

Советский... народ был — и всё ещё остаётся — весьма изобретателен. Хотя над лишением нас сего качества... да и жизни в целом... упорно и последовательно работают.

— Максимальная скорость работы компьютеров с 1993 по 2022 г. выросла в 10 млн раз – со 124 млрд операций в секунду до 1,1 квинтиллиона операций в секунду.

— Объем вычислений, которые используются для обучения моделей ИИ, начиная с 2010 г. и по настоящее время удваивается каждые 6 месяцев, в то время как всего 50 лет назад такое удвоение происходило лишь раз в 20 месяцев. [Характерно, что авторы обзора вновь и вновь ведут речь именно о 70-ых годах.]

— Объем доступной информации вырос: по данным International Data Corporation, размер глобальной датасферы к 2025 г. достигнет 175 ЗБ [зеттабайт, единица измерения количества информации, равная 10 в 21-ой степени (секстиллион) байт] против всего 33 ЗБ в 2018 г.: если бы мы могли хранить такие объемы данных на DVD-дисках, то их укладки хватило бы, чтобы обогнуть Землю 222 раза.

Вклад в рост объема данных вносит и появление генеративного ИИ: эксперты Gartner оценивают, что с 2022 по 2025 г. доля данных, созданных технологией, вырастет в общем объеме датасферы с 1 до 10%.

Генеративный ИИ – тип искусственного интеллекта, способный создавать новый контент (текст – на естественном языке или языке программирования, изображения, видео, музыку). Он использует статистические методы для создания контента на основе его вероятностей – посредством имитации данных, на которых ранее был обучен. В отличие от дискриминативного ИИ, который классифицирует входные данные по заранее определенным категориям, генеративный ИИ генерирует новые, синтетические данные, отражающие обучающие данные. Новая технология, в отличие от большинства других ML-инструментов [ML - machine learning, машинное обучение], умеет работать с контекстом – длинными последовательностями – и способна решать креативные задачи за счет генерации нового контента. В текстовом домене такой функционал стал возможен благодаря принципиально новому типу фундаментальной нейросетевой архитектуры – трансформеру, используемому всеми большими языковыми моделями.

При чтении подобного рода текстов создаётся ощущение, что имеешь дело не с бионической, а электронной нейросетью, при обучении коей, Русскому — прежде всего т.наз. бытовому — языку предпочитали английский: «контент, домен, функционал, трансформер»... Напр., «домен» В-ия трактует: «фр. domaine от лат. dominium — владение... область; единица структуры... владения короля или владение какого-либо феодала в Средние века» — всё из того же общего (смыслового) болота, что и — упорно насаждаемая вместо действительности — реальность.

Генеративный ИИ основан на больших (по количеству параметров – слоев в нейронной сети) моделях, предварительно обученных на больших объемах данных, – такие модели обычно называют базовыми (Foundation Models). Самая известная на рынке базовая модель – GPT-4 от американской компании OpenAI... на текущий момент самая маленькая GPT-модель от OpenAI, доступная разработчикам, содержит 350 млн параметров и обучена на 40 ГБ текстовых данных... Она способна выполнять базовые задачи понимания естественного языка и генерации данных – классификацию, анализ настроений (sentiment analysis), суммаризацию и простой диалог.

Количество параметров в больших языковых моделях неуклонно росло – примерно со 120 млн параметров в GPT-1 приблизительно до 1,76 трлн в GPT-422 (по оценкам экспертов; точное количество параметров моделей не было раскрыто OpenAI).

Разработка и обучение ИИ-систем требуют использования больших объемов данных – как высококачественных (статьи, диссертации, исследования, мировая художественная литература), так и более низкого качества (публикации в интернете и др.). Исследователи Epoch AI прогнозируют нехватку данных первого типа, высококачественных данных, к 2026 г., визуальных данных – к 2030–2060 гг., данных второго типа – к 2030–2050 гг. Кроме того, часть данных может быть недоступна из-за конфиденциальности, законодательных ограничений или монополизации информации определенными компаниями.

Дебилизируя население, элита... или, как правило, «элита» дебилизирует в конечном итоге и сама себя — и к сему ещё добавляется «дебилизация» искина, процесс вполне логичный и неизбежный.

Ну и лёгкий т.ск. намёк на ... несовершенство программирующих бионейросетей:

Этические риски [использования искина] отчасти связаны со спецификой самой технологии. Во-первых, искусственный интеллект несовершенен и может принимать предвзятые решения, в основном вследствие предвзятости данных, на которых был обучен. Обучающая выборка может быть неполной, нерепрезентативной или уже содержать элементы предвзятости.

Не говоря уже о том, что — добавкой к ... злонамеренности создателей-программистов —

... генеративные модели, даже уровня GPT-4, могут «галлюцинировать», то есть предоставлять некорректные с фактологической точки зрения ответы. ... Проблема «галлюцинирования» – следствие не только качества данных для обучения, но и вероятностной природы модели, и сейчас отсутствуют методы, гарантирующие ее стопроцентное устранение.

Loading

Оставить комментарий

Rainbow
Rainbow
Cherry
Cherry
Sunset
cikPhotos074 076
A road to nowhere
cikPhotos074 068
Summer dream
cikPhotos074 075
The spring is out there
PIC_0013
Ранней весной
jurPhotos060 050
Диагональ
CamPhotos 006
Расколотый мост
CamPhotos 016
Так было когда-то
CamPhotos 021
Pink pattern
iPhotos070 036
Поздний вечер
iPhotos070 038
My flower
PIC_0146
Закат в деревне
PIC_0012
Золотая осень
DCIM100MEDIA
The last leaf
DCIM100MEDIA
Кончилось лето
DCIM100MEDIA
Ветер
DCIM100MEDIA
Осень в городе
DCIM100MEDIA
На мосту
DCIM100MEDIA
My roses
PIC_0206
Болото
PIC_0090
The sun in the town
DCIM100MEDIA
Храм
DCIM100MEDIA
Узор
PIC_0007а
Pentane combustion (1%CCl4)
Нанотехнологии
наноболт 1
Teg cloud
Календарь
Апрель 2024
Пн Вт Ср Чт Пт Сб Вс
1234567
891011121314
15161718192021
22232425262728
2930  
Это Гагарин, если кто не понял
Это Гагарин, если кто не понял
Как продаются мои книги
SprModes
Книга о пламёнах.
Книга о пламёнах.
Книга о горении газов
Книга о горении газов
Книга о горении твёрдых тел
Книга о горении твёрдых тел
Книга о пламёнах в газах и твёрдых телах
Книга о пламёнах в газах и твёрдых телах
Книга о горении нанопорошков и не только
Книга о горении нанопорошков и не только
Навстречу
PIC_0007
Funeral to Kerry 1
Funeral to Kerry 1
Perpetual motion
PIC_0151
Осеннее солнышко
DCIM100MEDIA
Funeral to Kerry 2
Funeral to Kerry 2
Under control
PIC_0035
Благословение
PIC_0035тт
Sunrise
DCIM100MEDIA
Farewell in purple
PIC_0236
The sun in the town 1
DCIM100MEDIA
Жить станет дешевле ?
DCIM100MEDIA
Бюджетник Васька
DCIM100MEDIA
Русские горки
Русские горки
Откудахтались
Откудахтались
Sunrise in the town
DCIM100MEDIA
Воспламенение H2 над Pt
Сервис ненавязчив
Сервис ненавязчив
Аллегория рекламы
Аллегория рекламы
Капитализм отклеился
Капитализм отклеился
Дождутся
Дождутся

Нулевой пациент

Книга о воиянии благородных металлов на горение
О влиянии благородных металлов на горение
Самая новая книга о горении