Никој од нас не очекуваше дека вака ќе започне 2025 година на полето на вештачката интелигенција.
DeepSeek R1 е навистина неверојатно!
Неодамна, „мистериозната источна сила“ DeepSeek „тешко ја контролира“ Силиконската долина.

Го прашав R1 детално да ја објасни Питагоровата теорема. Сето тоа вештачката интелигенција го направи за помалку од 30 секунди без никакви грешки. Накратко, готово.
Во домашните и странските кругови на вештачката интелигенција, обичните корисници на Интернет ја открија неверојатната и моќна нова вештачка интелигенција (која е исто така со отворен код), а академските експерти извикуваа „мора да стигнеме“. Исто така, се зборува дека компаниите со вештачка интелигенција во странство веќе се соочуваат со голема закана.
Само земете го овој DeepSeek R1 објавен оваа недела. Неговиот чист начин на учење за зајакнување без никаква надгледувана обука е шокантен. Од развојот на базата Deepseek-v3 во декември минатата година до сегашните способности на синџирот на размислување споредливи со OpenAI o1, се чини дека е прашање на време.
Но, додека заедницата за вештачка интелигенција е зафатена со читање технички извештаи и споредување на вистинските мерења, луѓето сè уште се сомневаат во R1: освен тоа што може да надмине куп репери, дали навистина може да води?
Дали може да изгради свои симулации на „физички закони“?
Не ви се верува? Да ја оставиме големата манекенка да си игра со флипер?
Во последниве денови, некои луѓе во заедницата со вештачка интелигенција станаа опседнати со тест - тестирање на различни големи модели со вештачка интелигенција (особено таканаречените модели на расудување) за да решат проблем: „Напишете скрипта за Python за да направите жолта топка да скокне во одредено обликот. Направете формата полека да се ротира и погрижете се топката да остане внатре во формата“.
Некои модели ги надминуваат другите во оваа репер за „ротирачка топка“. Според CTO на CoreView, Иван Фиораванти, DeepSeek, домашна лабораторија за вештачка интелигенција, има голем модел R1 со отворен код кој го надминува моделот o1 про на OpenAI, кој чини $200 месечно како дел од програмата ChatGPT Pro на OpenAI.

Лево е OpenAI o1, а десно е DeepSeek R1. Како што беше споменато погоре, барањето овде е: „напишете скрипта за питон за жолта топка што отскокнува во квадрат, проверете дали правилно се справувате со откривањето судир. направете го квадратот полека да се ротира. имплементирајте го во python. погрижете се топката да остане на плоштадот“.
Според друг корисник на X, моделите Anthropic Claude 3.5 Sonnet и Gemini 1.5 Pro на Google направиле неточни проценки за физичките принципи, предизвикувајќи топката да отстапи од нејзината форма. Некои корисници исто така објавија дека најновиот Gemini 2.0 Flash Thinking Experimental на Google, како и релативно постариот OpenAI GPT-4o, ја поминале проценката одеднаш.
Но, тука постои начин да се направи разлика:

Нетизените под овој твит рекоа: способноста на o1 првично беше многу добра, но стана послаба откако OpenAI ја оптимизираше брзината, дури и со верзијата за членство $200/месечно.
Симулирањето топка што отскокнува е класичен програмски предизвик. Прецизната симулација комбинира алгоритми за откривање судир, кои треба да идентификуваат кога се судираат два објекти (како што се топката и страната на обликот). Неправилно напишан алгоритам може да влијае на изведбата на симулацијата или да предизвика очигледни физички грешки.
N8 Programs, истражувач во стартапот за вештачка интелигенција Nous Research, рече дека му биле потребни околу два часа да напише топка која отскокнува во ротирачки хептагон од нула. „Мора да се следат повеќе координатни системи, потребно е разбирање за тоа како се постапуваат судирите во секој систем, а кодот мора да биде дизајниран од нула за да биде робустен“.
Иако отскокнувачките топки и облиците на вртење се разумен тест за програмските вештини, тие сепак се нови проекти за големи модели, па дури и малите промени во инструкциите можат да дадат различни резултати. Значи, ако сака на крајот да стане дел од репер тестот за големи модели со вештачка интелигенција, сепак треба да се подобри.
Во секој случај, по овој бран практични тестови, имаме чувство за разликите во можностите помеѓу големите модели.
DeepSeek е новиот „мит за Силиконската долина
DeepSeek предизвикува паника“ низ Пацификот.

Вработените во Мета објавија дека „Инженерите на Мета френетично го анализираат DeepSeek за да се обидат да копираат сè што можат од него“.
Александр Ванг, основач на стартапот за вештачка интелигенција Scale AI, исто така јавно изјави дека перформансите на големиот модел со вештачка интелигенција на DeepSeek се приближно еквивалентни на најдобриот модел во Соединетите држави.
Тој, исто така, верува дека Соединетите држави можеби беа пред Кина во конкуренцијата за вештачка интелигенција во изминатата деценија, но објавувањето на DeepSeek на неговиот голем модел со вештачка интелигенција може да „промени сè“.
X Blogger @8teAPi верува дека DeepSeek не е „страничен проект“, туку е како поранешниот „Skunk Works“ на Локхид Мартин.
Таканаречениот „Skunk Works“ се однесува на многу доверлив, релативно независен мал тим што Lockheed Martin првично го формираше за да развие многу напредни авиони, ангажирани во најсовремени или неконвенционални технолошки истражувања и развој. Од извидувачкиот авион U-2 и SR-71 Blackbird до ловецот F-22 Raptor и F-35 Lightning II, сите дојдоа од тука.
Подоцна, терминот постепено еволуираше во генерички термин што се користи за опишување на „мали, но фини“, релативно независни и пофлексибилни тимови за иновации формирани во големи компании или организации.
Тој наведе две причини:
- Од една страна, DeepSeek има голем број графички процесори, наводно повеќе од 10.000, а Александар Ванг, извршен директор на Scale AI, дури рече дека може да достигне 50.000.
- Од друга страна, DeepSeek регрутира само таленти од првите три универзитети во Кина, што значи дека DeepSeek е конкурентен како Alibaba и Tencent.
Само овие два факти покажуваат дека DeepSeek јасно постигна комерцијален успех и е доволно добро познат за да ги добие овие ресурси.

Што се однесува до трошоците за развој на DeepSeek, блогерот рече дека кинеските технолошки компании можат да добијат различни субвенции, како што се ниските трошоци за електрична енергија и користење на земјиштето.
Затоа, многу е веројатно дека повеќето од трошоците на DeepSeek се „сместени“ на сметка надвор од основната дејност или во форма на некаква субвенција за изградба на центри за податоци.
Дури и освен основачите, никој не ги разбира целосно сите финансиски аранжмани. Некои договори може едноставно да бидат „вербални договори“ кои се финализирани само врз основа на репутацијата.
Без разлика, неколку работи се јасни:
- Моделот е одличен, споредлив со верзијата што ја објави OpenAI пред два месеци, и секако можно е да не е толку добар како новите модели кои OpenAI и Anthropic допрва треба да ги издадат.
- Од сегашна перспектива, во насоката на истражување сè уште доминираат американски компании. Моделот DeepSeek е „брзо следење“ на верзијата o1, но напредокот во истражувањето и развојот на DeepSeek е многу брз, достигнувајќи ја брзината побрзо од очекуваното. Тие не се плагијат или мамење, најмногу се обратно инженерство.
- DeepSeek главно тренира свој талент, наместо да се потпира на доктори на науки обучени во Америка, што во голема мера го проширува базенот на таленти.
- Во споредба со американските компании, DeepSeek подлежи на помалку ограничувања во однос на лиценцирање на интелектуална сопственост, приватност, безбедност, политика итн., а има помалку грижи за погрешна употреба на податоци за кои луѓето не сакаат да бидат обучени. Има помалку тужби, помалку адвокати и помалку грижи.
Несомнено е дека се повеќе луѓе веруваат дека 2025 година ќе биде одлучувачка година. Во меѓувреме, компаниите се подготвуваат за тоа. Мета, на пример, гради центар за податоци од 2GW+, со проценета инвестиција од $60-65 милијарди до 2025 година и ќе има повеќе од 1,3 милиони графички процесори до крајот на годината.
Мета дури користеше графикон за да го спореди својот центар за податоци од 2 гигавати со Менхетен, Њујорк.

Но, сега DeepSeek направи подобро со пониска цена и помалку графички процесори. Како може ова да не ги направи луѓето вознемирени?
Јан ЛеКун: Мораме да му се заблагодариме на CTO и ко-основач на на отворен код
Хиперболичен, Јучен Џин, што објави дека за само 4 дена, DeepSeek-R1 ни докажа 4 факти:
- Вештачката интелигенција со отворен код е само 6 месеци зад вештачката интелигенција со затворен извор
- Кина доминира во конкуренцијата за вештачка интелигенција со отворен код
- Влегуваме во златното доба на учењето за зајакнување на големите јазични модели
- Моделите за дестилација се многу моќни и ќе работиме со високо интелигентна вештачка интелигенција на мобилни телефони

Верижната реакција предизвикана од DeepSeek сè уште продолжува, како што е OpenAI o3-mini што е бесплатно достапен, надежта во заедницата да се намалат нејасните дискусии за AGI/ASI и гласините дека Мета е во паника.
Тој смета дека е тешко да се предвиди кој на крајот ќе победи, но не треба да се заборави и на моќта на предноста на доцниот. На крајот на краиштата, сите знаеме дека Google беше тој што го измисли Transformer, додека OpenAI го отклучи неговиот вистински потенцијал.
Покрај тоа, добитникот на наградата Туринг и главен научник за вештачка интелигенција на Мета, Јан ЛеКун, исто така ги искажа своите ставови.
„За оние кои, откако ќе ги видат перформансите на DeepSeek, мислат: „Кина ги претекнува САД во вештачката интелигенција“, грешите. Точното разбирање е дека моделите со отворен код ги надминуваат сопственичките модели“.
ЛеКун рече дека причината зошто DeepSeek направи толкав удар овој пат е затоа што тие имаат корист од отвореното истражување и софтверот со отворен код (како што се PyTorch и Llama на Мета). DeepSeek излезе со нови идеи и се надоврза на работата на другите. Бидејќи нивната работа е јавно објавена и со отворен код, секој може да има корист од тоа. Ова е моќта на отвореното истражување и отворениот код.

Рефлексиите на корисниците продолжуваат. Додека тие се возбудени за развојот на новите технологии, тие исто така можат да почувствуваат мала атмосфера на вознемиреност. На крајот на краиштата, појавата на DeepSeekers може да има вистинско влијание.