OpenAI opublikowało swój najnowszy model wnioskowania, o3-miniktóry jest zoptymalizowany pod kątem dziedzin takich jak nauki ścisłe, matematyka i programowanie, zapewniając szybszą reakcję, większą dokładność i niższe koszty.
W porównaniu do swojego poprzednika o1-mini, o3-mini znacznie poprawił swoje możliwości wnioskowania, szczególnie w rozwiązywaniu złożonych problemów. Testerzy preferują odpowiedzi o3-mini o 56%, a wskaźnik błędów został zmniejszony o 39%. Od dzisiaj, ChatGPT Plus, Zespół oraz Zawodowiec użytkownicy mogą korzystać z o3-mini, a wolni użytkownicy mogą również doświadczyć niektórych z jego funkcji.

W porównaniu z modelem wnioskowania DeepSeek-R1o ile lepszy jest OpenAI o3-mini niż R1?
W tym artykule najpierw przedstawimy przegląd najważniejszych cech o3-mini, a następnie wyodrębnimy dane z obu stron dla każdego benchmarku i stworzymy wykres, aby wizualnie je porównać. Ponadto porównamy również cenę o3-mini.
Najważniejsze wydarzenia
1.Optymalizacja STEM: wyróżnia się w dziedzinie matematyki, programowania, nauk ścisłych itp., szczególnie przewyższając o1-mini w trybie wysokiego wysiłku wnioskowania.
2.Funkcje deweloperskieObsługuje funkcje takie jak wywołania funkcji, ustrukturyzowane dane wyjściowe i komunikaty programistyczne, aby spełnić potrzeby środowiska produkcyjnego.
3.Szybka reakcja24% szybciej niż o1-mini, z czasem odpowiedzi 7,7 sekundy na żądanie.
4.Poprawa bezpieczeństwaZapewnia bezpieczne i niezawodne wyjście dzięki technologii głębokiego wyrównania.
5.OpłacalnośćMożliwości wnioskowania i optymalizacja kosztów idą w parze, znacznie obniżając próg wykorzystania sztucznej inteligencji.
Porównaj
Otwarta sztuczna inteligencja Aby podkreślić swoją klasę, jej oficjalny blog porównuje go tylko z własnymi modelami. Dlatego ten artykuł jest tabelą wyodrębnioną z artykułu DeepSeek R1 i danych z oficjalnego bloga OpenAI.
OpenAI oficjalnie porównuje o3-mini na liście wersji, dzieląc ją na trzy wersje: niską, średnią i wysoką, które wskazują siłę wnioskowania. Ponieważ DeepSeek używa Math-500, a OpenAI używa zbioru danych Math, porównanie to zostało tutaj usunięte.

Wykres jest bardziej intuicyjny, a Codeforces został usunięty, ponieważ wartości są zbyt duże, aby można je było wyświetlić intuicyjnie. Porównanie na Codeforces pokazuje jednak, że wysoka siła wnioskowania o3-mini nie jest dużą przewagą.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-bench-Verified
Z wykresu wynika, że istnieją w sumie 4 porównania, a O3-mini (high) generalnie prowadzi, ale przewaga jest bardzo niewielka.
Cena
model | Cena wejściowa | Uderzenie pamięci podręcznej | Cena wyjściowa |
o3-mini | $1.10 | $0.55 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
Deepseek R1 | $0.55 | $0.14 | $2.19 |
Podsumowanie
Po tym, jak DeepSeek R1 wywołał panikę DeepSeek w Stanach Zjednoczonych, pierwszym, który poczuł się zagrożony, był OpenAI, co jest szczególnie widoczne w cenach nowego modelu o3-mini.
Kiedy Openai o1 został wydany po raz pierwszy, jego wysoka cena wywarła presję na wielu programistach i użytkownikach. Pojawienie się DeepSeek R1 dało wszystkim większy wybór.Od 30-krotnej różnicy w cenie między o1 i R1 do ostatecznej ceny o3-mini wynoszącej dwukrotność cena DeepSeek R1,
pokazuje wpływ DeepSeek R1 na openai.Darmowi użytkownicy ChatGPT mogą jednak korzystać z o3-mini tylko w ograniczonym zakresie, podczas gdy Deep Thinking od DeepSeek jest obecnie dostępne dla wszystkich użytkowników.Oczekuję również, że openai wprowadzi więcej wiodących modeli ai, jednocześnie obniżając koszty użytkowania dla użytkowników.
Z perspektywy osobistego doświadczenia blogera korzystającego z R1, chciałbym powiedzieć, że Głębokie Myślenie w R1 zawsze otwiera mój umysł. Polecam wszystkim, by używali go częściej do myślenia o problemach~.