OpenAI opublikowało swój najnowszy model wnioskowania, o3-miniktóry jest zoptymalizowany pod kątem dziedzin takich jak nauki ścisłe, matematyka i programowanie, zapewniając szybszą reakcję, większą dokładność i niższe koszty.

W porównaniu do swojego poprzednika o1-mini, o3-mini znacznie poprawił swoje możliwości wnioskowania, szczególnie w rozwiązywaniu złożonych problemów. Testerzy preferują odpowiedzi o3-mini o 56%, a wskaźnik błędów został zmniejszony o 39%. Od dzisiaj, ChatGPT Plus, Zespół oraz Zawodowiec użytkownicy mogą korzystać z o3-mini, a wolni użytkownicy mogą również doświadczyć niektórych z jego funkcji.

W porównaniu z modelem wnioskowania DeepSeek-R1o ile lepszy jest OpenAI o3-mini niż R1?

W tym artykule najpierw przedstawimy przegląd najważniejszych cech o3-mini, a następnie wyodrębnimy dane z obu stron dla każdego benchmarku i stworzymy wykres, aby wizualnie je porównać. Ponadto porównamy również cenę o3-mini.

Najważniejsze wydarzenia

1.Optymalizacja STEM: wyróżnia się w dziedzinie matematyki, programowania, nauk ścisłych itp., szczególnie przewyższając o1-mini w trybie wysokiego wysiłku wnioskowania.

2.Funkcje deweloperskieObsługuje funkcje takie jak wywołania funkcji, ustrukturyzowane dane wyjściowe i komunikaty programistyczne, aby spełnić potrzeby środowiska produkcyjnego.

3.Szybka reakcja24% szybciej niż o1-mini, z czasem odpowiedzi 7,7 sekundy na żądanie.

4.Poprawa bezpieczeństwaZapewnia bezpieczne i niezawodne wyjście dzięki technologii głębokiego wyrównania.

5.OpłacalnośćMożliwości wnioskowania i optymalizacja kosztów idą w parze, znacznie obniżając próg wykorzystania sztucznej inteligencji.

Porównaj

Otwarta sztuczna inteligencja Aby podkreślić swoją klasę, jej oficjalny blog porównuje go tylko z własnymi modelami. Dlatego ten artykuł jest tabelą wyodrębnioną z artykułu DeepSeek R1 i danych z oficjalnego bloga OpenAI.

OpenAI oficjalnie porównuje o3-mini na liście wersji, dzieląc ją na trzy wersje: niską, średnią i wysoką, które wskazują siłę wnioskowania. Ponieważ DeepSeek używa Math-500, a OpenAI używa zbioru danych Math, porównanie to zostało tutaj usunięte.

Wykres jest bardziej intuicyjny, a Codeforces został usunięty, ponieważ wartości są zbyt duże, aby można je było wyświetlić intuicyjnie. Porównanie na Codeforces pokazuje jednak, że wysoka siła wnioskowania o3-mini nie jest dużą przewagą.

↑1AIME2024→2GPQA Diamond→3MMLU→4SWE-bench-Verified

Z wykresu wynika, że istnieją w sumie 4 porównania, a O3-mini (high) generalnie prowadzi, ale przewaga jest bardzo niewielka.

Cena

modelCena wejściowaUderzenie pamięci podręcznejCena wyjściowa
o3-mini$1.10$0.55$4.40
o1$15.00$7.50$60.00
Deepseek R1$0.55$0.14$2.19

Podsumowanie

Po tym, jak DeepSeek R1 wywołał panikę DeepSeek w Stanach Zjednoczonych, pierwszym, który poczuł się zagrożony, był OpenAI, co jest szczególnie widoczne w cenach nowego modelu o3-mini.

Kiedy Openai o1 został wydany po raz pierwszy, jego wysoka cena wywarła presję na wielu programistach i użytkownikach. Pojawienie się DeepSeek R1 dało wszystkim większy wybór.Od 30-krotnej różnicy w cenie między o1 i R1 do ostatecznej ceny o3-mini wynoszącej dwukrotność cena DeepSeek R1,

pokazuje wpływ DeepSeek R1 na openai.Darmowi użytkownicy ChatGPT mogą jednak korzystać z o3-mini tylko w ograniczonym zakresie, podczas gdy Deep Thinking od DeepSeek jest obecnie dostępne dla wszystkich użytkowników.Oczekuję również, że openai wprowadzi więcej wiodących modeli ai, jednocześnie obniżając koszty użytkowania dla użytkowników.

Z perspektywy osobistego doświadczenia blogera korzystającego z R1, chciałbym powiedzieć, że Głębokie Myślenie w R1 zawsze otwiera mój umysł. Polecam wszystkim, by używali go częściej do myślenia o problemach~.

Podobne posty

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *