
12월에 출시된 Flash Thinking Experimental 버전은 개발자에게 저지연성과 고성능을 갖춘 실행 가능한 모델을 제공했습니다.
올해 초, Google AI Studio에서 2.0 Flash Thinking Experimental이 업데이트되어 Flash의 속도와 향상된 추론 기능을 결합하여 성능이 더욱 향상되었습니다.
지난 주, 업데이트된 버전 2.0 Flash가 Gemini 데스크톱과 모바일 앱에 정식 출시되었습니다.
오늘 세 가지 새로운 멤버가 동시에 공개되었습니다. 지금까지 코딩과 복잡한 프롬프트에서 가장 좋은 성과를 보인 실험적 버전인 Gemini 2.0 Pro, 비용 효율적인 2.0 Flash-Lite, 사고력이 강화된 버전인 2.0 Flash Thinking입니다.
Gemini 2.0 Pro는 모든 카테고리에서 1위를 차지했습니다. Gemini-2.0-Flash는 코딩, 수학, 퍼즐에서 상위 3위 안에 들었습니다. Flash-lite는 모든 카테고리에서 상위 10위 안에 들었습니다.


세 모델의 능력을 비교한 차트:

모든 모델은 다중 모드 입력 및 출력 텍스트를 지원합니다.
더 많은 모달 기능이 출시될 예정입니다. 코딩 분야의 모델 강도 차트

승률 히트맵

Google은 OpenAI가 Plus 사용자를 대하는 것보다 무료 사용자를 더 잘 대합니다. AI Studio에서 Gemini 2.0 Pro Experimental에 무료로 액세스:

Deepseek 서비스는 항상 오류 대기를 표시합니다. 최초의 추론 없는 모델도 Google aistudio에서 사용된 2.0 Flash Thinking이라는 점을 기억하세요.

또한, Gemini의 웹 버전:
연결된 추론 모델도 있습니다(그러니 왜 분리해야 할까요...)

구글은 제미니 2.0 프로의 실험 버전을 출시했으며, 공식 벤치마크 테스트에서 나타난 개선 사항은 매우 눈길을 끈다.

이 모델은 가장 강력한 코딩 기능과 복잡한 프롬프트를 처리할 수 있는 기능을 갖추고 있으며, 지금까지 Google에서 출시한 모든 모델보다 전 세계의 지식을 이해하고 추론하는 능력이 뛰어납니다.
가장 큰 컨텍스트 창(200k, 제 긴 컨텍스트는 제미니 모델의 비교적 큰 장점)을 가지고 있어서 대량의 정보를 종합적으로 분석하고 이해하고, Google 검색 및 코드 실행과 같은 도구를 호출할 수 있습니다.
MATH 시험에서는 1.5버전 대비 약 5%포인트 상승한 91.8%를 달성했습니다. GPQA 추론 능력은 64.7%에 도달했고, SimpleQA 세계 지식 테스트는 44.3%에 도달했습니다.
가장 주목할 만한 것은 프로그래밍 능력입니다. LiveCodeBench 테스트에서 36.0%를 달성했고 Bird-SQL 변환 정확도는 59.3%를 넘었습니다. 200만 개의 토큰이라는 초대형 컨텍스트 윈도우와 결합하면 가장 복잡한 코드 분석 작업을 처리하기에 충분합니다.

커서에서 시도해 볼 수 있습니다.
다국어 이해 능력도 인상적이며, 글로벌 MMLU 시험 점수는 86.5%입니다. 이미지 이해 MMMU는 72.7%이고, 비디오 분석 능력은 71.9%입니다.
Gemini 2.0 Flash-Lite는 흥미로운 균형을 이루고 있습니다.
1.5 플래시의 속도와 비용을 유지하지만 더 나은 성능을 제공합니다. 100만 개의 토큰이 있는 컨텍스트 창을 통해 더 많은 정보를 처리할 수 있습니다.
가장 실용적인 것은 가격 대비 성능 비율입니다. 40,000장의 사진에 대한 캡션 생성 비용이 $1보다 저렴합니다. 이는 AI를 더 현실적으로 만듭니다.

블로거 Shrivastava는 다음과 같이 언급했습니다: Gemini 2.0 Pro 인코딩은 정말 미쳤어요!
팁: Three.js를 사용하여 태양계 시뮬레이션을 만드세요. 시간 척도, 초점 드롭다운 메뉴를 추가하고, 궤도와 라벨을 표시하세요. 모든 것을 하나의 파일에 만들어서 온라인 편집기에 붙여넣고 출력을 볼 수 있도록 하세요.

또한 일부 사용자는 Gemini 2.0 Flash가 자신의 역설 테스트 중 하나에서 더 나은 결과를 냈다고 언급했습니다.

마지막으로, 구글은 패치뿐만 아니라 Gemini 2.0의 보안이 처음부터 설계의 핵심이라고 언급했습니다.
모델이 자기 비판하는 법을 배우게 하세요. 강화 학습을 사용하여 Gemini가 스스로 답을 평가하고 더 정확한 피드백을 제공하게 하세요. 이렇게 하면 민감한 주제를 다룰 때 더 강력해집니다.
자동화된 레드팀 테스트는 흥미롭습니다. 간접적인 프롬프트 단어의 주입을 방지하기 위해 특별히 설계되었는데, 이는 AI에 면역 체계를 장착하여 누군가가 데이터에 악성 명령을 숨기는 것을 방지하는 것과 같습니다.