DeepSeek v4 API 공개, flash·pro 모델과 thinking mode 정리

DeepSeek이 2026년 4월 24일 v4 시리즈 API를 공식 공개하면서 기존 deepseek-chatdeepseek-reasoner 모델의 단계적 폐기를 예고했습니다. 본 가이드는 DeepSeek 공식 API 문서 기준으로 v4의 두 모델 구성, 가격 구조, thinking mode 활성화, 레거시 모델 마이그레이션 체크리스트를 정리합니다.

검증 기준 시점은 2026년 4월 24일이며, 모든 수치는 DeepSeek 공식 문서에서 수집했습니다. 한국 개발자 입장에서 비용과 호환성, 운영 리스크를 중심으로 판단 포인트를 제시합니다.

1. DeepSeek v4 공개 개요

공식 API 문서에 따르면 DeepSeek v4는 deepseek-v4-flashdeepseek-v4-pro 두 모델로 구성됩니다. 동시에 공식 문서는 deepseek-chatdeepseek-reasoner가 2026년 7월 24일 폐기 예정임을 명시해, 약 3개월 안에 마이그레이션을 완료해야 함을 공지했습니다.

기존 reasoner 계열의 체인 오브 소트는 v4-pro의 thinking mode로 통합되었으며, OpenAI SDK와 Anthropic SDK 호환 엔드포인트가 유지된다고 DeepSeek 공식 문서는 설명합니다.

2. 두 모델, flash와 pro의 역할 분담

2-1. deepseek-v4-flash

flash 모델은 저지연·저비용 추론을 목표로 합니다. 단순 분류, 번역, 요약, 1~2턴 대화처럼 응답 시간이 중요한 경량 워크로드에 적합합니다. 공식 pricing 문서에 따르면 입력 토큰 가격이 pro 대비 약 1/10 수준으로 책정되어, 대량 호출이 필요한 내부 도구 구축에 유리합니다.

2-2. deepseek-v4-pro

pro 모델은 추론과 코딩, 에이전트 시나리오를 대상으로 한 플래그십 모델입니다. thinking mode가 기본 활성화되어 있으며, 공식 가이드에 따르면 복잡한 에이전트 애플리케이션에서는 reasoning_effort 값이 자동으로 max로 설정된다고 설명합니다.

3. 가격 구조 (USD 기준)

DeepSeek 공식 pricing 페이지 기준으로, 2026년 4월 24일 조회 시점의 단가는 다음과 같습니다.

  • deepseek-v4-flash — 공식 pricing 표 기준 캐시 히트 입력 $0.028/1M 토큰, 캐시 미스 입력 $0.14/1M, 출력 $0.28/1M
  • deepseek-v4-pro — 공식 pricing 표 기준 캐시 히트 입력 $0.145/1M 토큰, 캐시 미스 입력 $1.74/1M, 출력 $3.48/1M

두 모델 모두 캐시 히트와 미스 단가 격차가 공식 pricing 표 기준 5~12배 수준입니다. 동일한 프롬프트 프리픽스를 재사용할 수 있다면 입력 비용을 크게 절감할 수 있습니다. 시스템 프롬프트가 긴 에이전트와 RAG 컨텍스트가 동일한 사내 Q&A 시나리오에서 효과가 큽니다.

4. Thinking mode 활성화

공식 thinking mode 가이드에 따르면 thinking mode는 deepseek-v4-pro와 기존 deepseek-reasoner에서 동작합니다. 기본값은 enabled이며, OpenAI SDK에서는 extra_body에 다음과 같이 전달합니다.

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "..."}],
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high"
    }
)

reasoning_effort 값은 공식 문서 기준 highmax만 유효합니다. 편의를 위해 lowmediumhigh로, xhighmax로 자동 매핑되도록 호환성을 유지한다고 설명되어 있습니다. 응답에는 content 외에 reasoning_content 필드가 같은 레벨로 추가되므로, 기존 코드에서는 별도 파싱이 필요합니다.

thinking mode 활성화 시 temperature, top_p, presence_penalty, frequency_penalty 파라미터는 무시된다고 공식 가이드는 명시합니다. 샘플링 제어 로직을 가진 기존 서비스는 분기 처리가 필요합니다.

5. OpenAI·Anthropic SDK 호환성

DeepSeek 공식 문서에 따르면 v4는 OpenAI 및 Anthropic API 형식과 호환됩니다. 기존에 OpenAI SDK로 구축된 애플리케이션은 base URL과 모델명 변경만으로 DeepSeek v4로 이관할 수 있습니다.

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_KEY",
    base_url="https://api.deepseek.com",
)

다만 function calling이나 JSON mode, 이미지 입력 등 세부 기능은 공식 문서에서 모델별로 다르게 표기됩니다. 운영 도입 전 대상 기능이 v4에서 동일하게 동작하는지 API Reference로 확인하도록 합니다.

6. 레거시 모델 마이그레이션 체크리스트

DeepSeek 공식 공지 기준으로 2026년 7월 24일 이후 deepseek-chatdeepseek-reasoner는 호출이 차단됩니다. 약 3개월의 유예 기간 동안 다음 항목을 점검하도록 합니다.

  1. 모델명 상수 중앙화 — 하드코딩된 모델명을 환경 변수 또는 config 파일로 분리합니다.
  2. 대체 매핑 수립 — deepseek-chatdeepseek-v4-flash, deepseek-reasonerdeepseek-v4-pro를 기본값으로 두고 실측 벤치마크로 조정합니다.
  3. thinking mode 영향 확인 — 샘플링 파라미터 무시 이슈를 코드 경로별로 점검합니다.
  4. 가격 재산정 — 공식 pricing 표 기준으로 월간 토큰 사용량을 재계산해 예산 초과 여부를 확인합니다.
  5. 응답 스키마 변경 — reasoning_content 필드를 로그 수집과 감사 시스템에 반영합니다.

7. 도입 판단 가이드

공식 문서 기준으로 확인된 사실만 정리하면, v4는 모델 체계를 flash는 저비용 범용, pro는 고성능 추론으로 단순화한 구조입니다. 다음 기준으로 도입을 판단할 수 있습니다.

  • 단순 분류, 요약, 번역이 주 워크로드라면 deepseek-v4-flash가 비용 효율이 높습니다.
  • 코드 생성, 수학 추론, 에이전트형 태스크라면 deepseek-v4-pro의 thinking mode가 전제가 됩니다.
  • 샘플링 제어가 필수인 창작과 다양성 우선 워크로드는 pro의 thinking mode 기본 활성화 이슈를 고려해 thinking을 disabled로 명시하거나 flash 계열을 우선 검토합니다.
  • 컨텍스트 길이와 함수 호출 지원 범위 등 상세 스펙은 공식 API Reference에서 모델별로 재확인이 필요합니다.

한국 팀에서는 신규 모델을 운영 서비스에 투입하기 전에 스테이징 환경에서 기존 프롬프트 셋을 그대로 돌려 품질 회귀를 측정하는 것을 권장합니다. 특히 한국어 코드 설명이나 테크 블로그 생성처럼 문체 민감도가 높은 유스케이스는 A/B 비교가 필요합니다.

관련 글

DeepSeek v4 도입 판단에 도움이 되는 기존 포스트를 소개합니다.


📌 함께 보시면 좋은 글

※ 본 글은 AI(Claude)의 초안을 기반으로 편집자 검수를 거쳐 발행되었습니다. (한국 AI기본법 대응 고지)

이직·퇴사, 지금 움직여도 될지 헷갈리시나요?

막연히 불안한 건지, 정말 시점이 온 건지 판단이 어려울 때가 있습니다.

5분 체크리스트로 지금 상태를 먼저 정리해보세요.
결론을 대신 내리기보다, 스스로 판단할 기준을 잡는 데 도움을 드립니다.

무료 체크리스트 보기

아직 확신이 없다면, 지금이 ‘고민 단계’인지부터 먼저 점검해보세요