본문 바로가기
ㄴ Ai 소개

AI 음성 전사 직접 비교해봤다 (아이폰 통화녹음 m4a, Perplexity, Claude)

by 도라찡 2026. 4. 24.
반응형


Claude


Perplexity

최근 인터뷰 녹음을 전사하면서
여러 AI 도구를 직접 사용해봤다.

처음에는 단순하게 생각했다.

👉 “요즘 AI면 다 전사 되겠지”

하지만 실제로 사용해보니
각 도구마다 역할과 한계가 분명히 달랐다.



1. 아이폰 음성 메모 (m4a)

아이폰 통화시에 음성 녹음하면
파일은 m4a 확장자로 저장된다.

하지만 중요한 점은

👉 자동 전사 기능은 기본적으로 제공되지 않는다

즉,

* 녹음은 가능
* 하지만 텍스트 변환은 별도 도구 필요

👉 사용 흐름이 여기서 끊긴다



2. Claude (파일 업로드)

m4a 파일을 Claude에 업로드하고
“전사해줘”라고 요청해봤다.

결과는

👉 직접 전사 불가

* 파일 업로드는 가능
* 하지만 음성 인식(STT)은 지원하지 않음

대신

* Clova Note
* Whisper
    같은 전사 도구를 추천해줬다.

👉 즉, Claude는

👉 전사 도구가 아니라 ‘텍스트 분석 도구’



3. Perplexity (실제 전사)

Perplexity에 m4a 파일을 넣고
전사를 요청했을 때는 결과가 달랐다.

👉 전사가 실제로 수행됨

* 화자 구분 (A / B)
* 문장 흐름 유지
* 인터뷰 구조 반영

여기서 중요한 점은

👉 내가 Whisper를 직접 사용한 것이 아니라

👉 Perplexity가 내부적으로 전사를 처리한 결과를 받은 것



핵심 차이

이번에 느낀 차이는 명확했다.

* 아이폰 → 녹음만 가능
* Claude → 분석만 가능
* Perplexity → 전사 결과 제공

👉 즉, 하나의 도구로 해결되지 않고
👉 역할이 분리되어 있다



UX 관점에서 보면

이 경험에서 가장 인상적이었던 건

👉 사용자는 “어떤 기술이 쓰였는지”는 모른다는 점이었다

Perplexity를 사용할 때도

* Whisper인지
* 다른 STT인지

알 수 없지만
👉 결과는 바로 받는다



“사용자는 도구를 사용하는 것이 아니라, 기능을 사용하는 경험에 가깝다.”



결론

AI 전사는 확실히 편해졌다.
하지만 현재 기준에서는

👉 완전히 자동화된 구조는 아니다

그래서 실제 사용은 이렇게 나뉜다.

* 녹음 → 아이폰 (m4a)
* 전사 → Perplexity (m4a)
* 분석 → Claude (m4a)

👉 여러 도구를 조합해서 사용하는 구조




👉 AI 전사는 가능하지만, 아직은 ‘도구를 나눠 써야 하는 단계’다

반응형