LLM은 왜 쉬운 것도 틀릴까

LLM을 쓰다 보면 신기한 순간도 많지만, 이상하게 쉬운 문제에서 틀리는 경우도 많습니다. 글은 자연스럽게 쓰면서 strawberry에 r이 몇 개인지 같은 문제를 틀리는 식입니다. 이 글은 그런 현상이 단순한 버그라기보다 모델 구조와 관련이 있다는 관점에서 정리한 글입니다.

트랜스포머부터 보기

2017년 "Attention is All You Need" 논문 이후 트랜스포머는 현대 LLM의 기본 구조가 됐습니다. ChatGPT, Claude, Gemini, LLaMA 같은 모델들도 이 흐름 위에 있습니다. 텍스트뿐 아니라 이미지, 오디오, 번역까지 확장됐고, 지금 AI 붐을 이해하려면 트랜스포머를 피해 가기 어렵습니다.

LLM이 자주 흔들리는 지점

LLM은 텍스트 길이 제어에서 자주 흔들립니다. 200단어를 요청했는데 150단어나 250단어를 내놓는 식입니다. 문자열 패턴을 정확히 세는 것도 약합니다. 단순히 "strawberry"에서 r의 개수를 세는 문제나, 한글의 반복 패턴을 다루는 문제에서도 틀릴 수 있습니다.

트랜스포머 구조

트랜스포머의 핵심은 어텐션입니다. 문장 안의 단어들이 서로 어떤 관계를 가지는지 한꺼번에 보는 방식입니다. 수식으로 쓰면 보통 이렇게 표현합니다.

하지만 이 구조는 시퀀스 길이가 길어질수록 계산량이 크게 늘어나는 문제가 있습니다.

여기서 n은 시퀀스 길이, d는 차원을 나타냅니다.

셀프 어텐션과 메모리 문제

트랜스포머는 여러 관점에서 단어 간 관계를 보는 멀티헤드 어텐션을 사용합니다. 성능은 좋지만, 그만큼 계산 자원도 많이 씁니다. 멀티헤드 어텐션의 수학적 구조는 다음과 같이 표현됩니다.

각 헤드가 따로 계산하기 때문에 메모리도 많이 필요합니다.

Chain-of-Thought 프롬프팅

Chain-of-Thought(CoT) 프롬프팅은 이런 한계를 어느 정도 줄이는 방법입니다. 바로 답을 내라고 하지 않고, 중간 과정을 쓰게 만드는 방식입니다. 수식으로 보면 다음처럼 생각할 수 있습니다.

CoT의 실제 적용 예시

일반적인 프롬프팅과 CoT 프롬프팅은 느낌이 꽤 다릅니다.

일반적 프롬프팅:

Q: strawberry에서 'r'의 개수는?
A: 2개

CoT 프롬프팅:

Q: strawberry에서 'r'의 개수를 단계별로 세어주세요.
A: 1단계: 각 글자 확인
   s(r없음) → t(r없음) → r(첫번째) → a(r없음) → w(r없음)
   → b(r없음) → e(r없음) → r(두번째) → r(세번째) → y(r없음)
   총 개수: 3개

하드웨어 요구사항과 제약

현대의 트랜스포머 모델은 상당한 컴퓨팅 파워를 필요로 합니다. 대략 다음 수식처럼 생각할 수 있습니다.

그래서 NVIDIA GPU 같은 고성능 하드웨어가 중요해졌습니다. 모델 성능 이야기를 하다 보면 결국 전력, 메모리, GPU 가격 같은 현실적인 문제로 돌아오게 됩니다.

다른 구조들이 나오는 이유

MOE (Mixture of Experts) 아키텍처

MOE는 여러 전문가 모델을 묶어두고, 필요한 전문가만 골라 쓰는 구조입니다. 모든 계산을 한 모델이 다 처리하는 대신 입력에 맞는 일부 전문가를 활성화합니다. 그래서 계산량과 메모리를 줄이면서 더 큰 모델을 운영하려는 시도라고 볼 수 있습니다.

MOE의 수학적 구조는 보통 이렇게 표현합니다.

여기서 g_i(x)는 각 전문가를 선택하는 게이팅 함수이고, f_i(x)는 각 전문가 모델의 출력입니다. 입력에 따라 어떤 전문가를 쓸지 고르는 구조입니다.

스케일을 키우는 흐름

하이퍼스케일 AI는 모델과 컴퓨팅을 크게 키우는 방향입니다. 성능을 아주 단순화하면 이런 스케일링 법칙으로 생각할 수 있습니다.

이 식에서 N은 파라미터 수, C는 컴퓨팅 능력을 나타내며, α와 β는 스케일링 계수입니다. 모델 크기와 컴퓨팅 파워가 늘 때 성능이 어떻게 바뀔지 보는 식입니다.

Mamba 아키텍처

Mamba는 선택적 상태 공간 모델링을 쓰는 구조입니다. 트랜스포머가 긴 문맥에서 비용이 커지는 문제를 다른 방식으로 풀어보려는 시도입니다. 핵심은 이렇게 표현할 수 있습니다.

Mamba는 선형 시간 복잡도를 가지기 때문에 긴 시퀀스를 더 효율적으로 처리할 수 있습니다. 메모리 사용량도 트랜스포머보다 줄일 수 있어서 긴 문맥을 다루는 작업에서 자주 언급됩니다.

앞으로의 발전 방향

AI 기술은 결국 더 똑똑해지는 것뿐 아니라, 더 효율적으로 돌아가는 방향으로도 발전해야 합니다. 성능 대비 자원 사용률을 단순화하면 다음처럼 표현할 수 있습니다.

이 방향 때문에 분산 처리, 모듈화된 아키텍처, 리소스 최적화 같은 주제가 계속 중요해집니다. 하이브리드 아키텍처나 생물학적 영감을 받은 모델, 양자 컴퓨팅 통합 같은 아이디어도 이 흐름 안에서 연구되고 있습니다.

중간 정리

트랜스포머는 AI 발전의 중요한 기반이지만 한계도 분명합니다. 그래서 MoE, Mamba, SSM, Jamba 같은 접근이 계속 나오는 것 같습니다. 핵심은 더 긴 문맥을 더 적은 비용으로 처리하는 것입니다.

앞으로 더 봐야 할 방향

앞으로 AI 연구는 계산 효율성, 메모리 사용량, 긴 문맥 처리, 하이브리드 구조 쪽으로 계속 갈 것 같습니다. 모델이 커지는 것만으로는 비용 문제가 너무 커지기 때문입니다.

새로 나오는 아키텍처들

SSM (State Space Model)

SSM은 트랜스포머의 대안으로 자주 언급되는 구조입니다. 시스템의 상태를 계속 업데이트하면서 입력을 처리합니다. 수식으로는 이렇게 씁니다.

SSM은 선형 시간 복잡도를 가지기 때문에 긴 시퀀스를 효율적으로 처리할 수 있습니다. 메모리 사용량도 트랜스포머보다 줄일 수 있어 긴 입력을 다루는 작업에서 장점이 있습니다.

Mamba 아키텍처

Mamba는 SSM을 바탕으로 선택적 상태 업데이트 메커니즘을 넣은 모델입니다. 수식은 다음과 같습니다.

이 모델은 선택적 상태 업데이트로 계산 효율을 높이고, 하드웨어 최적화까지 같이 고려합니다. 특히 긴 컨텍스트를 처리하는 쪽에서 장점이 있다고 알려져 있습니다.

Jamba와 하이브리드 구조

Jamba는 트랜스포머와 Mamba의 장점을 섞은 하이브리드 모델입니다. 단순화하면 이런 혼합 구조로 볼 수 있습니다.

이 모델은 120B의 활성 파라미터를 가지고 있으며, 처리량과 긴 시퀀스 처리 능력을 함께 노립니다. 트랜스포머의 병렬 처리 능력과 Mamba의 시퀀스 처리 효율을 같이 쓰려는 구조입니다.

앞으로 궁금한 점

실시간 처리 최적화

마이크로소프트의 디코더 기반 트랜스포머는 실시간 처리 최적화 쪽에서 언급됩니다. 지연 시간은 단순하게 이렇게 볼 수 있습니다.

이런 최적화가 잘 되면 실시간 응용 프로그램에서도 LLM을 더 자연스럽게 붙일 수 있습니다.

멀티모달

AI 시스템은 텍스트만 다루는 데서 벗어나 이미지, 오디오, 상호작용까지 같이 처리하는 방향으로 가고 있습니다. 아주 단순하게 쓰면 이렇게 표현할 수 있습니다.

이런 방향은 AI가 사람처럼 여러 감각의 정보를 함께 다루는 쪽으로 가고 있다는 뜻이기도 합니다.

계산 효율성

새로운 아키텍처들은 계산 복잡도도 다릅니다.

트랜스포머는 O(n²)의 복잡도로 인해 긴 시퀀스 처리에 제약이 있습니다.
SSM과 Mamba는 O(n)의 선형 복잡도로 더 효율적인 처리가 가능합니다.
Jamba는 O(n·log(n))의 복잡도로 효율성과 성능의 균형을 추구합니다.

마무리

LLM을 쓰다 보면 "이렇게 똑똑한데 왜 이런 걸 틀리지?"라는 생각이 자주 듭니다. 그런데 구조를 조금 들여다보면, 이 모델들이 사람처럼 세고 계산하는 방식이 아니라는 걸 알 수 있습니다.

그래서 앞으로의 모델은 단순히 더 커지는 방향만으로는 부족할 것 같습니다. 더 긴 문맥을 다루고, 더 적은 자원으로 돌아가고, 필요할 때는 도구나 외부 시스템과 연결되는 방향이 중요해질 것입니다.

저도 AI를 계속 쓰고 만들면서, 모델의 장점뿐 아니라 이런 한계까지 같이 이해하는 게 중요하다고 느낍니다. 그래야 AI를 과대평가하지도 않고, 반대로 쓸모없는 기술처럼 무시하지도 않을 수 있습니다.

참고 문헌

Vaswani, A., et al. (2017). "Attention Is All You Need". arXiv preprint arXiv:1706.03762.
안될공학. (2023). "트랜스포머를 넘어 MoE와 SSM까지, 미래 AI의 방향은?...". YouTube
Gu, A., et al. (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". arXiv preprint arXiv:2312.00752.
Wei, J., et al. (2022). "Chain of Thought Prompting Elicits Reasoning in Large Language Models". arXiv preprint arXiv:2201.11903.
Brown, T., et al. (2020). "Language Models are Few-Shot Learners". arXiv preprint arXiv:2005.14165.

LLM은 왜 쉬운 것도 틀릴까

LLM은 왜 쉬운 것도 틀릴까

트랜스포머부터 보기

LLM이 자주 흔들리는 지점

트랜스포머 구조

셀프 어텐션과 메모리 문제

Chain-of-Thought 프롬프팅

CoT의 실제 적용 예시

하드웨어 요구사항과 제약

다른 구조들이 나오는 이유

MOE (Mixture of Experts) 아키텍처

스케일을 키우는 흐름

Mamba 아키텍처

앞으로의 발전 방향

중간 정리

앞으로 더 봐야 할 방향

새로 나오는 아키텍처들

SSM (State Space Model)

Mamba 아키텍처

Jamba와 하이브리드 구조

앞으로 궁금한 점

실시간 처리 최적화

멀티모달

계산 효율성

마무리

참고 문헌

학교 디지털 출결 시스템 만들기

특이점이 온다

목차

관련 글

AI 번역기는 문법을 어떻게 볼까

학교 디지털 출결 시스템 만들기

학교 커뮤니티 웹사이트 만들기