밀라 요보비치의 바이브 코딩과 MemPalace: 셀럽 오픈소스의 명과 암

2026년 4월 6일, GitHub에 하나의 리포지토리가 올라왔다. 이름은 MemPalace. AI 에이전트에게 영구적인 크로스-세션 메모리를 부여하는 오픈소스 시스템이다. 여기까지는 평범하다. 특이한 것은 아키텍트가 할리우드 배우 밀라 요보비치라는 점이었다.

9일 만에 GitHub 스타 45,000개. 포크 5,800개. 163개의 이슈와 213개의 PR. 그리고 그 숫자만큼이나 많은 논란.

이 글은 MemPalace를 기술과 문화 양쪽에서 들여다본다.

바이브 코딩이란 무엇인가

요보비치는 자신의 개발 방식을 “바이브 코딩(vibe coding)“이라 불렀다. 직접 코드를 작성하지 않고, Claude Code 같은 AI 코딩 에이전트에게 자연어로 지시하여 소프트웨어를 만드는 방식이다. 그녀는 스스로를 “아키텍트”로, 크립토 기업가 벤 시그만을 “엔지니어”로 소개했다.

코드를 푸시한 aya-thekeeper라는 GitHub 계정은 런칭 직후 삭제되었다. 요보비치는 “Lu_code는 내 AI 에이전트”라고 해명했지만, 코드 저작의 투명성에 대한 의문은 남았다.

바이브 코딩 자체는 2026년 들어 하나의 트렌드가 되었다. 문제는 바이브 코딩이 아니라, 바이브 코딩으로 만든 결과물의 품질을 누가, 어떻게 검증하느냐다.

MemPalace는 무엇을 하는가

AI와 나눈 대화는 세션이 끝나면 사라진다. 6개월간 매일 AI를 사용하면 약 1,950만 토큰의 컨텍스트가 생기지만, 어떤 컨텍스트 윈도우에도 들어가지 않는다.

기존 메모리 시스템(Mem0, Zep 등)은 LLM이 “사용자가 Postgres를 선호한다” 같은 팩트만 뽑아낸다. 원본 대화는 버린다. 왜 그런 결정을 내렸는지의 맥락은 사라진다.

MemPalace의 접근은 다르다: 모든 대화를 원문 그대로(verbatim) 저장하고, 시맨틱 검색으로 찾는다.

고대 그리스의 기억술 “장소법(Method of Loci)“에서 영감을 받아, 메모리를 공간적 은유로 구조화한다:

Wing: 사람 또는 프로젝트 단위의 최상위 도메인
Room: Wing 내 특정 주제 (auth-migration, graphql-switch 등)
Hall: Wing 내 기억 유형별 복도 (facts, events, preferences)
Tunnel: 서로 다른 Wing의 같은 주제를 교차 연결

기술 스택은 ChromaDB(벡터 DB) + SQLite(지식 그래프). 완전 로컬 실행. API 비용 제로. MIT 라이선스.

96.6%의 진실

MemPalace의 README에는 이런 문장이 있다: “The highest-scoring AI memory system ever benchmarked. And it’s free.”

LongMemEval 벤치마크에서 Raw 모드 96.6% R@5. 인상적인 숫자다. 그런데 이 숫자를 뜯어보면 이야기가 달라진다.

96.6%는 ChromaDB의 기본 임베딩 검색 성능이다. MemPalace가 내세우는 Wings, Rooms, Halls, Tunnels 같은 구조는 이 수치에 아무 역할도 하지 않았다. Palace 구조를 켜면 오히려 89.4%로 떨어진다.

초기에는 “100% 완벽 점수”를 주장했다. 그러나 이것은 실패한 질문을 식별하고, 해당 질문에 맞춰 시스템을 수정한 뒤, 같은 테스트 세트에서 재측정한 결과였다. 결과를 보고 답을 맞추는 것이지, 시스템의 일반적 성능을 보여주는 것이 아니다.

“30x 무손실 압축”이라고 홍보한 AAAK 시스템도 실제로는 손실 압축이었다. 활성화 시 정확도가 84.2%로, raw 대비 12.4%p 하락했다.

커뮤니티의 비판이 쏟아졌다. 독립 테스터 한 명은 실제 LLM 연결 시 올바른 답변률이 약 17%에 불과했다고 보고했다.

팀의 대응: “인상적인 것보다 정확한 것”

여기서 이야기가 흥미로워진다. 많은 프로젝트가 비판을 무시하거나 방어적으로 나오는 것과 달리, 요보비치와 시그만은 48시간 만에 README를 수정했다.

100%를 96.6%로 바꿨다. “30x 무손실 압축”과 “+34% palace boost” 주장을 삭제했다. README에 “A Note from Milla & Ben” 섹션을 추가하고 이렇게 썼다:

“We’d rather be right than impressive.” (인상적인 것보다 정확한 것을 택하겠다.)

오픈소스 커뮤니티는 이 대응을 긍정적으로 평가했다. 오류를 인정하는 속도와 태도는 실제로 프로젝트의 신뢰도를 일부 회복시켰다.

크립토의 그림자

그러나 또 다른 논란이 있다. MemPalace 토큰이 pump.fun에 등장했고, 요보비치와 시그만 사이에 50:50 크리에이터 보상 분할이 설정되어 있었다. 토큰은 출시 24시간 내에 pump-and-dump 패턴을 보였다.

직접적 관여 증거는 불분명하다. 그러나 크립토 기업가가 공동 창립자인 오픈소스 프로젝트에서 동명의 토큰이 출현한 것은, 의도와 무관하게 신뢰도에 그림자를 드리운다.

진짜 가치는 어디에

과장과 논란을 걷어내면, MemPalace에는 실제로 유의미한 인사이트가 있다.

“LLM 추출보다 원문 저장이 더 높은 recall을 보인다.”

기존 메모리 시스템들은 LLM에게 대화에서 중요한 팩트를 추출하게 한다. 이 과정에서 맥락이 소실된다. MemPalace는 원문을 그대로 저장하고 벡터 검색으로 찾는, 훨씬 단순한 접근을 택했다. 그리고 이 단순한 접근이 벤치마크에서 더 높은 점수를 기록했다.

README의 한 문장이 이를 요약한다: “Nobody tried the simple thing and measured it properly.”

경쟁 제품과 비교하면:

시스템	접근법	LongMemEval	비용	로컬
MemPalace	Verbatim + 시맨틱 검색	96.6%	무료	완전 로컬
Mem0	LLM 추출	~85%	$19-249/월	클라우드
Zep	시간적 지식 그래프	~85%	$25+/월	클라우드
Letta	LLM 자체 메모리 관리	-	무료(OSS)	로컬 가능

“완전 로컬 + 무료 + verbatim 저장”을 동시에 제공하는 진지한 옵션은 현재 MemPalace가 유일하다.

셀럽 오픈소스의 의미

MemPalace가 던지는 더 큰 질문은 기술 자체가 아니다.

비개발자가 AI로 코딩한 오픈소스를, 우리는 어떻게 평가해야 하는가?

바이브 코딩은 진입 장벽을 낮춘다. 아이디어가 있는 사람이 코드를 직접 쓰지 않고도 소프트웨어를 만들 수 있게 되었다. 하지만 벤치마크 해석, 보안 검토, 코드 품질 검증 같은 영역에서의 전문성 부재는 과장된 주장과 미성숙한 코드베이스로 이어졌다.

MemPalace의 코드 수준 문제들:

모순 탐지(contradiction detection) 모듈이 존재하지만 지식 그래프에 미연결
stdout 버그로 Claude Desktop MCP 연동 불가
macOS ARM64에서 세그폴트 발생
입력 검증 미실시 (프롬프트 인젝션 위험)
출시 시점 21개 모듈에 테스트 파일 4개, CI/CD 없음

45,000개의 스타는 관심도이지 품질 보증이 아니다. 셀러브리티 효과는 주목을 만들지만, 주목이 곧 성숙도를 의미하지는 않는다.

결론: 측정하고, 의심하고, 인정하라

MemPalace에서 배울 것이 있다면 세 가지다.

첫째, 단순한 것을 먼저 시도하라. Verbatim 저장이 LLM 추출보다 나았다는 발견은 진짜다. 복잡한 솔루션을 만들기 전에 단순한 베이스라인을 측정하는 것의 가치를 보여준다.

둘째, 벤치마크를 의심하라. 96.6%라는 숫자 뒤에는 “이것이 실제로 무엇을 측정하는가?”라는 질문이 필요하다. MemPalace의 경우, 측정된 것은 프로젝트의 고유 아키텍처가 아닌 의존성 라이브러리의 기본 성능이었다.

셋째, 오류를 인정하는 속도가 신뢰를 결정한다. 요보비치와 시그만이 48시간 만에 과장을 수정한 것은, 9일간 45K 스타를 모은 것보다 프로젝트의 미래에 더 중요할 수 있다.

MemPalace는 아직 3주짜리 프로젝트다. v4.0에서 스왑 가능한 스토리지 백엔드와 하이브리드 검색을 예고하고 있다. 과장을 빼고 나면, 원문 보존, 로컬 우선, 제로 비용이라는 방향 자체는 나쁘지 않다.

다만, 주목할 때는 스타 수가 아니라 코드를 보자.