로컬 LLM에 에이전트 8개를 동시에 붙였더니 — Ollama 동시성 처리량 실측
서브에이전트를 병렬로 돌리면 로컬 모델도 그만큼 빨라질 줄 알았다. 직접 재보니 기본 Ollama는 요청을 줄 세워 처리해서 8개를 붙여도 총 처리량이 그대로였다. OLLAMA_NUM_PARALLEL을 올렸을 때의 처리량 이득과 그 대가를 M1 16GB에서 실측했다.
jangwook.net
Personal technical notes on AI agents, automation, developer tools, and the process of building software.
Latest Notes
The root page stays intentionally small. Choose a language, then read the full archive and related posts there.
AI 에이전트, 자동화, 개발 도구, 소프트웨어 제작 과정을 한국어로 기록합니다.
서브에이전트를 병렬로 돌리면 로컬 모델도 그만큼 빨라질 줄 알았다. 직접 재보니 기본 Ollama는 요청을 줄 세워 처리해서 8개를 붙여도 총 처리량이 그대로였다. OLLAMA_NUM_PARALLEL을 올렸을 때의 처리량 이득과 그 대가를 M1 16GB에서 실측했다.
매장 검색 페이지의 LocalBusiness JSON-LD를 JS로 주입하면 원시 HTML엔 블록이 0개다. 서버사이드 출력과 직접 비교하고, Google 공식 견해와 순위 한계까지 정리했다.
gemma4:12b의 빈 응답을 패키징 버그로 단정했다가 사실은 추론(thinking) 모델이었음을 뒤늦게 알았다. 추론 ON/OFF로 13문제를 돌려보니 정답은 1개 더 맞혔지만 출력 토큰을 68배, 시간을 19배 더 썼다. 에이전트에서 추론을 언제 켜고 끌지 실측으로 정리한다.
Personal notes on AI agents, automation, developer tools, and building software.
I fired 8 agents at one local model expecting a speedup. Default Ollama serializes requests, so eight at once matched one. I benchmarked OLLAMA_NUM_PARALLEL.
Inject LocalBusiness JSON-LD with JavaScript and the raw HTML holds zero ld+json blocks. I compared it against server-side output, with Google's official stance and the ranking limits.
I ran 13 questions on gemma4:12b with thinking ON and OFF. Reasoning got one more right while spending 68x the output tokens and 19x the wall-clock.
AIエージェント、自動化、開発ツール、ソフトウェア開発の記録です。
サブエージェントを並列で回せばローカルモデルもその分速くなると思っていた。実際に測ると既定のOllamaはリクエストを順番待ちで捌くので、8個つないでも総スループットは変わらなかった。OLLAMA_NUM_PARALLELを上げたときの利得とその代償をM1 16GBで実測した。
店舗検索ページのLocalBusiness JSON-LDをJSで注入すると、生のHTMLにはブロックが0個。サーバーサイド出力と直接比較し、Google公式見解と順位の限界まで整理した。
前回の記事でgemma4:12bの空応答をパッケージングのバグと断定した。違った。推論モデルだったのだ。そこで推論ON/OFFで13問を回した。 推論は正解を1つ多く出したが、出力トークンを68倍、時間を19倍消費した。エージェントでいつ点けていつ消すかを実測でまとめる。
记录 AI 代理、自动化、开发工具和软件构建过程。
我以为并行触发子代理会让本地模型也随之变快。实测发现默认的Ollama会把请求排队处理,接8个和接1个的总吞吐量一样。我在M1 16GB上实测了调高OLLAMA_NUM_PARALLEL带来的吞吐增益,以及它的代价。
用JS注入店铺页的LocalBusiness JSON-LD,原始HTML里ld+json块为0。本文与服务端输出直接对比,并梳理Google官方立场与排名的边界。
上一篇文章里我把gemma4:12b的空回复断定为打包bug。错了,它其实是推理模型。于是我用推理开/关跑了13道题。 推理多答对了1题,却多花了68倍的输出token和19倍的时间。本文用实测整理在代理里该何时开、何时关。