Descrição Geral
Esta é a issue geral de um que projeto investiga como agentes de navegação web baseados em LLMs compactas (≤12B) podem aprender a reproduzir o comportamento de agentes professores (400–600B) utilizando In-Context Learning (ICL) e fine-tuning supervisionado.
A pesquisa será conduzida dentro do ecossistema Agents4Gov, garantindo modularidade, segurança e execução local.
Plano de Trabalho e Subtarefas (converter em subissues)
1. Revisão de Literatura e Estado da Arte
2. Implementação do Agente Professor
3. Avaliação Inicial com Modelos Compactos
4. Desenvolvimento do Agente Estudante
5. Avaliação, Relatórios e Publicação
6. Infraestrutura e Privacidade
Critérios Gerais de Aceite
- Todos os scripts e entregáveis devem estar em
tools/browseragent/.
- Cada tarefa deve incluir o código Python associado e documentação mínima de uso.
- Todos os resultados devem ser reproduzíveis e auditáveis em execução local.
- Artefatos (logs, datasets, checkpoints, figuras) devem estar versionados e rastreáveis.
- Ao final, o browseragent será um tool do agents4gov
Descrição Geral
Esta é a issue geral de um que projeto investiga como agentes de navegação web baseados em LLMs compactas (≤12B) podem aprender a reproduzir o comportamento de agentes professores (400–600B) utilizando In-Context Learning (ICL) e fine-tuning supervisionado.
A pesquisa será conduzida dentro do ecossistema Agents4Gov, garantindo modularidade, segurança e execução local.
Plano de Trabalho e Subtarefas (converter em subissues)
1. Revisão de Literatura e Estado da Arte
[SOTA] Revisão de agentes de navegação baseados em LLMs
Objetivo: revisar literatura recente sobre browser/OS agents e agentes multimodais.
Entregáveis:
tools/browseragent/docs/lit_review.md)tools/browseragent/docs/tables/sota_agents.md)tools/browseragent/scripts/lit_review/build_sota_table.py[Benchmarks] Mapeamento MiniWoB++, WebArena e BrowserGym
Objetivo: mapear benchmarks para avaliação de browser agents.
Entregáveis:
tools/browseragent/docs/tables/benchmarks.md)tools/browseragent/scripts/benchmarks/collect_bench_specs.py2. Implementação do Agente Professor
[Professor] Integração browser-use ao Agents4Gov
Objetivo: integrar
browser-useao framework Agents4Gov.Entregáveis:
tools/browseragent/agents4gov_integrations/browser_use/)tools/browseragent/agents4gov_integrations/browser_use/setup_browser_use.py[Professor] Execução MiniWoB++ com LLM 400–600B
Objetivo: executar tarefas do MiniWoB++ com modelo de grande porte e salvar logs.
Entregáveis:
tools/browseragent/data/teacher_logs/)tools/browseragent/benchmarks/miniwob/run_professor_minwob.py[Professor] Conversão de logs em dataset de demonstrações
Objetivo: converter logs do professor em dataset para aprendizado.
Entregáveis:
tools/browseragent/data/teacher_dataset/*.jsonl)tools/browseragent/data_prep/teacher_logs/convert_logs_to_dataset.py3. Avaliação Inicial com Modelos Compactos
[Baseline SLM] Execução MiniWoB++ sem ajuste (≤12B)
Objetivo: executar as mesmas tarefas com modelos compactos sem ajuste.
Entregáveis:
tools/browseragent/reports/slm_baseline.md)tools/browseragent/benchmarks/miniwob/run_slm_zero_shot.py[Baseline SLM] Análise de raciocínio e consistência
Objetivo: comparar cadeias de raciocínio dos SLMs com as do professor.
Entregáveis:
tools/browseragent/reports/rationale_gap.md)tools/browseragent/analysis/error_analysis/rationale_gap_report.py4. Desenvolvimento do Agente Estudante
[Student] Pipeline de In-Context Learning (ICL)
Objetivo: implementar pipeline de ICL com demonstrações do professor.
Entregáveis:
tools/browseragent/scripts/icl/)tools/browseragent/training/icl/run_icl_eval.py[Student] Preparação do dataset para SFT
Objetivo: preparar subconjunto de demonstrações para fine-tuning supervisionado.
Entregáveis:
tools/browseragent/data/sft/)tools/browseragent/training/sft/prepare_sft_dataset.py[Student] Treinamento SFT do SLM (≤12B)
Objetivo: realizar fine-tuning supervisionado no SLM com o dataset preparado.
Entregáveis:
tools/browseragent/checkpoints/slm_sft/)tools/browseragent/training/sft/run_sft.py[Student] Integração do agente SFT ao Agents4Gov
Objetivo: integrar o SLM ajustado como “Web Agent” oficial do Agents4Gov.
Entregáveis:
tools/browseragent/agents/web_agent/)tools/browseragent/agents/web_agent/register_student_agent.py5. Avaliação, Relatórios e Publicação
[Eval] Comparação Professor vs Student (desempenho e custo)
Objetivo: avaliar desempenho e custo operacional do Student vs Professor.
Entregáveis:
tools/browseragent/reports/eval_prof_vs_student.md)tools/browseragent/eval/compare_professor_student.py[Writing] Geração de tabelas e figuras para o artigo
Objetivo: automatizar export de tabelas e figuras.
Entregáveis:
tools/browseragent/paper/artifacts/)tools/browseragent/writing/paper/export_tables_figures.py[Docs] README e diagramas dos módulos do agente
Objetivo: documentar pipeline e arquitetura.
Entregáveis:
tools/browseragent/README.md)tools/browseragent/docs/diagrams/)tools/browseragent/docs/milestones/build_readme_and_diagrams.py6. Infraestrutura e Privacidade
[Privacy] Validação de execução local e auditoria de dados
Objetivo: garantir execução local e registrar auditoria de dados.
Entregáveis:
tools/browseragent/docs/privacy_audit.md)tools/browseragent/privacy/audit/local_exec_validator.pyCritérios Gerais de Aceite
tools/browseragent/.