Skip to content

Tool: Learning to Navigate: Transferring Web Interaction Capabilities from LLMs to SLMs #7

@rmarcacini

Description

@rmarcacini

Descrição Geral

Esta é a issue geral de um que projeto investiga como agentes de navegação web baseados em LLMs compactas (≤12B) podem aprender a reproduzir o comportamento de agentes professores (400–600B) utilizando In-Context Learning (ICL) e fine-tuning supervisionado.
A pesquisa será conduzida dentro do ecossistema Agents4Gov, garantindo modularidade, segurança e execução local.


Plano de Trabalho e Subtarefas (converter em subissues)

1. Revisão de Literatura e Estado da Arte

  • [SOTA] Revisão de agentes de navegação baseados em LLMs
    Objetivo: revisar literatura recente sobre browser/OS agents e agentes multimodais.
    Entregáveis:

    • Documento de revisão (tools/browseragent/docs/lit_review.md)
    • Tabela comparativa (tools/browseragent/docs/tables/sota_agents.md)
    • Código: tools/browseragent/scripts/lit_review/build_sota_table.py
  • [Benchmarks] Mapeamento MiniWoB++, WebArena e BrowserGym
    Objetivo: mapear benchmarks para avaliação de browser agents.
    Entregáveis:

    • Tabela comparativa (tools/browseragent/docs/tables/benchmarks.md)
    • Código: tools/browseragent/scripts/benchmarks/collect_bench_specs.py

2. Implementação do Agente Professor

  • [Professor] Integração browser-use ao Agents4Gov
    Objetivo: integrar browser-use ao framework Agents4Gov.
    Entregáveis:

    • Módulo integrado (tools/browseragent/agents4gov_integrations/browser_use/)
    • Código: tools/browseragent/agents4gov_integrations/browser_use/setup_browser_use.py
  • [Professor] Execução MiniWoB++ com LLM 400–600B
    Objetivo: executar tarefas do MiniWoB++ com modelo de grande porte e salvar logs.
    Entregáveis:

    • Logs JSON/Markdown (tools/browseragent/data/teacher_logs/)
    • Código: tools/browseragent/benchmarks/miniwob/run_professor_minwob.py
  • [Professor] Conversão de logs em dataset de demonstrações
    Objetivo: converter logs do professor em dataset para aprendizado.
    Entregáveis:

    • Dataset normalizado (tools/browseragent/data/teacher_dataset/*.jsonl)
    • Código: tools/browseragent/data_prep/teacher_logs/convert_logs_to_dataset.py

3. Avaliação Inicial com Modelos Compactos

  • [Baseline SLM] Execução MiniWoB++ sem ajuste (≤12B)
    Objetivo: executar as mesmas tarefas com modelos compactos sem ajuste.
    Entregáveis:

    • Relatório comparativo (tools/browseragent/reports/slm_baseline.md)
    • Código: tools/browseragent/benchmarks/miniwob/run_slm_zero_shot.py
  • [Baseline SLM] Análise de raciocínio e consistência
    Objetivo: comparar cadeias de raciocínio dos SLMs com as do professor.
    Entregáveis:

    • Relatório analítico (tools/browseragent/reports/rationale_gap.md)
    • Código: tools/browseragent/analysis/error_analysis/rationale_gap_report.py

4. Desenvolvimento do Agente Estudante

  • [Student] Pipeline de In-Context Learning (ICL)
    Objetivo: implementar pipeline de ICL com demonstrações do professor.
    Entregáveis:

    • Scripts de inferência (tools/browseragent/scripts/icl/)
    • Código: tools/browseragent/training/icl/run_icl_eval.py
  • [Student] Preparação do dataset para SFT
    Objetivo: preparar subconjunto de demonstrações para fine-tuning supervisionado.
    Entregáveis:

    • Dataset SFT (tools/browseragent/data/sft/)
    • Código: tools/browseragent/training/sft/prepare_sft_dataset.py
  • [Student] Treinamento SFT do SLM (≤12B)
    Objetivo: realizar fine-tuning supervisionado no SLM com o dataset preparado.
    Entregáveis:

    • Checkpoint final (tools/browseragent/checkpoints/slm_sft/)
    • Código: tools/browseragent/training/sft/run_sft.py
  • [Student] Integração do agente SFT ao Agents4Gov
    Objetivo: integrar o SLM ajustado como “Web Agent” oficial do Agents4Gov.
    Entregáveis:

    • Módulo integrado (tools/browseragent/agents/web_agent/)
    • Código: tools/browseragent/agents/web_agent/register_student_agent.py

5. Avaliação, Relatórios e Publicação

  • [Eval] Comparação Professor vs Student (desempenho e custo)
    Objetivo: avaliar desempenho e custo operacional do Student vs Professor.
    Entregáveis:

    • Gráficos e tabelas (tools/browseragent/reports/eval_prof_vs_student.md)
    • Código: tools/browseragent/eval/compare_professor_student.py
  • [Writing] Geração de tabelas e figuras para o artigo
    Objetivo: automatizar export de tabelas e figuras.
    Entregáveis:

    • Artefatos (tools/browseragent/paper/artifacts/)
    • Código: tools/browseragent/writing/paper/export_tables_figures.py
  • [Docs] README e diagramas dos módulos do agente
    Objetivo: documentar pipeline e arquitetura.
    Entregáveis:

    • README.md atualizado (tools/browseragent/README.md)
    • Diagramas (tools/browseragent/docs/diagrams/)
    • Código: tools/browseragent/docs/milestones/build_readme_and_diagrams.py

6. Infraestrutura e Privacidade

  • [Privacy] Validação de execução local e auditoria de dados
    Objetivo: garantir execução local e registrar auditoria de dados.
    Entregáveis:

    • Relatório de conformidade (tools/browseragent/docs/privacy_audit.md)
    • Código: tools/browseragent/privacy/audit/local_exec_validator.py

Critérios Gerais de Aceite

  1. Todos os scripts e entregáveis devem estar em tools/browseragent/.
  2. Cada tarefa deve incluir o código Python associado e documentação mínima de uso.
  3. Todos os resultados devem ser reproduzíveis e auditáveis em execução local.
  4. Artefatos (logs, datasets, checkpoints, figuras) devem estar versionados e rastreáveis.
  5. Ao final, o browseragent será um tool do agents4gov

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions