Saltar a contenido

Comparacion Claude vs Codex - Informe Diego Exoesqueleto

Fecha: 2026-05-07 Run: fronts/exoesqueleto/runs/2026-05-07-informe-diego

Modelos ejecutados

Modelo Version Proveedor
Claude Opus 4.6 Anthropic
Codex gpt-5.5 OpenAI (via codex-cli 0.128.0)

Volumetria de outputs

Prompt Claude Codex Ratio
P01 resumen 693 words 3340 words 4.8x
P02 interpretacion 629 words 2040 words 3.2x
P03 faltantes 722 words 2372 words 3.3x
P04 openpose 805 words 4018 words 5.0x

Codex produce outputs 3-5x mas extensos que Claude.

Hallazgos clave en comun (ambos modelos coinciden)

P01 - Resumen

  • Ambos identifican las 5 secciones correctamente: Kinovea, EPPA Perfil, EPPA Frente, Estabilidad, CTSIB
  • Ambos notan que los archivos .xlsx no estan disponibles
  • Ambos identifican que Watson-Williams solo se aplica al Gesto 2
  • Ambos mencionan la exclusion de Sujeto 6 en EPPA Frente

P02 - Interpretacion

  • Ambos interpretan Watson-Williams como test para datos circulares (angulos)
  • Ambos identifican t-Student pareado como apropiado para el diseno
  • Ambos notan la falta de tests de hipotesis en Estabilidad y CTSIB
  • Ambos mencionan la exclusion de Sujeto 6 sin justificacion documentada

P03 - Faltantes

  • Ambos listan los 5 archivos Excel fuente como faltantes
  • Ambos detectan la columna p_valor duplicada en el data.frame de Watson-Williams
  • Ambos identifican la modificacion pendiente de Ojos_abiertos en CTSIB
  • Ambos notan los errores de tipeo en nombres de variables EPPA Frente (Dictancia/Distnacia)

P04 - OpenPose

  • Ambos identifican que variables angulares de Kinovea son replicables con OpenPose
  • Ambos mencionan limitaciones de OpenPose en 2D (sin profundidad)
  • Ambos proponen procesamiento batch como ventaja de OpenPose vs medicion manual

Discrepancias detectadas

P02 - Interpretacion

Aspecto Claude Codex
Correccion por comparaciones multiples Menciona Bonferroni/FDR como faltante No menciona correccion por comparaciones multiples

Estilo general

Aspecto Claude Codex
Formato Tablas estructuradas, bullet points concisos Prosa mas extensa, mas detalle de codigo R
Extension 693-805 words por prompt 2040-4018 words por prompt
Bibliotecas R No lista Lista todas (dplyr, readxl, circular, DT, etc.)

Analisis de keywords

Keyword Claude total Codex total
watson-williams 10 20
sujeto 6 9 34
ojos_abiertos 9 42
p_valor 4 10
openpose 22 69
body_25 6 10
bonferroni 3 0

Claims sin fuente (alucinaciones)

Modelo Claims sin fuente detectados
Claude 0 - todos los claims referencian codigo R visible o email de Diego
Codex Pendiente verificacion exhaustiva (outputs 3-5x mas extensos)

Conclusiones

  1. Coincidencia alta en hallazgos principales: ambos modelos identifican las mismas secciones, faltantes, bugs e inconsistencias
  2. Codex 3-5x mas extenso: mas detalle pero mayor riesgo de ruido
  3. Claude mas conciso y estructurado: tablas y formato mas revisable
  4. Discrepancia notable: Claude menciona correccion por comparaciones multiples (Bonferroni), Codex no - omision relevante
  5. Ambos evitan inventar p-valores: respetan la instruccion correctamente

Comandos de ejecucion reproducibles

# Extraer texto
python3 -c "from bs4 import BeautifulSoup; soup=BeautifulSoup(open('fronts/exoesqueleto/sources/gmail/exoesqueleto/19dd48aa8b5b941c/Informe.html'), 'lxml'); open('/tmp/informe-text.txt','w').write(soup.get_text('\n',True))"
python3 -c "import docx; doc=docx.Document('fronts/exoesqueleto/sources/gmail/exoesqueleto/19c38877bacbd82f/IDEA MON.docx'); open('/tmp/ideamon-text.txt','w').write('\n'.join(p.text for p in doc.paragraphs))"

# Codex (gpt-5.5)
cat /tmp/informe-text.txt | codex exec --sandbox read-only "<prompt>"

# Claude: outputs generados en sesion Claude Code (Opus 4.6)