Fecha: 2026-05-07
Run: fronts/exoesqueleto/runs/2026-05-07-informe-diego
Modelos ejecutados
| Modelo |
Version |
Proveedor |
| Claude |
Opus 4.6 |
Anthropic |
| Codex |
gpt-5.5 |
OpenAI (via codex-cli 0.128.0) |
Volumetria de outputs
| Prompt |
Claude |
Codex |
Ratio |
| P01 resumen |
693 words |
3340 words |
4.8x |
| P02 interpretacion |
629 words |
2040 words |
3.2x |
| P03 faltantes |
722 words |
2372 words |
3.3x |
| P04 openpose |
805 words |
4018 words |
5.0x |
Codex produce outputs 3-5x mas extensos que Claude.
Hallazgos clave en comun (ambos modelos coinciden)
P01 - Resumen
- Ambos identifican las 5 secciones correctamente: Kinovea, EPPA Perfil, EPPA Frente, Estabilidad, CTSIB
- Ambos notan que los archivos .xlsx no estan disponibles
- Ambos identifican que Watson-Williams solo se aplica al Gesto 2
- Ambos mencionan la exclusion de Sujeto 6 en EPPA Frente
P02 - Interpretacion
- Ambos interpretan Watson-Williams como test para datos circulares (angulos)
- Ambos identifican t-Student pareado como apropiado para el diseno
- Ambos notan la falta de tests de hipotesis en Estabilidad y CTSIB
- Ambos mencionan la exclusion de Sujeto 6 sin justificacion documentada
P03 - Faltantes
- Ambos listan los 5 archivos Excel fuente como faltantes
- Ambos detectan la columna p_valor duplicada en el data.frame de Watson-Williams
- Ambos identifican la modificacion pendiente de Ojos_abiertos en CTSIB
- Ambos notan los errores de tipeo en nombres de variables EPPA Frente (Dictancia/Distnacia)
P04 - OpenPose
- Ambos identifican que variables angulares de Kinovea son replicables con OpenPose
- Ambos mencionan limitaciones de OpenPose en 2D (sin profundidad)
- Ambos proponen procesamiento batch como ventaja de OpenPose vs medicion manual
Discrepancias detectadas
P02 - Interpretacion
| Aspecto |
Claude |
Codex |
| Correccion por comparaciones multiples |
Menciona Bonferroni/FDR como faltante |
No menciona correccion por comparaciones multiples |
Estilo general
| Aspecto |
Claude |
Codex |
| Formato |
Tablas estructuradas, bullet points concisos |
Prosa mas extensa, mas detalle de codigo R |
| Extension |
693-805 words por prompt |
2040-4018 words por prompt |
| Bibliotecas R |
No lista |
Lista todas (dplyr, readxl, circular, DT, etc.) |
Analisis de keywords
| Keyword |
Claude total |
Codex total |
| watson-williams |
10 |
20 |
| sujeto 6 |
9 |
34 |
| ojos_abiertos |
9 |
42 |
| p_valor |
4 |
10 |
| openpose |
22 |
69 |
| body_25 |
6 |
10 |
| bonferroni |
3 |
0 |
Claims sin fuente (alucinaciones)
| Modelo |
Claims sin fuente detectados |
| Claude |
0 - todos los claims referencian codigo R visible o email de Diego |
| Codex |
Pendiente verificacion exhaustiva (outputs 3-5x mas extensos) |
Conclusiones
- Coincidencia alta en hallazgos principales: ambos modelos identifican las mismas secciones, faltantes, bugs e inconsistencias
- Codex 3-5x mas extenso: mas detalle pero mayor riesgo de ruido
- Claude mas conciso y estructurado: tablas y formato mas revisable
- Discrepancia notable: Claude menciona correccion por comparaciones multiples (Bonferroni), Codex no - omision relevante
- Ambos evitan inventar p-valores: respetan la instruccion correctamente
Comandos de ejecucion reproducibles
# Extraer texto
python3 -c "from bs4 import BeautifulSoup; soup=BeautifulSoup(open('fronts/exoesqueleto/sources/gmail/exoesqueleto/19dd48aa8b5b941c/Informe.html'), 'lxml'); open('/tmp/informe-text.txt','w').write(soup.get_text('\n',True))"
python3 -c "import docx; doc=docx.Document('fronts/exoesqueleto/sources/gmail/exoesqueleto/19c38877bacbd82f/IDEA MON.docx'); open('/tmp/ideamon-text.txt','w').write('\n'.join(p.text for p in doc.paragraphs))"
# Codex (gpt-5.5)
cat /tmp/informe-text.txt | codex exec --sandbox read-only "<prompt>"
# Claude: outputs generados en sesion Claude Code (Opus 4.6)