Comparacion Claude vs Codex - Informe Diego Exoesqueleto¶

Fecha: 2026-05-07 Run: fronts/exoesqueleto/runs/2026-05-07-informe-diego

Modelos ejecutados¶

Modelo	Version	Proveedor
Claude	Opus 4.6	Anthropic
Codex	gpt-5.5	OpenAI (via codex-cli 0.128.0)

Volumetria de outputs¶

Prompt	Claude	Codex	Ratio
P01 resumen	693 words	3340 words	4.8x
P02 interpretacion	629 words	2040 words	3.2x
P03 faltantes	722 words	2372 words	3.3x
P04 openpose	805 words	4018 words	5.0x

Codex produce outputs 3-5x mas extensos que Claude.

Hallazgos clave en comun (ambos modelos coinciden)¶

P01 - Resumen¶

Ambos identifican las 5 secciones correctamente: Kinovea, EPPA Perfil, EPPA Frente, Estabilidad, CTSIB
Ambos notan que los archivos .xlsx no estan disponibles
Ambos identifican que Watson-Williams solo se aplica al Gesto 2
Ambos mencionan la exclusion de Sujeto 6 en EPPA Frente

P02 - Interpretacion¶

Ambos interpretan Watson-Williams como test para datos circulares (angulos)
Ambos identifican t-Student pareado como apropiado para el diseno
Ambos notan la falta de tests de hipotesis en Estabilidad y CTSIB
Ambos mencionan la exclusion de Sujeto 6 sin justificacion documentada

P03 - Faltantes¶

Ambos listan los 5 archivos Excel fuente como faltantes
Ambos detectan la columna p_valor duplicada en el data.frame de Watson-Williams
Ambos identifican la modificacion pendiente de Ojos_abiertos en CTSIB
Ambos notan los errores de tipeo en nombres de variables EPPA Frente (Dictancia/Distnacia)

P04 - OpenPose¶

Ambos identifican que variables angulares de Kinovea son replicables con OpenPose
Ambos mencionan limitaciones de OpenPose en 2D (sin profundidad)
Ambos proponen procesamiento batch como ventaja de OpenPose vs medicion manual

Discrepancias detectadas¶

P02 - Interpretacion¶

Aspecto	Claude	Codex
Correccion por comparaciones multiples	Menciona Bonferroni/FDR como faltante	No menciona correccion por comparaciones multiples

Estilo general¶

Aspecto	Claude	Codex
Formato	Tablas estructuradas, bullet points concisos	Prosa mas extensa, mas detalle de codigo R
Extension	693-805 words por prompt	2040-4018 words por prompt
Bibliotecas R	No lista	Lista todas (dplyr, readxl, circular, DT, etc.)

Analisis de keywords¶

Keyword	Claude total	Codex total
watson-williams	10	20
sujeto 6	9	34
ojos_abiertos	9	42
p_valor	4	10
openpose	22	69
body_25	6	10
bonferroni	3	0

Claims sin fuente (alucinaciones)¶

Modelo	Claims sin fuente detectados
Claude	0 - todos los claims referencian codigo R visible o email de Diego
Codex	Pendiente verificacion exhaustiva (outputs 3-5x mas extensos)

Conclusiones¶

Coincidencia alta en hallazgos principales: ambos modelos identifican las mismas secciones, faltantes, bugs e inconsistencias
Codex 3-5x mas extenso: mas detalle pero mayor riesgo de ruido
Claude mas conciso y estructurado: tablas y formato mas revisable
Discrepancia notable: Claude menciona correccion por comparaciones multiples (Bonferroni), Codex no - omision relevante
Ambos evitan inventar p-valores: respetan la instruccion correctamente

Comandos de ejecucion reproducibles¶

# Extraer texto
python3 -c "from bs4 import BeautifulSoup; soup=BeautifulSoup(open('fronts/exoesqueleto/sources/gmail/exoesqueleto/19dd48aa8b5b941c/Informe.html'), 'lxml'); open('/tmp/informe-text.txt','w').write(soup.get_text('\n',True))"
python3 -c "import docx; doc=docx.Document('fronts/exoesqueleto/sources/gmail/exoesqueleto/19c38877bacbd82f/IDEA MON.docx'); open('/tmp/ideamon-text.txt','w').write('\n'.join(p.text for p in doc.paragraphs))"

# Codex (gpt-5.5)
cat /tmp/informe-text.txt | codex exec --sandbox read-only "<prompt>"

# Claude: outputs generados en sesion Claude Code (Opus 4.6)