Compendio de IA
Uso práctico de la IA: crear imágenes, mejorar fotos, escribir textos, facilitar la vida diaria, además de cómo funciona la IA localmente y respetando la privacidad en tu PC.
¿Qué es realmente la IA?
La inteligencia artificial, o IA, es un término general para el software que resuelve tareas que antes requerían inteligencia humana: entender y escribir textos, reconocer y generar imágenes, traducir idiomas, encontrar patrones en los datos.
Lo que en 2026 todo el mundo llama "IA" son grandes modelos de lenguaje (LLM) como ChatGPT o Claude y modelos de imagen como Midjourney o Stable Diffusion. Son el resultado de años de entrenamiento con cantidades gigantescas de textos, imágenes y datos, y en los últimos dos años han pasado de ser juguetes a herramientas reales.
Este compendio está enfocado en la práctica: lo que realmente puedes hacer con ella, en lugar del trasfondo de investigación.
¿De qué trata?
Más de 30 temas, organizados en tres clústeres según el caso de uso.
IA para la creatividad
Crear imágenes, restaurar fotos, generar vídeos, escribir textos: la IA como caja de herramientas creativa.
- Imágenes de IA con Midjourney y otros
- Mejorar fotos antiguas con IA
- Vídeos de IA: Sora, Runway, avatares
- Textos de IA: ChatGPT, Claude, Gemini
IA en la vida diaria
Ayudantes prácticos para el día a día, desde el filtro de correo hasta la abuela usando la tableta.
- Herramientas de IA para el día a día
- IA para personas mayores (accesible)
- Eliminar ruido de fondo
- Las mejores herramientas de IA 2026
IA en tu PC
Cómo usar la IA localmente en Windows, sin que tus datos viajen a la nube.
- IA local en Windows
- Modelos locales (Ollama, LM Studio)
- IA en PC antiguos
- Protección de datos en IA
Los términos más importantes
Desde "prompt" hasta "alucinación": el lenguaje técnico de la IA explicado de forma comprensible.
La instrucción a la IA: una pregunta, un comando, una descripción. "Escríbeme un poema sobre montañas" es un prompt. El arte de formular buenos prompts se llama Ingeniería de Prompts.
La unidad de texto más pequeña que procesa una IA. Aproximadamente 4 caracteres = 1 token. Una palabra en español suele ser de 1 a 3 tokens. Los modelos tienen límites de tokens que restringen su capacidad de procesamiento.
Modelo de Lenguaje Grande. La familia a la que pertenecen ChatGPT, Claude, Gemini y Llama. Ha sido entrenado con cantidades gigantescas de texto y puede comprender y generar lenguaje.
Cuando la IA inventa cosas que suenan plausibles pero son incorrectas. Fuentes que no existen. Hechos que deberían ser correctos pero no lo son. La mayor debilidad de los LLM actuales.
Cuánto texto puede tener la IA "en mente" al mismo tiempo. Los modelos de 2026 pueden manejar hasta 1 millón de tokens, que son libros enteros. Una ventana más grande = mejor procesamiento de documentos largos.
IA que comprende varios tipos de entrada: texto, imagen, audio, vídeo. La mayoría de los modelos modernos (GPT, Claude, Gemini) son multimodales: puedes mostrarles una foto y hacerles preguntas al respecto.
Una representación matemática del texto como un vector numérico. La IA utiliza los embeddings para capturar el significado de palabras y oraciones, la base de las funciones de búsqueda y las recomendaciones.
Reentrenamiento de un modelo existente con datos propios, por ejemplo, conocimientos específicos de la empresa. Así se adapta la IA para aplicaciones especiales sin tener que entrenar un nuevo modelo desde cero.
IA que carga y utiliza documentos externos en tiempo real. El truco detrás de la "IA con acceso a los documentos de tu empresa", sin fine-tuning, siempre con datos actualizados.
La tecnología detrás de las IA de imágenes como Midjourney y Stable Diffusion. Comienza con una imagen de puro ruido y la "elimina" progresivamente hasta obtener el motivo deseado.
IA que no solo responde, sino que actúa: abre programas, hace clic en botones, resuelve tareas en pasos. Un momento histórico: A principios de marzo de 2026, por primera vez, un modelo de IA superó a los humanos en el benchmark OSWorld (75% frente a una línea de base humana del 72,4%), es decir, en el manejo autónomo de computadoras.
Inteligencia Artificial General, que iguala o supera las capacidades humanas en todos los ámbitos. Todavía no se ha logrado en 2026, pero es un tema muy debatido. Algunos creen que estamos cerca, otros muy lejos.
Propietaria: ChatGPT, Claude, Gemini, solo utilizables a través de los proveedores. Código abierto: Llama (Meta), Mistral, DeepSeek, disponibles gratuitamente, ejecutables localmente. Los modelos de código abierto están avanzando rápidamente a nivel técnico.
La aplicación real de un modelo de IA ya entrenado. Cuando le haces una pregunta a ChatGPT, eso es inferencia. La inferencia requiere menos potencia que el entrenamiento, pero para modelos grandes aún se necesita una GPU.
Aquello con lo que un modelo ha aprendido. En los LLM modernos: millones de páginas web, libros, artículos científicos, código. La calidad y diversidad de los datos de entrenamiento determinan la calidad del modelo.
La arquitectura de red neuronal que ha revolucionado el mundo de la IA desde 2017. La "T" en GPT significa esto. Solo los Transformers han hecho posibles los modelos de lenguaje actuales, gracias al procesamiento eficiente de secuencias.
📜 IA y Engelmann: Llevamos años utilizando componentes de IA en nuestros productos, siendo los más visibles en Photomizer (mejora de imágenes basada en IA) y Photo BlowUp (ampliación de fotos con IA). Sin embargo, el rápido desarrollo de los últimos dos años abre posibilidades completamente nuevas para los usuarios privados, y eso es exactamente lo que mostramos aquí.
Más del blog de Engelmann
Consejos, tutoriales e información de fondo sobre software, IA y la vida digital, basados en más de 30 años de desarrollo de software.
