/Cómo usar modelos previamente entrenados en su próximo proyecto empresarial
Cómo usar modelos previamente entrenados en su próximo proyecto empresarial

Cómo usar modelos previamente entrenados en su próximo proyecto empresarial


La mayoría de los nuevos aprendizaje profundo modelos lanzados, especialmente en PNL, son muy, muy grandes: tienen parámetros que van desde cientos de millones hasta decenas de miles de millones.

Dada la arquitectura suficientemente buena, cuanto más grande sea el modelo, cuanta más capacidad de aprendizaje tenga. Por lo tanto, estos nuevos modelos tienen una gran capacidad de aprendizaje y están capacitados en conjuntos de datos muy, muy grandes.

Por eso, aprenden la distribución completa de los conjuntos de datos en los que están capacitados. Se puede decir que codifican el conocimiento comprimido de estos conjuntos de datos. Esto permite que estos modelos se utilicen para aplicaciones muy interesantes, siendo la más común transferencia de aprendizaje. El aprendizaje de transferencia está afinando modelos pre-entrenados en conjuntos de datos personalizados / tareas, que requiere muchos menos datos, y los modelos convergen muy rápidamente en comparación con la capacitación desde cero.

Leer:[[Cómo ven las máquinas: todo lo que necesita saber sobre visión artificial]

Cómo los modelos pre-entrenados son los algoritmos del futuro

Aunque los modelos pre-entrenados también se usan en visión artificial, este artículo se centrará en su uso de vanguardia en procesamiento natural del lenguaje (PNL) dominio. Arquitectura transformadora es la arquitectura más común y poderosa que se está utilizando en estos modelos.

La arquitectura de Transformer como se presenta en el artículo de Google 2017,

A pesar de que BERT comenzó la revolución de aprendizaje de transferencia de PNL, exploraremos GPT-2 y T5 modelos. Estos modelos están pre-entrenados: ajustarlos en aplicaciones específicas resultará en métricas de evaluación mucho mejores, pero los usaremos de inmediato, es decir, sin ajustes.

Modelos de PNL previamente entrenados: GPT-2 de OpenAI

GPT-2 creó una gran controversia cuando se lanzó en 2019. Dado que fue muy bueno para generar texto, atrajo bastante la atención de los medios y planteó muchas preguntas sobre el futuro de la IA.

Formado en 40 GB de datos textuales, GPT-2 es un modelo muy grande que contiene un gran cantidad de conocimiento comprimido de una sección transversal de internet.

GPT-2 tiene mucho casos de uso potencial. Se puede usar para predecir la probabilidad de una oración. Esto, a su vez, se puede usar para la autocorrección de texto. A continuación, la predicción de palabras se puede usar directamente para construir un componente de autocompletar para un IDE (como Visual Studio Code o PyCharm) para escribir código así como escritura de texto general. Lo usaremos para la generación automática de texto, y se puede usar un gran corpus de texto para el análisis del lenguaje natural.

GPT-2 produce sugerencias basadas en la entrada de texto. La entrada a la izquierda es

Generación de texto

La capacidad de un modelo pre-entrenado como GPT-2 para generar texto coherente Es muy impresionante. Podemos darle un texto de prefijo y pedirle que genere la siguiente palabra, frase u oración.

Un ejemplo de caso de uso es generar un conjunto de datos de revisiones de productos para ver qué tipo de palabras se usan generalmente en revisiones positivas versus críticas negativas.

Veamos algunos ejemplos, comenzando con lo que obtenemos si comenzamos con el prefijo positivo, “¡Realmente me gustó esta película!”

Muestra 1 Me encantaron las emociones del personaje por estar en constante peligro, y cómo sus temores internos fueron superados lentamente por estos eventos. También le encantó que esté tan concentrado en sobrevivir; incluso por un tiempo parecía que algo de Batman v Superman aparecía de nuevo porque siempre sabías que tu enemigo aparecería eventualmente de todos modos 🙂 El tema final realmente me quedó grabado … Quiero decir, sí, tenían que …
Muestra 2 Hizo exactamente lo que quería que hiciera, muy divertido. El elenco fue increíble y la historia tiene sentido hasta ahora después de ver todo lo demás en IMDB. Hay indicios de estar en una ciudad subterránea desde tiempos inmemoriales debido a su “poder” (o falta de ella), pero realmente no dicen mucho … Creo que es más como un gran misterio que otros aspectos que se unen conmigo por ahora aunque … se supone …

Como puedes ver, la palabra revisión no estaba en ninguna parte del prefijo, pero como la mayoría de las revisiones son títulos seguidos por el cuerpo de la revisión, esto obligó al modelo a adaptarse a esa distribución. Observe también la referencia a Batman v Superman.

Veamos otro ejemplo. En lugar de una reseña de la película, intentaremos generar una reseña del producto usando el prefijo negativo, “¡Un producto basura! No compres.”

Muestra 1 Y, por favor, NO intente usar esto como fertilizante para sus jardines o céspedes; causará daños graves por el agua si es ingerido por peces y pájaros. Úselo con precaución debido a la posibilidad de que los pesticidas estén presentes en los alimentos para mascotas disponibles en línea en las tiendas de comestibles orgánicos, como también los nombres “buenos” como Petsmart, PetSmart y Safeway. ¿Qué tan tóxico es el desperdicio de alimentos? Los productos de desecho pueden aportar cantidades significativas, suficientes para que incluso muy …
Muestra 2 Nadie te dará un pedazo de esa basura nunca más. Simplemente hágase un favor a usted mismo y a su empresa y limpie antes de comprarlo por nada más que ahorrar algo de dinero o comodidad en el futuro. Puede comprar estas botellas en cualquier tienda minorista, pero aquí le mostramos cómo obtener …

Nuevamente, el prefijo se puede inferir como el título de una revisión del producto, por lo que el modelo comienza a generar texto siguiendo ese patrón. GPT-2 puede generar cualquier tipo de texto como este.

UNA Cuaderno de Google Colab está listo para ser utilizado para experimentos, al igual que el “Escribir con transformador” demo en vivo.

Pregunta contestando

Sí, dado que GPT-2 está capacitado en la web, “conoce” una gran cantidad de conocimiento humano que se ha publicado en línea hasta 2019. También puede funcionar para preguntas contextuales, pero tendremos que seguir el formato explícito de ” Pregunta: X, Respuesta: “antes de dejar que intente autocompletarse. Pero si forzamos al modelo a responder nuestra pregunta, puede generar una respuesta bastante vaga. Esto es lo que sucede tratando de obligarlo a responder preguntas abiertas para probar su conocimiento:

Muestra 1 Pregunta: ¿Quién inventó la teoría de la evolución?
Responder: La teoría de la evolución fue propuesta por primera vez por Charles Darwin en 1859.
Muestra 2 Pregunta: ¿Cuántos dientes tienen los humanos?
Responder: Los humanos tienen 21 dientes.

Como podemos ver, el modelo pre-entrenado dio una respuesta bastante detallada a la primera pregunta. Para el segundo, hizo todo lo posible, pero no se compara con la Búsqueda de Google.

Está claro que GPT-2 tiene un gran potencial. Ajustándolo, puede usarse para los ejemplos mencionados anteriormente con una precisión mucho mayor. Pero incluso el GPT-2 pre-entrenado que estamos evaluando todavía no es tan malo.

Modelos de PNL previamente entrenados: T5 de Google

T5 de Google es uno de los modelos de lenguaje natural más avanzados hasta la fecha. Se basa en el trabajo anterior sobre los modelos Transformer en general. A diferencia de BERT, que solo tenía bloques codificadores, y GPT-2, que solo tenía bloques decodificadores, T5 utiliza ambos.

T5 entradas y salidas. 1)