Wat is een Large language model (LLM)?
Een Large Language Model (of vrij vertaal een groot taalmodel) is een type model voor machinaal learning dat verschillende taken op het gebied van natuurlijke taalverwerking of Neuro Linguïstisch Programmeren (NLP) kan uitvoeren, zoals het genereren en classificeren van tekst, het beantwoorden van gespreksvragen en het vertalen van tekst van de ene taal naar de andere.
De term “Large” verwijst naar het aantal waarden (parameters) dat het model tijdens het leerproces zelf kan veranderen. Sommige van de meest succesvolle LLM’s hebben honderden miljarden parameters.
LLM’s worden getraind met enorme hoeveelheden gegevens en maken gebruik van self learning om het volgende token in een zin te voorspellen op basis van de omringende context. Dit proces wordt herhaald totdat het model een aanvaardbaar nauwkeurigheidsniveau heeft bereikt.
Zodra een LLM is getraind, kan het worden verfijnd voor een breed scala aan NLP-taken, waaronder:
- Het creëren van chatbots zoals ChatGPT.
- Het genereren van teksten voor productbeschrijvingen, blogberichten en artikelen.
- Het beantwoorden van veelgestelde vragen (FAQ’s) en het routeren van vragen van klanten naar de meest geschikte persoon.
- Analyseren van feedback van klanten uit e-mails, social media posts en productrecensies.
- Vertalen van bedrijfscontent in verschillende talen.
- Classificeren en categoriseren van grote hoeveelheden tekstgegevens voor een efficiëntere verwerking en analyse.
Techopedia legt Large language model (LLM) uit.
Large language models hebben doorgaans een op transformatoren gebaseerde architectuur. Dit type AI-architectuur gebruikt zelfbewustzijnsmechanismen om een gewogen som voor een invoerreeks te berekenen en dynamisch te bepalen welke tokens in de reeks het meest relevant voor elkaar zijn.
Waarvoor worden Large language model gebruikt?
Large language models worden gebruikt voor “few-shot” en “zero-shot” scenario’s wanneer weinig of geen domeinspecifieke gegevens beschikbaar zijn om het model te trainen.
Zowel bij “few-shot”- als “zero-shot”-benaderingen moet het AI-model een goede ”inductive bias” hebben en nuttige representaties kunnen leren uit beperkte (of geen) gegevens.
Hoe worden Large language models getraind?
De meeste LLM’s worden getraind op een grote, algemene dataset die een vergelijkbare statistische verdeling heeft als de taakspecifieke dataset. Het doel van pre-training is dat het model high-level kenmerken leert die kunnen worden overgedragen naar de fine-tuning fase voor specifieke taken.
Het opleidingsproces van een Large language model omvat:
- Voorbewerking van de tekstgegevens om deze om te zetten in een numerieke representatie die in het model kan worden ingevoerd.
- Willekeurige toewijzing van de parameters van het model.
Invoeren van de numerieke representatie van de tekstgegevens in het model. - Gebruik van een verliesfunctie om het verschil te meten tussen de output van het model en het werkelijke volgende woord in een zin.
- De modelparameters optimaliseren om het verlies te minimaliseren.
- Het proces herhalen tot de output van het model een aanvaardbaar nauwkeurigheidsniveau bereikt.
Hoe werken Large language models?
Een Large language model maakt gebruik van diepe neurale netwerken (Deep Neural Networks) om output te genereren op basis van patronen die zijn geleerd uit trainingsgegevens.
Doorgaans is een Large language model een implementatie van een transformatorarchitectuur. Transformatorarchitecturen stellen een model voor machine learning in staat relaties tussen woorden in een zin te herkennen – ongeacht hun positie in de tekststring – door gebruik te maken van zelfattentiemechanismen.
In tegenstelling tot recurrente neural networks (RNN’s), die recursie gebruiken als belangrijkste mechanisme om relaties tussen tokens in een sequentie te detecteren, gebruiken transformator neural networks zelfattentie als belangrijkste mechanisme om relaties te detecteren. Relaties tussen tokens in een sequentie worden berekend met behulp van waarden die aangeven hoe belangrijk een token is ten opzichte van de andere tokens in de reeks.
Voorbeelden van grote taalmodellen
Enkele van de populairste grote taalmodellen zijn:
GPT-3 & 4 (Generative Pretrained Transformer 3 & 4) – ontwikkeld door OpenAI.
BERT (Bidirectional Encoder Representations from Transformers) – ontwikkeld door Google.
RoBERTa (Robustly Optimised BERT Approach) – ontwikkeld door Facebook AI.
T5 (Text-to-Text Transfer Transformer) – ontwikkeld door Google.
CTRL (Conditional Transformer Language Model) – ontwikkeld door Salesforce Research.
Megatron-Turing – ontwikkeld door NVIDIA.