Bewust
Posts
Deepdive: Het Wel en Wee van Taalmodellen

Deepdive: Het Wel en Wee van Taalmodellen

Kris Oosthoek
July 24, 2023

Bewust is een wekelijkse nieuwsbrief over AI en de impact van AI op ons leven. Met een combinatie van analyse, techniek en humor houdt Bewust je wekelijks als eerste op de hoogte van het laatste in AI.

Een nieuwe week, een nieuwe Bewust. Deze keer duiken we dieper in taalmodellen, de AI’s verantwoordelijk voor de huidige AI-hype. We onderzoeken waar ze wel en niet goed in zijn. Hierdoor kun je ze beter geïnformeerd inzetten, of ervoor kiezen zelf het denkwerk te doen. 😉

Veel lees- en werkplezier deze week!

Kris

🤖 Deepdive Taalmodellen (LLM’s)

De AI-hype waar we in zitten is een LLM-hype. Het merendeel van het nieuws gaat over deze large language models; op taalmodellen gebaseerde chatbots als ChatGPT, Claude en Bard. Nieuwe modellen volgen elkaar in hoog tempo op, maar wat kunnen ze? En vooral: wat kunnen ze niet? Inzicht in de sterke en zwakke punten van deze systemen geeft ons inzicht in de huidige stand van deze specifieke AI-technologie.

Inleiding

Wat LLM’s zijn hebben we vorige week in de context van ChatGPT al besproken. Hieronder gaan we er nog iets dieper op in, specifiek op hoe taalmodellen vectoren gebruiken

Een taalmodel is een type kunstmatige intelligentie getraind om menselijke taal te begrijpen en te genereren. Omdat het iets kan genereren, in dit geval tekst, wordt het kunstmatige generatieve intelligentie genoemd. Om realistische, samenhangende tekst te produceren maakt het model gebruik van patronen in de grote hoeveelheden teksten waarop het is getraind.

Als je een taalmodel een vraag stelt, kijkt het naar de woorden in je vraag en probeert op basis van de training te bepalen wat een passend en zinvol antwoord zou zijn. Het model begrijpt je vraag dus niet en kan niet abstract of creatief nadenken over het antwoord. Zelfs bij vragen waarvoor het model geen beroep kan doen op simpele feiten, zoals diepgaand filosofische vragen, zal het antwoord gebaseerd zijn op patronen in antwoorden op dat soort vragen in de trainingsdata, bijvoorbeeld discussies op Reddit, Twitter, wetenschappelijke papers en blogs.

Als het model tijdens de training een woord leest, berekent het de vector voor dat woord. Dat is een wiskundige representatie van de semantische betekenis van het woord en relaties als synoniemen, tegenstellingen, en analogieën. De vector van een woord is dus één onderdeel van de vocabulaire van een taalmodel, die verder wordt aangevuld tijdens de training op grote hoeveelheden tekst. Omdat woorden als "koninkrijk" en "koning" gerelateerd zijn en dus vaak in soortgelijke contexten verschijnen, komen die vectoren dicht bij elkaar in de vectorruimte te liggen.

Het model begrijpt jouw vragen dus niet, maar zet elk woord in je vraag om in een vector en geeft een woordenreeks als antwoord. Dit doet het model door de kans te maximaliseren dat de gegenereerde tekst overeenkomt met de patronen die het in de trainingsdata heeft waargenomen. Zo formuleert een taalmodel een antwoord op jouw dat zinvol en samenhangend lijkt, maar er komt niet de interpretatie en waardering bij die wij mensen hebben. Omdat taalmodellen slechts output genereren die lijkt op de trainingsdata die ze hebben gezien, kunnen ze fouten maken (hallucinaties) of onnatuurlijke output genereren.

Lees voor meer hierover ook: Technische Details ChatGPT Gelekt

De Grote Spelers

Een kort, krachtig en dus zeker niet volledig overzicht van de spelers op het LLM-veld.

OpenAI: de maker van ChatGPT, dat geen introductie behoeft. De gratis versie van ChatGPT is GPT-3.5, dat in november 2022 uitkwam. Als je de betaalt, krijg je GPT-4.0 inclusief een aantal plugins zoals Code Interpreter, dat je kan helpen bij programmeren en kun je ChatGPT daarnaast persoonlijk instellen, waardoor je de antwoorden nog meer kunt fine-tunen. Waar GPT-4.0 momenteel op meerdere fronten (schrijven, samenvatten, coden) de concurrentie verslaat, is het een groot nadeel dat het niet met het internet verbonden is, waardoor de informatie waarop het model zich baseert actueel is tot september 2021, toen de training stopte. Als je actuele informatie wilt, heeft GPT-4.0 hier dus een leemte, tenzij je Bing gebruikt.

Bing: is de zoekmachine van Microsoft waarvoor sinds de toevoeging van AI de interesse flink toegenomen is. De LLM in kwestie is GPT-4.0, dat hier wel met internet verbonden is. Het is dus een gratis manier om GPT-4.0 te gebruiken in te zetten voor zoekopdrachten in real-time informatie op het internet. Een ander extraatje dat je alleen hier krijgt is dat je de persoonlijkheid en daarmee de antwoordstijl van het model kunt aanpassen. Helaas is er wel een wachtlijst voor toegang tot de functionaliteit.

Google: heeft meerdere LLM’s, de LaMDA-familie, die het via de chatbot Bard toegankelijk maakt. Sinds vorige week is Bard ook voor Nederlandse gebruikers beschikbaar. Bard kan je helpen programmeren en is daar redelijk goed in, waar dat je bij ChatGPT nog geld kost. Ook bij Bard kun je de toon en stijl van de antwoorden aanpassen. Je vindt Google Bard hier.

Anthropic: Claude 2 is de geduchte concurrent van GPT-4.0, maar omdat het nog maar kort beschikbaar is, is nog niet onomstotelijk bewezen hoe de prestaties van het model zich verhouden tot die van GPT-4.0. Wel is de context window van 100k vele malen groter dan de huidige versie van GPT, wat betekent dat het bij wijze van spreken zelfs een vraag van een boeklengte goed kan begrijpen. Ook kun je bestanden uploaden, bijvoorbeeld pdf’s om die samen te laten vatten. Je kunt Claude hier proberen.

Meta: het bedrijf dat we eerder nog Facebook noemden wil zich graag positioneren als opensource-reus en gaf deze week het nieuwe model LLaMA 2 uit als open source. Hoewel het vergelijkingsmateriaal met de concurrentie nog beperkt is, lijkt het een goed mee te komen met GPT-3.5 en alleen al het feit dat het vrij beschikbaar is zal veel bijdragen aan de ontwikkeling van AI in het algemeen. De opensource-beweging stelt overigens dat LLaMA niet echt open source is: de licentie kent een aantal beperkingen in commercieel gebruik lijkt gericht op de grote concurrenten. LLaMA kun je hier uitproberen.

Apple?! De techreus die niet in dit rijtje kon ontbreken is Apple. Deze week kwamen er geruchten naar buiten dat het ook aan een AI-chatbot werkt. Wat het bedrijf er precies mee wil is nog onduidelijk, behalve dat het volgend jaar een significante AI-gerelateerde aankondiging wil doen.

De rest: er zijn nog heel veel meer partijen die aan LLM’s werken, zowel open als gesloten. Veel partijen zijn nog onbekend, maar sommigen zoals Stability zijn gevestigde AI-namen die recent ook LLM’s hebben ontwikkeld. Deze website biedt je een mooi overzicht aan van wat er allemaal te krijgen is op Hugging Face, waarop je veel modellen kunt vinden. Het leaderboard op Hugging Face geeft een mooie ranking op basis van meerdere benchmarks (evaluaties). Hoewel een groot deel van deze spelers over enkele jaren niet meer zal bestaan, is open source interessant omdat het de toegang tot AI-systemen vergroot en daarmee de innovatie.

Sterktes van taalmodellen

Schrijven

Zoals de naam je al doet vermoeden zijn taalmodellen goed in te zetten als schrijfhulp. Voor deze doeleinden zijn Bing en Claude momenteel de beste gratis opties, als je er wat geld voor over hebt is ChatGPT Plus het beste. Een taalmodel kan niet vanuit het niets een perfecte voor je genereren, maar werkt beter als je het wat input geeft. Ze zijn met name goed voor de volgende usecases:

Concepten en opzetjes: waar de output van de huidige taalmodellen nog niet voldoende is om direct, één-op-één te gebruiken, kun je ze prima toepassen om opzetjes voor bepaalde content te maken. Van posts voor social media tot sprookjes. Hoe beter je prompts, of je instructies, het beter de output. In een volgende versie van Bewust meer aandacht voor prompting.
Tekst verbeteren: deel je tekst met het model, maar ontdoe die eerst van gevoelige of tot jou herleidbare details. Vraag het model dan het inhoudelijk te verbeteren of wees specifieker en vraag het meer toe te spitsen op een bepaalde doelgroep. Je kunt het model ook vragen de schrijfstijl meer zakelijk of levendig te maken. Vaak is de output niet perfect en dus niet letterlijk bruikbaar, maar goede inspiratie ter verbetering van je tekst.
Samenvatten: hetzelfde geldt voor samenvatten. Deel je tekst met het model en vraag om een samenvatting. Wees gericht en geef een woordlimiet op, een bepaalde schrijfstijl of voorbeelden in de samenvatting op te nemen.
Problemen oplossen en writer’s block: als je aan een moeilijke tekst of een moeilijk probleem in het algemeen werkt, kun je al snel vastlopen op kleine details. Je kunt een taalmodel een dergelijk probleem voorleggen en om een creatieve oplossing vragen.

Taalmodellen kunnen worden ingezet voor onethische doeleinden. Gevoelige teksten moet je ook niet met online taalmodellen delen, omdat je niet weet wat een derde partij met jouw tekst doet. Ook kunnen taalmodellen hallucineren; zaken die dat niet zijn als feitelijk presenteren. Houd in je achterhoofd dat je zelf verantwoordelijk bent voor het juiste gebruik van taalmodellen.

Werken met data en documenten

ChatGPT heeft nu Interpreter, dat verschillende programmeertalen begrijpt en kan verbeteren. Waar je vroeger handmatig naar oplossingen voor problemen moest zoeken, levert ChatGPT je nu suggesties. Je kunt het ook gebruiken voor data-analyse door een dataset te uploaden en om statistische resultaten of diagrammen te vragen. Omdat dit niet altijd goed gaat kun je niet blindelings op de output vertrouwen en moet je dus wel enige kennis van programmeren of statistiek hebben.

Taalmodellen kunnen ook worden ingezet voor programmeren en data-analyse. De nieuwe versie van Claude kan goed overweg met pdf-bestanden. Door de eerder besproken gigantische context window kan het zo gigantische lappen tekst tot zich nemen, waarna je het er vragen over kunt stellen. Je kunt hierbij denken aan allerlei zaken: de tekst verbeteren, vloeiender maken, stijlfouten eruit halen, de hoofd- en subthema’s uitlichten. Dit alles kan het op verschillende niveaus, dus je kunt Claude bijvoorbeeld een ingewikkeld wetenschappelijk artikel geven en het vragen samen te vatten voor een middelbaar scholier.

Brainstormen

Soms weet je wat moet doen, maar ontbreekt het je aan goede ideeën voor de uitvoering ervan. Je kunt een taalmodel vertellen waarnaar je op zoek bent en vragen je een idee te geven, of bijvoorbeeld 10 verschillende. Je kunt een taalmodel ook vragen met ideeën te komen door bekende brainstorm-technieken toe te passen.. Met name de creatieve modus van Bing is hier erg goed in.

Beperkingen van taalmodellen

Naast brede mogelijkheden kennen taalmodellen ook beperkingen. Die zijn inherent aan hoe taalmodellen zijn opgezet om letterlijke tekst te genereren. Ze voeren wiskundige bewerkingen uit om patronen in data te identificeren en te leren om te voorspellen wat het meest waarschijnlijke volgende woord in een zin is. Taalmodellen hebben dus een wiskundige basis, maar geen begrip van wiskunde en gerelateerde concepten. En dat blijkt. Voor de onderstaande voorbeelden heb ik GPT-4.0 gebruikt, maar ze zijn universeel voor de meeste andere taalmodellen; ze laten het allemaal afweten wanneer we ze om iets anders dan puur tekst vragen.

Redenering

Redenering is het proces van het denken over informatie op een logische manier om conclusies, antwoorden of inzichten te bereiken. Taalmodellen hebben niet de kennis van de fysieke en sociale wereld en de aan elkaar gerelateerde concepten daarin. Ze kunnen alleen output genereren die lijkt op de tekst die ze gezien hebben in de training en kennen dus niet de logica die wij onszelf aangeleerd hebben. Zie onderstaand voorbeeld.

Eigen voorbeeld van gebrekkige redenering door GPT-4.

Logica

Ook basale logica is niet echt besteed aan taalmodellen. Zie in het onderstaande voorbeeld hoe het voor ons iets heel logisch enorm ingewikkeld maakt en een verkeerd antwoord geeft. Ook dit is logisch, want het snapt context niet en bekijkt of dat wat je vraagt lijkt op iets wat het in de trainingsdata heeft gezien. Als de onderstaande vraag letterlijk was voorgekomen in de trainingsdata, had het model de vraag waarschijnlijk wel goed kunnen beantwoorden.

Eigen voorbeeld van gebrekkige logica door ChatGPT.

Keerwoorden (palindromen)

Als je een taalmodel zoals hieronder vraagt een woord om te keren, zal het dit ook niet kunnen. Dit heeft te maken met hoe taalmodellen hun trainingdata interpreteren. Ze slaan de woorden daarin op als tokens. Afhankelijk van het woord kan het gehele woord opgeslagen woorden in één of meerdere tokens. Het model herkent de woorden die je gebruikt dus niet letterlijk en kan ze daardoor ook niet omkeren. Als je het woord zelf opdeelt in tokens werkt het overigens wel:

Eigen voorbeeld van het omkeren van woorden door GPT-4.

Wiskunde en rekenen

Elon Musk zei het onlangs: AI’s zijn slecht in wiskunde en dat wil hij oplossen. Dat taalmodellen onder de motorkap complexe wiskundemodellen zijn, maakt niet dat ze ook goed zijn in wiskunde. En zelfs niet in eenvoudige berekeningen, maar dat is logisch: ze zijn gespecialiseerd taal, en niet op wiskunde.

Je zult het inmiddels wel snappen: als de (op tekst gerichte) trainingsdata niet toevallig letterlijk het probleem dat je aan het model voorlegt bevat, gaat de mist in. De toon van de meeste taalmodellen is nogal zelfverzekerd, wat betekent dat ze toch een antwoord geven. Als dat fout is, noemen we het een hallucinatie of waanvoorstelling.

Eigen voorbeeld van de zeer beperkte rekenskills van GPT-4.

Bronnen

Door de manier van trainen hebben taalmodellen geen idee wat de bron is van de trainingsdata die ze krijgen. Het heeft dus ook geen zin om te vragen naar de bron van informatie. Ook vragen naar citaten, quotes of de bron daarvan heeft geen zin - in vrijwel alle gevallen krijg je een hallucinatie voorgeschoteld. Zeker over wat meer specifieke, niche-onderwerpen gaat, is de hoeveelheid trainingsdata waarschijnlijk beperkt geweest en het antwoord inhoudelijk onjuist. Zie onderstaand voorbeeld: de quote is van Ruud Lubbers en wordt online niet onweerlegbaar verwezen. Toch is de hallucinatie is zodanig dat die voor feitelijk juist kan doorgaan.

Eigen voorbeeld van ChatGPT dat de mist in gaat.

Conclusie

De bovenstaande beperkingen maken taalmodellen niet per se slecht, net zoals de sterktes niet absoluut zijn . Beiden zijn inherent aan hoe we ze momenteel ontwikkelen. Taalmodellen hebben geen algemene intelligentie. Als je een taalmodel vraagt iets over zichzelf te zeggen of een reactie uit te leggen, dan krijg je willekeurig gegenereerde tekst die moet lijken op een passende reactie. Kortom, taalmodellen zijn een tool. Zet ze met de bovenstaande sterktes en beperkingen in het achterhoofd bewust in voor wat je wilt bereiken. En wees zeer kritisch over de output, zeker als je het beroepsmatig gebruikt. Als je je nog wat verder in wilt lezen op dit onderwerp dan raad ik je wederom aan What Is ChatGPT Doing and Why Does it Work? van Stephan Wolfram te lezen.

📰 In het kort snelle kennis, meer tijd voor actie

📰 Vanwege toegenomen groeipotentieel door AI noteert de S&P 500 18,6% hoger en de Nasdaq 35,7% meer. Zeepbel?

📰 Er is meer duidelijk geworden over de plannen die Elon Musk heeft met zijn nieuwe bedrijf xAI.

📰 Wikipedia heeft moeite met de opkomst van taalmodellen volgens de New York Times. Hier zonder paywall.

📰 Google deelt informatie over hun red team dat mogelijk misbruik en aanvallen op hun AI’s onderzoekt. Hier het uitgebreide rapport.

📰 Er zijn wederom inloggegevens voor ChatGPT gelekt. Dit keer zijn het er 200.000 en worden ze te koop aangeboden op het dark web.

📰 Wegens het risico op het lekken van bedrijfsgeheimen over AI beperkt Google de internettoegang van medewerkers.

📰 Onderzoekers van Stanford en Berkeley hebben aangetoond dat ChatGPT sinds maart steeds slechter is gaan presteren.

💡 Praktische video met een training over taalmodellen.

💡 Een nieuwe microtraining van Google over generatieve AI.

💡 Een groep wetenschappers heeft met AI een compleet nieuwe aflevering van South Park gemaakt.

⚒️ ChatHub is een browserplugin waarmee je ChatGPT, Bing, Bard, Claude en een aantal kleinere taalmodellen tegelijk kunt gebruiken.

⚒️ Met GPT-Researcher bouw je je eigen taalmodel het internet afstruint naar antwoorden op een onderzoekvraag en die presenteert in een rapport.

🛠️ Een ander taalmodel is Danswer dat vragen kan beantwoorden over data in de Slacks, Gits, Google Drives en Confluences van jezelf of je team.

🖼️ AI-afbeelding van de week

Baby's die de Mount Everest beklimmen door DALL-E

Bron: /u/LorcasZunom op Reddit

Wederom bedankt voor het lezen. Ik waardeer het enorm om je feedback op en ideeën voor de nieuwsbrief te horen. Je kunt me bereiken via e-mail of via het feedbackformulier achter de poll hieronder.

Tot de volgende!

💭 Wat vond je van deze editie van Bewust?

Jouw feedback helpt mij Bewust beter te maken voor jou.