Modellen voor generatieve kunstmatige intelligentie (AI) blijven aan populariteit en erkenning winnen. De recente vooruitgang en het succes van de technologie op het gebied van het genereren van afbeeldingen hebben geleid tot een golf van interesse bij technologiebedrijven en beoefenaars van machine learning (ML), die nu gestaag generatieve AI-modellen toepassen voor verschillende zakelijke use-cases.

De opkomst van tekst-naar-architecturen voedt deze acceptatie verder, met generatieve AI-modellen zoals Google’s Imagen Video, Meta’s Make-A-Video en andere zoals DALL-E, MidJourney en Stable Diffusion.

Snel maar succesvol enterprise-apps bouwen en workflows automatiseren Low-Code/No-Code Summit
Een gemeenschappelijke noemer van alle generatieve AI-architecturen is het gebruik van een methode die bekend staat als het diffusiemodel, dat is geïnspireerd op het fysieke proces van diffusie van gasmoleculen, waarbij de moleculen diffunderen van gebieden met een hoge dichtheid naar gebieden met een lage dichtheid.

Net als bij het wetenschappelijke proces, begint het model met het verzamelen van willekeurige ruis uit de verstrekte invoergegevens, die in een reeks stappen wordt afgetrokken om een esthetisch aangenaam en ideaal coherent beeld te creëren. Door het verwijderen van ruis op een manier te begeleiden die de voorkeur geeft aan een tekstprompt, kunnen diffusiemodellen beelden creëren met een hogere getrouwheid.

Voor het implementeren van generatieve AI is het gebruik van diffusiemodellen de laatste tijd duidelijk geworden, wat tekenen vertoont van het overnemen van methoden uit het verleden, zoals generatieve vijandige netwerken (GAN’s) en transformatoren in het domein van voorwaardelijke beeldsynthese, aangezien diffusiemodellen state-of- the-art afbeeldingen met behoud van kwaliteit en de semantische structuur van de gegevens – en niet beïnvloed door trainingsnadelen zoals het instorten van de modus.

Een nieuwe manier van op AI gebaseerde synthese
Een van de recente doorbraken op het gebied van computervisie en ML was de uitvinding van GAN’s, dit zijn tweedelige AI-modellen die bestaan uit een generator die samples maakt en een discriminator die probeert onderscheid te maken tussen de gegenereerde samples en real-world samples. Deze methode werd een springplank voor een nieuw veld dat bekend staat als generatieve modellering. Nadat GAN’s echter een boomfase hadden doorgemaakt, begonnen ze af te vlakken, omdat de meeste methoden moeite hadden om de knelpunten op te lossen waarmee de vijandige technieken werden geconfronteerd, een door brute kracht gecontroleerde leermethode waarbij zoveel mogelijk voorbeelden worden gegeven om het model te trainen.

GAN’s werken goed voor meerdere toepassingen, maar ze zijn moeilijk te trainen en hun output is niet divers. GAN’s hebben bijvoorbeeld vaak last van onstabiele training en het instorten van de modus, een probleem waarbij de generator kan leren slechts één uitvoer te produceren die het meest plausibel lijkt, terwijl autoregressieve modellen doorgaans last hebben van een lage synthesesnelheid.

Voortbouwend op dergelijke achterstanden, is de diffusiemodeltechniek ontstaan ​​uit probabilistische waarschijnlijkheidsschatting, een methode om de output van een statistisch model te schatten door middel van observaties van de gegevens, waarbij parameterwaarden worden gevonden die de waarschijnlijkheid van het maken van de voorspelling maximaliseren.

Diffusiemodellen zijn generatieve modellen (een type AI-model dat leert de gegevensdistributie te modelleren op basis van de input). Eenmaal geleerd, kunnen deze modellen nieuwe gegevensmonsters genereren, vergelijkbaar met die waarop ze zijn getraind. Deze generatieve aard leidde tot een snelle acceptatie ervan voor verschillende gebruiksscenario’s, zoals het genereren van afbeeldingen en video’s, het genereren van tekst en het genereren van synthetische gegevens, om er maar een paar te noemen.

Diffusiemodellen werken door trainingsgegevens te deconstrueren door de opeenvolgende toevoeging van Gaussiaanse ruis, en vervolgens te leren de gegevens te herstellen door dit ruisproces om te keren. Na training kan het model gegevens genereren door simpelweg willekeurig bemonsterde ruis door het aangeleerde de-noising-proces te leiden. Deze syntheseprocedure kan worden geïnterpreteerd als een optimalisatie-algoritme dat de gradiënt van de gegevensdichtheid volgt om waarschijnlijke monsters te produceren.

De 3D-verspreiding en -reconstructie van tekstprocesarchitectuur, Afbeeldingsbron: DreamFusion
De 3D-verspreiding en -reconstructie van tekstprocesarchitectuur, Afbeeldingsbron: DreamFusion
“Diffusiemodellen helpen de nadelen van GAN aan te pakken door beter om te gaan met ruis en een veel grotere diversiteit aan beelden te produceren met beelden van vergelijkbare of hogere kwaliteit, terwijl er weinig training nodig is”, zegt Swapnil Srivastava, VP en wereldwijd hoofd van data en analyse bij Evalueserve. “Aangezien diverse synthetische data een primaire behoefte is voor alle data science-architecturen, zijn diffusiemodellen beter in het aanpakken van het probleem.

ems en rekening houdend met de schaal die nodig is voor het ontwikkelen van geavanceerde AI-projecten.”

Naast een hogere beeldkwaliteit hebben diffusiemodellen nog vele andere voordelen en vereisen ze geen vijandige training. Andere bekende methoden, zoals transformatoren, vereisen enorme hoeveelheden gegevens en hebben te maken met een plateau in termen van prestaties in visiedomeinen in vergelijking met diffusiemodellen.

Huidige marktacceptatie van diffusiemodellen

Het gebruik van diffusiemodellen voor generatieve AI kan helpen bij het benutten van verschillende unieke mogelijkheden, waaronder het creëren van diverse afbeeldingen en tekstweergave in verschillende artistieke stijlen, 3D-begrip en animatie.

De mogelijkheden van deze modellen van de volgende generatie gaan uit van eenvoudige beeldsynthese en evolueren naar video- en 3D-generatie. De onlangs uitgebrachte Imagen Video van Google en Make-a-Video van Meta zijn uitstekende voorbeelden van de hoogwaardige mogelijkheden van generatieve AI.

Imagen Video bestaat uit een tekstencoder (bevroren T5-XXL), een basisvideodiffusiemodel en interleaved ruimtelijke en temporele superresolutiediffusiemodellen. Evenzo gebruiken de videodiffusiemodellen (VDM) van Make-a-Video een ruimte-tijd gefactoriseerd U-Net met gezamenlijke training van beeld- en videogegevens. Bovendien werd de VDM getraind op 10 miljoen private tekst-video open-source dataset-paren, waardoor het model gemakkelijker video’s kon produceren van de aangeleverde tekst.

Saam Motamedi, algemeen partner bij Greylock, durfkapitaalbedrijf in Silicon Valley, zegt dat de acceptatie door de markt van generatieve AI, zoals diffusiemodellen, exponentieel is versneld omdat ze het voor ontwikkelaars gemakkelijker maken om bovenop bestaande modellen te bouwen en geavanceerde mogelijkheden in hun toepassingen.

Leave a Reply

Your email address will not be published. Required fields are marked *