AI och informationssökning
AI-verktyg kan göra det snabbare och enklare att söka vetenskaplig information. Samtidigt är det viktigt att vara medveten om risker med felaktiga uppgifter och påhittade referenser. På den här sidan får du lära dig om vad AI-verktyg för sökning är och vad du bör tänka på när du använder dem.
Artificiell intelligens (AI) är ett brett begrepp, och vissa tekniker har varit i bruk länge och används för till exempel relevansrankning och rekommendationer om liknande innehåll. Med ChatGPT blev ett verktyg som bygger på generativ AI och naturlig språkbehandling allmänt spritt.
Generativ AI
Generativ AI innebär att AI används för att generera digitalt innehåll. Det digitala innehållet kan vara text, bild, musik eller annat material.
Generativ AI bygger till stor del på sannolikhet. Om en text börjar så här, hur borde den fortsätta? Vilka ord och meningar brukar förekomma tillsammans? Utifrån detta genereras en unik text. Eftersom den innehåller vanligt förekommande kombinationer av ord och meningar kommer innehållet att se sannolikt och trovärdigt ut. Faktauppgifter kommer ofta att stämma, men kan också vara helt felaktiga. Detta brukar kallas att AI-verktyget hallucinerar.
AI-verktyg som helt bygger på generativ AI kan inte ange källor för informationen. AI-verktyget har inte sökt upp information utan bara genererat en text. Ibland kan AI-verktyget ange referenser, men ofta är det påhittade referenser som inte finns i verkligheten.
I ett akademiskt arbetssätt är referenser och granskning av källor viktigt. Det är viktigt att veta varifrån information ursprungligen kommer och att kunna gå tillbaka och granska de källor som en text bygger på. Utan angivna källor blir det inte möjligt, och generativ AI är därför inte lämpligt att använda för vetenskaplig informationssökning.
Även i andra sammanhang bör du vara medveten om att de faktauppgifter du får kan vara felaktiga. Hur mycket som är felaktigt varierar. För väletablerad information som återfinns i många källor kommer andelen felaktiga svar att vara mindre än för specifika eller kontroversiella ämnen.
AI-verktyg för sökning
Vissa AI-verktyg genomför också sökningar på webben eller i en databas med publikationer. Sökresultatet kan levereras som det är, eller användas som grund för ett genererat textsvar. Ett sådant svar innehåller oftast korrekt information om källor och kan vara användbart i akademiska sammanhang. Det är dock fortfarande svårt att veta varför just dessa källor valdes ut.
Chatbottarna Bing och Bard söker på Internet och genererar ett svar med hjälp av AI. Vissa versioner av ChatGPT söker också på Internet. Denna kombination av generativ AI och sökning i externa källor kallas Retrieval-Augmented Generation (RAG). Verktyg som bland annat Scite, SciSpace, Elicit, Keenious och Semantic scholar kombinerar sökning i databaser med vetenskapliga publikationer med AI. Verktygen använder AI på olika sätt, till exempel för att tolka naturligt språk, välja ut och relevansranka sökresultat, eller generera ett svar eller en sammanfattning.
Det finns också verktyg som kombinerar citeringsanalys med AI, och kan presentera nätverk mellan vetenskapliga publikationer. Några exempel är Connected papers, Inciteful och Research rabbit.
Träningsdata
De flesta AI-verktyg har tränats upp på stora mängder data. Vilka data som använts, och hur omfattande datamängden är kommer att ha stort inflytande på hur verktyget fungerar. Datat är oftast begränsat i tid och ny data kan saknas. ChatGPT:s träningsdata innehåller till exempel inte dokument som är nyare än 2021.
Datat kan också vara snedvriden eller “biased” på olika sätt. I tjänster för ansiktsingenkänning är det till exempel vanligt att träningsdatat innehållit flest bilder på vita män, och därför fungerar sämre på svarta kvinnor.
De flesta AI-verktyg anger inte tydligt vilket data som använts som träningsdata, vilket är en nackdel i akademiska sammanhang där transparens är viktigt.
Maskininlärning
Många AI-verktyg fortsätter att lära sig när de används. Det innebär att de kommer att de kommer att bli bättre och bättre på att utföra uppgifter. Det innebär också att de inte kommer att ge samma resultat om man efter en tid ger dem samma uppgift. Att forskning är reproducerbar, det vill säga att studier kan upprepas av någon annan och komma till samma resultat, brukar anges som en viktig princip. Bristande reproducerbarhet kan därför vara problematiskt om man använder AI-verktyg i sin forskning.
Användningsvillkor och upphovsrätt
Många AI-verktyg sparar det du matar in och använder det på olika sätt, bland annat som träningsdata. Läs användningsvillkoren för respektive tjänst för att får veta mer, och var aktsam om du till exempel matar in någon annans material eller känsliga uppgifter.
Upphovsrätt gäller bara material som skapats av fysiska personer. AI-genererade bilder och text omfattas därför inte. Ingen har upphovsrätt till AI-producerat material. Däremot kan det finnas restriktioner för hur materialet får användas. Dessa restriktioner hittar du i användningsvillkoren du accepterade när du skapade ett konto för tjänsten.
Fusk och plagiat
Innan du använder AI-verktyg i dina studier behöver du kolla upp om det finns några riktlinjer för det i den aktuella kursen. Generellt gäller att du aldrig ska lämna in ett arbete som ditt eget om du inte i väsentliga delar genomfört det själv. För transparensens skull kan det vara bra att ange vilka verktyg du använt, och på vilket sätt. KTH:s sidor om fusk och plagiering innehåller mer information.
AI-verktyg som referens
Praxis varierar för om AI-verktyg ska anges som referenser. De är inga källor i traditionell mening och enligt vissa rekommendationer bör de snarare nämnas som använda verktyg. Om du ska ange AI-verktyg som referenser kan du ibland hitta exempel på hur du kan göra det i guiden till den referensstil du använder.