Naturlig språkbehandling, 7,5 hp
Natural Language Processing, 7.5 credits
Kurskod: DS6005
Akademin för informationsteknologi
Nivå: Grundnivå
Välj kursplan
Fastställd av: Forsknings- och utbildningsnämnden, 2024-11-11 och gäller studenter antagna vårterminen 2025.
Huvudområde med fördjupning
Data science, Grundnivå, har minst 60 hp kurs/er på grundnivå som förkunskapskrav. (G2F)Behörighetskrav
Kurserna Principer och tekniker för data science 11 hp, Programmering för data science 7,5 hp, Matematik för maskininlärning 7,5 hp, Matematisk statistik 7,5 hp och Tillämpat maskinlärande 7,5 hp.
Kursens inplacering i utbildningssystemet
Kursen ingår i programmet Tillämpad artificiell intelligens (AI).
Mål
Denna kurs syftar till att ge studenterna en grundläggande förståelse för Natural Language Processing (NLP) koncept och tekniker. Efter kursen ska studenten för förstå viktiga NLP-principer och utmaningar, lära sig och implementera beräkningstekniker för språkbehandling, tillämpa maskininlärning och neurala modeller på NLP-uppgifter, skaffa praktisk erfarenhet av NLP-tillämpningar samt förbättra sina problemlösningsfärdigheter genom praktiska projekt.
Efter avslutad kurs ska studenten kunna:
Kunskap och förståelse
- Beskriva NLP-principerna på hög nivå och dess vanliga utmaningar.
- Förklara olika metoder för att representera text och språklig information, såsom tokenisering, vektorisering (t.ex. ordinbäddningar) och språkmodeller.
- Beskriva väsentliga beräkningstekniker och algoritmer som används inom NLP.
- Förklara rollen av maskininlärning inom NLP, inklusive övervakade, oövervakade och djupinlärningsmetoder.
Färdighet och förmåga
- Förbearbeta och rensa textdata.
- Implementera och tillämpa språkmodeller.
- Tillämpa maskininlärning på NLP-uppgifter.
- Designa och bygga NLP-applikationer.
- Lösa komplexa språkbehandlingsproblem.
Värderingsförmåga och förhållningssätt
- Utvärdera NLP-system och förstå deras styrkor och begränsningar.
- Bedöma för- och nackdelar med NLP-tekniker samt deras utmaningar i olika tillämpningar.
Innehåll
- Introduktion till NLP: Översikt över NLP, dess historia, nyckelutmaningar och applikationer.
- Introduktion av traditionella begrepp inom NLP, såsom regelbaserade metoder, grammatik och semantik.
- Introduktion av probabilistiska metoder (t.ex. N-gram, Naiv Bayes, Hidden Markov Model).
- Översikt över textrepresentationer och maskininlärningstekniker för NLP.
- Presentation av oövervakade metoder, såsom ämnesmodeller och sentimentanalys.
- Introduktion av neurala språkmodeller (CNN, RNN, sekvens-till-sekvens, transformatorer).
Undervisningsspråk
Undervisning
Undervisningen består av föreläsningar, datorlabb och projekthandledning.
Betygsskala
Examinationsformer
Examinationen består av regelbundna guidade laborationer och ett individuellt praktiskt projekt.
Slutbetyget på kursen baseras på det praktiska projektet; dock måste labbdelen vara genomförd för att bli godkänd på kursen.
2501: Laborationer, 2,5 hp
Tvågradig skala (UG): Underkänd (U), Godkänd (G)
2502: Projekt, 5 hp
Fyrgradig skala, sifferbetyg (TH): Underkänd (U), Godkänd (3), Väl godkänd (4), Mycket väl godkänd (5)
Undantag från angiven examinationsform
Om särskilda skäl finns får examinator göra undantag från angiven examinationsform och medge att en student examineras på annat sätt. Särskilda skäl kan till exempel vara beslut om riktat pedagogiskt stöd.
Kursvärdering
I kursen ingår kursvärdering. Denna är vägledande för utveckling och planering av kursen. Kursvärderingen dokumenteras och redovisas för studenterna.
Kurslitteratur och övriga läromedel
Litteraturlista 2025-01-20 – Tills vidare
Daniel Jurafsky and James Martin, Speech and Language Processing, senaste upplagan
https://web.stanford.edu/~jurafsky/slp3/