OpenText startsida.
Tekniska ämnen

Vad är maskininlärning?

Illustration av IT-objekt med fokus på ett frågetecken

Översikt

Maskininlärning är en delmängd av artificiell intelligens som fokuserar på att bygga system som kan lära sig av historiska data, identifiera mönster och fatta logiska beslut med liten eller ingen mänsklig inblandning. Det är en dataanalysmetod som automatiserar skapandet av analytiska modeller genom att använda data som omfattar olika former av digital information, t.ex. siffror, ord, klick och bilder.

Program för maskininlärning lär sig av indata och förbättrar kontinuerligt noggrannheten i utdata med hjälp av automatiserade optimeringsmetoder. Kvaliteten på en maskininlärningsmodell är beroende av två viktiga aspekter:

  1. Kvaliteten på indata. En vanlig fras när det gäller att utveckla maskininlärningsalgoritmer är "garbage in, garbage out". Det betyder att om du lägger in data av låg kvalitet eller rörig data så kommer resultatet av din modell att vara i stort sett felaktigt.
  2. Modellvalet i sig. Inom maskininlärning finns det en uppsjö av algoritmer som en datavetare kan välja, alla med sina egna specifika användningsområden. Det är viktigt att välja rätt algoritm för varje användningsfall. Neurala nätverk är en algoritmtyp som har blivit mycket omtalad på grund av den höga noggrannhet och mångsidighet som den kan leverera. För små datamängder är det dock ofta bättre att välja en enklare modell.

Ju bättre maskininlärningsmodellen är, desto mer exakt kan den hitta funktioner och mönster i data. Det innebär i sin tur att dess beslut och förutsägelser blir mer exakta.

OpenText ArcSight Intelligence för CrowdStrike

Oöverträffat skydd som kombinerar maskininlärning och endpoint-säkerhet tillsammans med hotjakt i världsklass som en tjänst.

Läs mer om detta

Maskininlärning

Varför är maskininlärning viktigt?

Varför använda maskininlärning? Maskininlärning blir allt viktigare på grund av allt större volymer och variation av data, tillgång till och överkomliga priser på beräkningskraft och tillgång till höghastighetsinternet. Dessa digitala transformationsfaktorer gör det möjligt att snabbt och automatiskt utveckla modeller som snabbt och korrekt kan analysera utomordentligt stora och komplexa datamängder.

Det finns en mängd olika användningsområden där maskininlärning kan användas för att sänka kostnaderna, minska riskerna och förbättra den allmänna livskvaliteten, t.ex. för att rekommendera produkter/tjänster, upptäcka brott mot cybersäkerheten och möjliggöra självkörande bilar. Med större tillgång till data och beräkningskraft blir maskininlärning allt vanligare och kommer snart att integreras i många aspekter av människors liv.


Hur fungerar maskininlärning?

Det finns fyra viktiga steg som du följer när du skapar en maskininlärningsmodell.

  1. Välj och förbered en träningsdatauppsättning

    Träningsdata är information som är representativ för de data som maskininlärningsprogrammet kommer att ta in för att ställa in modellparametrar. Träningsdata är ibland märkta, vilket innebär att de har märkts för att ringa ut klassificeringar eller förväntade värden som maskininlärningsläget måste förutsäga. Andra träningsdata kan vara omärkta så att modellen måste extrahera funktioner och tilldela kluster självständigt.

    För märkning bör data delas in i en träningsdel och en testdel. Den första används för att träna modellen och den andra för att utvärdera modellens effektivitet och hitta sätt att förbättra den.

  2. Välj en algoritm som ska tillämpas på träningsdatauppsättningen

    Vilken typ av maskininlärningsalgoritm du väljer beror i första hand på några olika aspekter:

    • Om användningsfallet är prediktion av ett värde eller klassificering som använder märkta träningsdata eller om användningsfallet är klustring eller dimensionsreduktion som använder omärkta träningsdata
    • Hur mycket data som finns i träningsuppsättningen
    • Vilken typ av problem som modellen försöker lösa

    För prediktion eller klassificering använder man vanligtvis regressionsalgoritmer som t.ex. vanlig minsta kvadrat-regression eller logistisk regression. Med omärkta data kommer du sannolikt att förlita dig på klusteralgoritmer som k-means eller närmaste granne. Vissa algoritmer, t.ex. neurala nätverk, kan konfigureras så att de fungerar för både klustring och prediktion.

  3. Träna algoritmen att bygga modellen

    Träning av algoritmen är en process där modellens variabler och parametrar justeras för att bättre kunna förutsäga lämpliga resultat. Träningen av maskininlärningsalgoritmen är vanligtvis iterativ och använder en mängd olika optimeringsmetoder beroende på den valda modellen. Dessa optimeringsmetoder kräver ingen mänsklig inblandning, vilket är en del av styrkan med maskininlärning. Maskinen lär sig från de data du ger den med liten eller ingen specifik vägledning från användaren.

  4. Använda och förbättra modellen

    Det sista steget är att mata in nya data i modellen för att förbättra dess effektivitet och precision över tiden. Var den nya informationen kommer ifrån beror på hur det problem som ska lösas är beskaffat. Till exempel kommer en maskininlärningsmodell för självkörande bilar att ta in verklig information om vägförhållanden, föremål och trafikregler.


Metoder för maskininlärning

Vad är övervakad maskininlärning?

Övervakade maskininlärningsalgoritmer använder märkta data som träningsdata där lämpliga utdata för indata är kända. Algoritmen för maskininlärning tar emot en uppsättning indata och motsvarande korrekta utdata. Algoritmen jämför sina egna beräknade utdata med de korrekta utdata för att beräkna modellens noggrannhet och optimerar sedan modellparametrarna för att förbättra noggrannheten.

Övervakad maskininlärning bygger på mönster för att förutsäga värden på omärkta data. Det används oftast vid automatisering, för stora mängder dataposter eller i fall där det finns för många datainmatningar för att människor ska kunna bearbeta dem effektivt. Algoritmen kan till exempel fånga upp kreditkortstransaktioner som sannolikt är bedrägliga eller identifiera den försäkringskund som troligen kommer att göra en skadeanmälan.

Vad är oövervakad maskininlärning?

Maskininlärning utan övervakning tillämpas bäst på data som inte har strukturerade eller objektiva svar. Det finns ingen förhandsbestämning av rätt utdata för en given inmatning. Istället måste algoritmen förstå indata och fatta ett lämpligt beslut. Syftet är att undersöka informationen och identifiera strukturer i den.

Maskininlärning utan övervakning fungerar bra på transaktionsinformation. Algoritmen kan till exempel identifiera kundsegment som har liknande egenskaper. Kunder inom dessa segment kan sedan nås av liknande marknadsföringskampanjer. Populära tekniker som används inom unsupervised learning är bland annat nearest-neighbor mapping, self-organizing maps, singular value decomposition och k-means clustering. Algoritmerna används sedan för att segmentera ämnen, identifiera avvikande värden och rekommendera artiklar.


Vad är skillnaden mellan övervakad och oövervakad maskininlärning?

Aspekt

Övervakad inlärning

Oövervakad inlärning

Process

Ingångs- och utgångsvariabler tillhandahålls för att träna modellen.

Endast indata tillhandahålls för att träna modellen. Inga utdata används.

Inmatade data

Använder märkta data.

Använder omärkta data.

Algoritmer som stöds

Stöder regressionsalgoritmer, instansbaserade algoritmer, klassificeringsalgoritmer, neurala nätverk och beslutsträd.

Stöder klustringsalgoritmer, associationsalgoritmer och neurala nätverk.

Komplexitet

Enklare.

Mer komplex.

Subjektivitet

Målsättning.

Subjektivt.

Antal klasser

Antalet klasser är känt.

Antal klasser är okänt.

Primär nackdel

Det är svårt att klassificera stora datamängder med hjälp av övervakad inlärning.

Att välja antal kluster kan vara subjektivt.

Primärt mål

Träna modellen att förutsäga utdata när den får nya indata.

Hitta användbara insikter och dolda mönster.


Vad kan maskininlärning göra: Maskininlärning i den verkliga världen

Funktionen för maskininlärning har funnits i årtionden, men det är den senaste tidens förmåga att tillämpa och automatiskt beräkna komplexa matematiska beräkningar med hjälp av stora datamängder som har gjort den så sofistikerad. Användningsområdet för maskininlärning är idag mycket stort och sträcker sig från AIOps för företag till detaljhandel på nätet. Några exempel från den verkliga världen på maskininlärningsfunktioner idag är följande:

  • Cyber Security använder beteendeanalys för att fastställa misstänkta eller avvikande händelser som kan tyda på insiderhot, APT eller nolldagsattacker.
  • Projekt för självkörande bilar, såsom Waymo (ett dotterbolag till Alphabet Inc.) och Teslas Autopilot som är ett steg under faktiska självkörande bilar.
  • Digitala assistenter som Siri, Alexa och Google Assistant som söker efter information på webben med hjälp av våra röstkommandon.
  • Användaranpassade rekommendationer som drivs av maskininlärningsalgoritmer på webbplatser och i appar som Netflix, Amazon och YouTube.
  • Lösningar för bedrägeridetektering och cyberresiliens som sammanställer data från flera system, upptäcker kunder som uppvisar högriskbeteende och identifierar mönster av misstänkt aktivitet. Dessa lösningar kan använda övervakad och oövervakad maskininlärning för att klassificera transaktioner för finansiella organisationer som bedrägliga eller legitima. Det är därför som en konsument kan få texter från sitt kreditkortsföretag som verifierar om ett ovanligt köp med konsumentens finansiella uppgifter är legitimt. Maskininlärning har blivit så avancerat inom bedrägeriområdet att många kreditkortsföretag marknadsför sig med "no-fault" till konsumenter om bedrägliga transaktioner inte fångas upp av finansorganisationens algoritmer.
  • Bildigenkänning har utvecklats avsevärt och kan nu användas för ansiktsigenkänning, avläsning av handskrift på checkar, trafikövervakning och för att räkna antalet personer i ett rum.
  • Spamfilter som upptäcker och blockerar oönskad e-post från inkorgen.
  • Elbolag som analyserar sensordata för att hitta sätt att förbättra effektiviteten och sänka kostnaderna.
  • Bärbara medicintekniska produkter som i realtid samlar in värdefull data för kontinuerlig bedömning av patienters hälsa.
  • Taxiappar utvärderar trafikförhållandena i realtid och rekommenderar den mest effektiva rutten.
  • Sentimentanalys fastställer tonen i en textrad. Bra tillämpningar av sentimentanalys är Twitter, kundrecensioner och enkätsvar:
    • Twitter: ett sätt att utvärdera varumärken är att upptäcka tonen i tweets som riktas mot en person eller ett företag. Företag som Crimson Hexagon och Nuvi tillhandahåller detta i realtid.
    • Kundrecensioner: Du kan känna av tonen i kundrecensioner för att utvärdera hur ditt företag mår. Detta är särskilt användbart om det inte finns något betygssystem i kombination med kundrecensioner i fritext.
    • Enkätundersökningar: Genom att använda sentimentanalys på enkätsvar i fritext kan du snabbt få en uppfattning om hur de som svarat på enkäten känner. Qualtrics har implementerat detta i sina enkäter.
  • Marknadssegmenteringsanalys använder oövervakad maskininlärning för att gruppera kunder enligt köpvanor för att fastställa olika typer av kunder eller kundprofiler. På så sätt kan du bättre lära känna dina mest värdefulla eller underbetjänade kunder.
  • Det är lätt att trycka ctrl+F för att söka efter exakta ord och fraser i ett dokument, men om du inte vet exakt vad du letar efter kan det vara svårt att söka i dokument. Maskininlärning kan använda tekniker som fuzzy-metoder och ämnesmodellering kan göra den här processen mycket enklare genom att du kan söka i dokument utan att veta exakt vilken formulering du letar efter.

Maskininlärningens roll kommer bara att fortsätta växa

I takt med att datavolymerna växer, datorkraften ökar, bandbredden på Internet blir större och datavetarna förbättrar sin expertis, kommer maskininlärningen bara att fortsätta att driva fram större och djupare effektivitet på jobbet och i hemmet.

Med de ständigt ökande cyberhot som företag står inför idag behövs maskininlärning för att säkra värdefull data och hålla hackare borta från interna nätverk. Vår främsta UEBA SecOps-mjukvara, ArcSight Intelligence, använder maskininlärning för att upptäcka avvikelser som kan tyda på skadliga handlingar. Det har visat sig kunna upptäcka insiderhot, nolldagsattacker och till och med aggressiva red team-attacker.

Hur kan vi hjälpa till?

Fotnoter