Kaip naudoti žetonus apkabinamuose veido transformatoriuose?

Kaip Naudoti Zetonus Apkabinamuose Veido Transformatoriuose



Natūralios kalbos apdorojimas (NLP) veikia naudojant neapdorotus duomenis. Mašininio mokymosi modeliai yra mokomi naudojant sudėtingus duomenis, tačiau jie negali suprasti neapdorotų duomenų. Ši neapdorota duomenų forma turi turėti tam tikrą su ja susietą skaitinę reikšmę. Ši reikšmė apibrėžia žodžio vertę ir svarbą duomenyse ir tuo remiantis atliekami skaičiavimai.

Šiame straipsnyje pateikiamas nuoseklus vadovas apie žetonų naudojimą Hugging Face Transformers.

Kas yra Tokenizatorius?

Žetonizatorius yra svarbi NLP sąvoka, o pagrindinis jos tikslas – neapdorotą tekstą paversti skaičiais. Šiuo tikslu yra įvairių technikų ir metodų. Tačiau verta paminėti, kad kiekviena technika tarnauja tam tikram tikslui.
Kaip naudoti žetonus apkabinamuose veido transformatoriuose?







Kaip naudoti žetonus apkabinamuose veido transformatoriuose?

Žetonizatorių biblioteka turi būti įdiegta prieš naudojant ją ir iš jos importuojant funkcijas. Po to apmokykite modelį naudodami „AutoTokenenizer“, tada pateikite įvestį, kad galėtumėte atlikti prieigos raktą.



Hugging Face pristato tris pagrindines tokenizacijos kategorijas, kurios pateikiamos žemiau:



  • Žodžiu pagrįstas Tokenizer
  • Simbolių pagrindu sukurtas Tokenizeris
  • Pokalbių pagrindu sukurtas Tokenizeris

Štai žingsnis po žingsnio vadovas, kaip naudoti žetonus transformatoriuose:





1 veiksmas: įdiekite transformatorius
Norėdami įdiegti transformatorius, naudokite komandą pip šioje komandoje:

! pip diegti transformatoriai



2 veiksmas: importuokite klases
Iš transformatorių, importas dujotiekis , ir „AutoModelForSequenceClassification“. biblioteka klasifikacijai atlikti:

iš transformatorių importo vamzdyno, AutoModelForSequenceClassification

3 veiksmas: importuokite modelį
„AutoModelForSequenceClassification“. “ yra metodas, priklausantis automatinei žetonų klasei. The from_pretrained() metodas naudojamas norint grąžinti teisingą modelio klasę pagal modelio tipą.

Čia mes pateikėme modelio pavadinimą „ Modelio vardas “ kintamasis:

Modelio vardas = „distilbert-base-uncased-finetuned-sst-2-english“
išankstinio mokymo modelis =AutoModelForSequenceClassification.from_pretrained ( Modelio vardas )

4 veiksmas: importuokite „AutoTokenenizer“.
Pateikite šią komandą, kad sugeneruotumėte žetonus, perduodami „ Modelio vardas “ kaip argumentas:

iš transformatorių importo AutoTokenenizer

sugeneruotą žetoną =AutoTokenenizer.from_pretrained ( Modelio vardas )

5 veiksmas: generuokite prieigos raktą
Dabar sakinyje generuosime žetonus „Mėgstu gerą maistą“ naudojant ' sugeneruotą žetoną “ kintamasis:

žodžius =generatetoken ( 'Aš myliu gerą maistą' )
spausdinti ( žodžius )

Išvestis pateikiama taip:

Kodas aukščiau Google Co pateikiama čia.

Išvada

Norėdami naudoti Tokenizers programoje Hugging Face, įdiekite biblioteką naudodami pip komandą, apmokykite modelį naudodami AutoTokenizer, tada pateikite įvestį, kad būtų atliktas prieigos raktas. Naudodami tokenizaciją, priskirkite žodžiams svorį, pagal kurį jie suskirstyti, kad išlaikytų sakinio prasmę. Šis balas taip pat lemia jų vertę analizei. Šis straipsnis yra išsamus vadovas, kaip naudoti žetonus Hugging Face Transformers.