Kaip sujungti duomenų rinkinius apsikabinusiame veide

Kaip Sujungti Duomenu Rinkinius Apsikabinusiame Veide



Hugging Face „duomenų rinkinių“ biblioteka yra patogus būdas dirbti su duomenų rinkiniais ir jais manipuliuoti atliekant natūralios kalbos apdorojimo užduotis. Viena naudinga funkcija, kurią siūlo biblioteka, yra concatenate_datasets(), kuri leidžia sujungti kelis duomenų rinkinius į vieną duomenų rinkinį. Toliau pateikiama trumpa funkcijos concatenate_datasets() ir jos naudojimo apžvalga.

concatenate_datasets()

Apibūdinimas:

Hugging Face „duomenų rinkinių“ biblioteka suteikia funkciją concatenate_datasets(). Jis naudojamas kelių duomenų rinkinių sujungimui, sujungiant juos į vieną duomenų rinkinį išilgai nurodytos ašies. Ši funkcija ypač naudinga, kai turite kelis duomenų rinkinius, turinčius tą pačią struktūrą, ir norite juos sujungti į vieningą duomenų rinkinį tolesniam apdorojimui ir analizei.







Sintaksė:



duomenų rinkinius importuoti concatenate_datasets

concatenated_dataset = concatenate_datasets ( duomenų rinkinius , ašį = 0 , informacija = Nė vienas )

Parametrai:

duomenų rinkinius (duomenų rinkinio sąrašas): duomenų rinkinių, kuriuos norite sujungti, sąrašas. Šie duomenų rinkiniai turi turėti suderinamas funkcijas, o tai reiškia, kad jie turi tą pačią schemą, stulpelių pavadinimus ir duomenų tipus.



ašį (int, neprivaloma, numatytasis = 0): ašis, išilgai kurios turi būti atliktas sujungimas. Daugumoje NLP duomenų rinkinių naudojama numatytoji reikšmė 0, o tai reiškia, kad duomenų rinkiniai sujungiami vertikaliai. Jei nustatote ašį = 1, duomenų rinkiniai sujungiami horizontaliai, darant prielaidą, kad jų stulpeliai yra skirtingi.





informacija (datasets.DatasetInfo, neprivaloma): informacija apie sujungtą duomenų rinkinį. Jei nepateikiama, informacija gaunama iš pirmojo sąrašo duomenų rinkinio.

Grąžina:

concatenated_dataset (Duomenų rinkinys): gautas duomenų rinkinys sujungus visus įvesties duomenų rinkinius.



Pavyzdys:

# 1 veiksmas: įdiekite duomenų rinkinių biblioteką

# Galite jį įdiegti naudodami pip:

# !pip diegimo duomenų rinkiniai

# 2 veiksmas: importuokite reikalingas bibliotekas

duomenų rinkinius importuoti įkelti_duomenų rinkinį , concatenate_datasets

# 3 veiksmas: įkelkite IMDb filmų peržiūros duomenų rinkinius

# Naudosime du IMDb duomenų rinkinius, vieną – teigiamoms apžvalgoms

#ir dar vieną už neigiamus atsiliepimus.

# Įkelkite 2500 teigiamų atsiliepimų

duomenų rinkinio_poz = įkelti_duomenų rinkinį ( 'imdb' , padalintas = 'traukinys[:2500]' )

# Įkelkite 2500 neigiamų atsiliepimų

dataset_neg = įkelti_duomenų rinkinį ( 'imdb' , padalintas = 'traukinys[-2500:]' )

# 4 veiksmas: sujunkite duomenų rinkinius

# Sujungiame abu duomenų rinkinius išilgai axis=0, kaip jie turi

ta pati schema ( tos pačios savybės ) .

concatenated_dataset = concatenate_datasets ( [ duomenų rinkinio_poz , dataset_neg ] )

# 5 veiksmas: išanalizuokite sujungtą duomenų rinkinį

# Paprastumo dėlei suskaičiuokime teigiamų ir neigiamų skaičių

# atsiliepimų sujungtame duomenų rinkinyje.

teigiamų_atsiliepimų skaičius = suma ( 1 dėl etiketė in

concatenated_dataset [ 'etiketė' ] jeigu etiketė == 1 )

neigiamų_atsiliepimų skaičius = suma ( 1 dėl etiketė in

concatenated_dataset [ 'etiketė' ] jeigu etiketė == 0 )

# 6 veiksmas: parodykite rezultatus

spausdinti ( „Teigiamų atsiliepimų skaičius:“ , teigiamų_atsiliepimų skaičius )

spausdinti ( „Neigiamų atsiliepimų skaičius:“ , neigiamų_atsiliepimų skaičius )

# 7 veiksmas: iš sujungto duomenų rinkinio išspausdinkite keletą atsiliepimų pavyzdžių

spausdinti ( \n Keletas atsiliepimų pavyzdžių:' )

dėl i in diapazonas ( 5 ) :

spausdinti ( f 'Peržiūra {i + 1}: {concatenated_dataset['text'][i]}' )

Išvestis:

Toliau pateikiamas Hugging Face „duomenų rinkinių“ bibliotekos programos, kuri sujungia du IMDb filmų peržiūros duomenų rinkinius, paaiškinimas. Tai paaiškina programos tikslą, naudojimą ir veiksmus, susijusius su kodu.

Pateiksime išsamesnį kiekvieno kodo žingsnio paaiškinimą:

# 1 veiksmas: importuokite reikalingas bibliotekas

duomenų rinkinius importuoti įkelti_duomenų rinkinį , concatenate_datasets

Šiame žingsnyje mes importuojame programai reikalingas bibliotekas. Mums reikia funkcijos „load_dataset“, kad įkeltume IMDb filmų peržiūros duomenų rinkinius, ir „concatenate_datasets“, kad vėliau juos sujungtume.

# 2 veiksmas: įkelkite IMDb filmų peržiūros duomenų rinkinius

# Įkelkite 2500 teigiamų atsiliepimų

duomenų rinkinio_poz = įkelti_duomenų rinkinį ( 'imdb' , padalintas = 'traukinys[:2500]' )

# Įkelkite 2500 neigiamų atsiliepimų

dataset_neg = įkelti_duomenų rinkinį ( 'imdb' , padalintas = 'traukinys[-2500:]' )

Čia mes naudojame funkciją „load_dataset“, kad gautume du IMDb duomenų rinkinio pogrupius. „Dataset_pos“ turi 2500 teigiamų atsiliepimų, o „dataset_neg“ – 2500 neigiamų atsiliepimų. Naudojame padalijimo parametrą, norėdami nurodyti įkeliamų pavyzdžių diapazoną, leidžiantį pasirinkti viso duomenų rinkinio poaibį.

# 3 veiksmas: sujunkite duomenų rinkinius

concatenated_dataset = concatenate_datasets ( [ duomenų rinkinio_poz , dataset_neg ] )

Šiame žingsnyje du IMDb duomenų rinkinio pogrupius sujungiame į vieną duomenų rinkinį, vadinamą „concatenated_dataset“. Naudojame funkciją „concatenate_datasets“ ir perduodame ją su sąrašu, kuriame yra du sujungiami duomenų rinkiniai. Kadangi abu duomenų rinkiniai turi tas pačias savybes, mes juos sujungiame išilgai axis=0, o tai reiškia, kad eilutės yra sukrautos viena ant kitos.

# 4 veiksmas: išanalizuokite sujungtų duomenų rinkinį

teigiamų_atsiliepimų skaičius = suma ( 1 dėl etiketė in

concatenated_dataset [ 'etiketė' ] jeigu etiketė == 1 )

neigiamų_atsiliepimų skaičius = suma ( 1 dėl etiketė in

concatenated_dataset [ 'etiketė' ] jeigu etiketė == 0 )

Čia atliekame paprastą sujungto duomenų rinkinio analizę. Mes naudojame sąrašo supratimą kartu su funkcija „suma“, kad suskaičiuotume teigiamų ir neigiamų atsiliepimų skaičių. Mes kartojame per etiketė“ stulpelyje „concatenated_dataset“ ir padidinkite skaičių, kai tik sutinkame teigiamą etiketę (1) arba neigiamą etiketę (0).

# 5 veiksmas: parodykite rezultatus

spausdinti ( „Teigiamų atsiliepimų skaičius:“ , teigiamų_atsiliepimų skaičius )

spausdinti ( „Neigiamų atsiliepimų skaičius:“ , neigiamų_atsiliepimų skaičius )

Šiame žingsnyje atspausdiname savo analizės rezultatus – teigiamų ir neigiamų atsiliepimų skaičių sujungtame duomenų rinkinyje.

# 6 veiksmas: išspausdinkite keletą apžvalgų pavyzdžių

spausdinti ( \n Keletas atsiliepimų pavyzdžių:' )

dėl i in diapazonas ( 5 ) :

spausdinti ( f 'Peržiūra {i + 1}: {concatenated_dataset['text'][i]}' )

Galiausiai pateikiame keletą apžvalgų pavyzdžių iš sujungtų duomenų rinkinio. Peržiūrime pirmuosius penkis duomenų rinkinio pavyzdžius ir išspausdiname jų teksto turinį naudodami stulpelį „tekstas“.

Šis kodas parodo aiškų Hugging Face „duomenų rinkinių“ bibliotekos naudojimo pavyzdį, norint įkelti, sujungti ir analizuoti IMDb filmų peržiūros duomenų rinkinius. Jame pabrėžiamas bibliotekos gebėjimas supaprastinti NLP duomenų rinkinio tvarkymą ir parodomas jos potencialas kurti sudėtingesnius natūralios kalbos apdorojimo modelius ir programas.

Išvada

„Python“ programa, naudojanti Hugging Face „duomenų rinkinių“ biblioteką, sėkmingai demonstruoja dviejų IMDb filmų peržiūros duomenų rinkinių sujungimą. Įkeldama teigiamų ir neigiamų atsiliepimų poaibius, programa sujungia juos į vieną duomenų rinkinį naudodama funkciją concatenate_datasets(). Tada ji atlieka paprastą analizę, skaičiuodama teigiamų ir neigiamų atsiliepimų skaičių kombinuotame duomenų rinkinyje.

„Duomenų rinkinių“ biblioteka supaprastina NLP duomenų rinkinių tvarkymo ir manipuliavimo procesą, todėl tai yra galingas įrankis tyrėjams, kūrėjams ir NLP praktikams. Naudodama patogią sąsają ir plačias funkcijas, biblioteka leidžia lengvai apdoroti, tyrinėti ir transformuoti duomenis. Šioje dokumentacijoje pristatyta programa yra praktinis pavyzdys, kaip galima panaudoti biblioteką, siekiant supaprastinti duomenų sujungimo ir analizės užduotis.

Realiame gyvenime ši programa gali būti pagrindas sudėtingesnėms natūralios kalbos apdorojimo užduotims, tokioms kaip jausmų analizė, teksto klasifikavimas ir kalbos modeliavimas. Naudodami „duomenų rinkinių“ biblioteką, mokslininkai ir kūrėjai gali efektyviai valdyti didelio masto duomenų rinkinius, palengvinti eksperimentavimą ir paspartinti naujausių NLP modelių kūrimą. Apskritai, Hugging Face „duomenų rinkinių“ biblioteka yra esminis turtas siekiant tobulinti natūralios kalbos apdorojimą ir supratimą.