Pandák DataFrame statisztikák soronként id

szavazat
0

Dolgozom egy kutatást, és létrehozott egy DataFrame oszlopokkal id, db_keywords, new_words, count_new_words. Oszlopban new_words van szó, amelyek nem az oszlop db_keywords és a count_new_words számítanak az új szavakat. Régebben describe()oszlopon count_new_words annak érdekében, hogy az alapvető statisztikákat. Szeretném használni néhány módszert annak érdekében, hogy a statisztika soronként (id). Kell egy kis értéket vagy más mutatókat, például, hogy hány új szó per id nincsenek jelen adatbázisunkban így ebben az esetben db_keywords. Ez lehet bármilyen módszer, mert nem tudom, hogyan kell megközelíteni ezt a problémát. Csináltam egy hasonló vizsgálat dataframe csak elképzelni az én problémám.

Példa:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Azt Wold tudni például, mi a hozzáadott vale id 1 egyetlen szót db_keywords oszlopra, és találtunk két új szavakat bemutatott new_words oszlopban. Hogyan kell kiszámítani, és ezt az?

A kérdést 13/02/2020 23:54
a forrás felhasználó
Más nyelveken...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more