Back to Question Center
0

BeautifulSoup צו כאַפּן וועבפּאַגע אינהאַלט אין פינף מינוטעס - סעמאַלט עקספּערט

1 answers:

שיין סאָו איז די פּיטהאָן פּעקל געניצט פֿאַר פּאַרסינג קסמל און HTML דאָקומענטן. עס קריייץ פּאַרס ביימער פֿאַר וועב זייַטלעך און איז בנימצא פֿאַר פּיטהאָן 2 און פּיטהאָן 3. אויב איר האָט אַ וועבזייטל וואָס קען נישט זיין סקרייפּט רעכט, איר קענען נוצן פאַרשידענע שעפעריש וועבסייט. די דאַטע יקסטראַקטיד וועט זיין פולשטענדיק, ליינעוודיק, און סקאַלאַבלע מיט גורל פון קורץ-עק און לאַנג-עק טערמינען.

Just like BeautifulSoup, lxml can be integrated with a html. פּאַרסער מאָדולע קאַנוויניאַנטלי - invent a character online. איינער פון די מערסט אָפּשיידנדיק פֿעיִקייטן פון דעם פּראָגראַממינג שפּראַך איז אַז עס גיט ספּאַם שוץ און בעסער רעזולטאַטן פֿאַר פאַקטיש-צייַט דאַטן. ביידע לקסמל און שיינערז זענען גרינג-צו-לערנען און צושטעלן דרייַ הויפּט פאַנגקשאַנז: פאָרמאַטטינג, פּאַרסינג און בוים קאַנווערזשאַן. אין דעם טוטאָריאַל, איר וועט לערנען איר ווי צו נוצן בעאַוטיסופּס צו כאַפּן די טעקסט פון פאַרשידענע וועב זייַטלעך.

ינסטאַללאַטיאָן

דער ערשטער שריט איז צו ינסטאַלירן בעאַטשעסופּ 4 ניצן פּיפּ. דעם פּעקל אַרבעט אויף ביידע פּיטהאָן 2 און 3. BeautifulSoup איז פּאַקידזשד ווי פּיטהאָן 2 קאָד; און ווען מיר נוצן עס מיט פּיטהאָן 3, עס איז דערהייַנטיקט אויטאָמאַטיש צו די לעצט ווערסיע, אָבער די קאָד איז נישט דערהייַנטיקט, אויב מיר ינסטאַלירן די פול פּיטהאָן פּעקל.

ינסטאָלינג אַ פּאַרסער

איר קענען ינסטאַלירן אַ פּאַסיק פּאַרסער, אַזאַ ווי HTML5ליב, לקסמל, און HTML. פּאַרסער. אויב איר האָבן אינסטאַלירן פּיפּ, איר דאַרפֿן צו אַרייַנפיר פון בס 4. אויב איר אָפּלאָדירן די מקור, איר דאַרפֿן צו אַרייַנפיר פון אַ פּיטהאָן ביבליאָטעק. ביטע געדענקען אַז די לקסמל פּאַרסער קומט אין צוויי פאַרשידענע ווערסיעס: XML פּאַרסער און HTML פּאַרסער. די HTML פּאַרסער טוט נישט פונקציאָנירן רעכט מיט אַלט ווערסיעס פון פּיטהאָן; אַזוי, איר קענען ינסטאַלירן די XML פּאַרסער אויב די HTML פּאַרסער סטאַפּס ריספּאַנדינג אָדער טוט נישט באַקומען אינסטאַלירן רעכט. די לקסמל פּאַרסער איז קאַמפּעראַטיוולי געשווינד און פאַרלאָזלעך און גיט פּינטלעך רעזולטאַטן. (קסנומקס) (קסנומקס) ניצן BeautifulSoup צו צוטריט באַמערקונגען (קסנומקס) (קסנומקס) מיט שיינערזאָופּ, איר קענען באַקומען צוטריט צו די באַמערקונגען פון די געוואלט וועבזייטל. באַמערקונגען זענען יוזשאַוואַלי סטאָרד אין דעם קאַמענט אָבדזשעקט אָפּטיילונג און זענען געניצט צו פאָרשטעלן אַ וועבזייטל צופרידן רעכט.

טיטלען, לינקס, און העאַדינגס

איר קענען לייכט עקסטראַקט בלאַט טיטלען, לינקס, און כעדינגז מיט בעאַוטיפול. איר נאָר האָבן צו באַקומען די מאַרקאַפּ פון די בלאַט מיט אַ ספּעציפיש קאָד. אַמאָל די מאַרקאַפּ איז באקומען, איר קענען סקראַפּ דאַטע פון כעדינגז און סאַבכרעדינגז אויך.

Navigate the DOM

מיר קענען נאַוויגירן דורך די דאַם ביימער ניצן בעאַוטיפול. טאַגס טשיינינג וועט העלפן אונדז עקסטראַקט דאַטן פֿאַר סעאָ צוועקן. (קסנומקס) (קסנומקס) מסקנא: (קסנומקס) (קסנומקס) אַמאָל די סטריפּס דיסקרייבד אויבן זענען געענדיקט, איר וועט קענען צו כאַפּן וועבפּאַגע טעקסט קאַנוויניאַנטלי. די גאנצע פּראָצעס וועט נישט נעמען מער ווי פינף מינוט און הבטחות קוואַליטעט רעזולטאַטן. אויב איר זוכט צו עקסטראַקט דאַטן פון HTML דאָקומענטן אָדער פּדף טעקעס, דעריבער ניט קיין שעפערישאָו אדער פּיטהאָן וועט העלפן איר. אין אַזאַ צושטאנדן, איר זאָל פּרובירן אַן HTML סקרייפּער און פונאַנדערקלייַבן אייער וועב דאָקומענטן לייכט. איר זאָל נעמען פול מייַלע פון ​​בעאַוטיסאָוסאָו ס פֿעיִקייטן צו סקראַפּ דאַטע פֿאַר סעאָ צוועקן. אפילו אויב מיר בעסערע HTML HTML פּאַרסערז, מיר קענען נאָך נעמען די אַדוואַנטידזשיז פון בעאַוטיסאָופּס ס שטיצן סיסטעם און קענען באַקומען קוואַליטעט רעזולטאַטן אין אַ ענין פון מינוט.

December 22, 2017