سلام. میخواستم بدونم چجوری میشه از یک سایت (سایتی که api نداره و باید از کدهای html استفاده کنیم) محتوای لینکهای موجود در یک صفحه را بردارم؟ مثلا تو صفحه اول سایت چندتا مقاله هست و من میخوام محتوای موجود در اون لینک ها را استخراج کنم. خود لینک را از طریق get(href) میارم ولی اینکه میزنی روی لینک و یک صفحه دیگه باز میشه و محتوای مربوط به اون صفحه ی تمام لینک ها را میخواستم. دوره webscrapping و pandas و numpy رو هم دیدم ولی هنوز نمیتونم این دستور را در web scrapper ای که دارم میسازم پیاده کنم.
ممنون میشم راهنمایی کنید
سلام
برای این کار باید از روش های regex استفاده کنید.
کد دقیقی که بشه اینکار رو کرد رو اگر دارید ممنون میشم بنویسید.