سلام. میخواستم بدونم چجوری میشه از یک سایت (سایتی که api نداره و باید از کدهای html استفاده کنیم) محتوای لینکهای موجود در یک صفحه را بردارم؟ مثلا تو صفحه اول سایت چندتا مقاله هست و من میخوام محتوای موجود در اون لینک ها را استخراج کنم. خود لینک را از طریق get(href) میارم ولی اینکه میزنی روی لینک و یک صفحه دیگه باز میشه و محتوای مربوط به اون صفحه ی تمام لینک ها را میخواستم. دوره webscrapping و pandas و numpy رو هم دیدم ولی هنوز نمیتونم این دستور را در web scrapper ای که دارم میسازم پیاده کنم.
ممنون میشم راهنمایی کنید
با سلام.
به گمانم با Selenium (به همراه WebScrapping) بتوانید این کار را انجام دهید.
سلام و وقت بخیر باید یک حلقه بزنی که تمامی لینک های اون صفحه رو بگیری ( مثلا داخل یک لیست append ش کن ) و بعد یک تابع بنویسی که با دیتای که دریافت کردی به صورت تک به تک به اون صفحات داخلی تر بره و قسمت های مختلف رو برات بگیره. کار پیچیده ای نباید باشه.
بهتر هستش که از BeautifulSoup یا scarpy کمک بگیری که کار خیلی ساده تر میکنه