llama_index 无法在云端使用WholeSiteReader,

clj7thdc 于 6个月前发布在其他

关注(0)|答案(4)|浏览(51)

问题验证

我已经在文档和Discord上寻找答案。

问题

我正在使用WholeSiteReader()将网站加载到LlamaIndex Document对象中。在我的本地系统上它运行正常，但是当我在云端运行笔记本时，它显示
ValueError: No chrome executable found on PATH
我知道驱动程序需要给定Chrome可执行文件的路径，但我无法解决这个问题。如果有人能提供帮助，将不胜感激。
谢谢！

llama_index

来源：https://github.com/run-llama/llama_index/issues/12790

4条答案

按热度按时间

fjaof16o1#

嘿，@VaradDeshmukh97,很高兴再次在这里见到你！🚀你在云端的冒险听起来像一个传奇故事。我会尽快回来给你制定一个征服这个错误的策略！🌩️

赞(0）回复(0）举报 6个月前

vuktfyat2#

当我运行这个时，

from llama_index.readers.web import WholeSiteReader
from selenium import webdriver
def load_websites(prefix, base_url, max_depth=1):
    '''
    Recursively searches and loads a website into LlamaIndex Document objects.
    Args:
        prefix = url of the website
        base_url = url of the page from where to start the scraping
    '''
    driver = webdriver.Chrome()
    scraper = WholeSiteReader(
        prefix=prefix,
        max_depth=max_depth,
        driver=driver
    )
    websites = scraper.load_data(
        base_url=base_url
    )
    return websites

我得到了以下错误：

SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally.
  (session not created: DevToolsActivePort file doesn't exist)
  (The process started from chrome location /teamspace/studios/this_studio/.cache/selenium/chrome/linux64/123.0.6312.122/chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.)
Stacktrace:
#0 0x55b5d0b0f863 <unknown>
#1 0x55b5d08058c6 <unknown>
#2 0x55b5d0839d34 <unknown>
#3 0x55b5d0835d3d <unknown>
#4 0x55b5d087eaed <unknown>
#5 0x55b5d0872343 <unknown>
#6 0x55b5d0843593 <unknown>
#7 0x55b5d0843f5e <unknown>
#8 0x55b5d0ad384b <unknown>
#9 0x55b5d0ad77a5 <unknown>
#10 0x55b5d0ac1571 <unknown>
#11 0x55b5d0ad8332 <unknown>
#12 0x55b5d0aa687f <unknown>
#13 0x55b5d0afe728 <unknown>
#14 0x55b5d0afe8fb <unknown>
#15 0x55b5d0b0e9b4 <unknown>
#16 0x7ff2fb9b8609 start_thread

赞(0）回复(0）举报 6个月前

yptwkmov3#

你遇到的错误表明Chrome和ChromeDriver之间存在兼容性问题，或者在你的云环境中定位Chrome可执行文件有问题。以下是解决这些问题的方法：

检查Chrome和ChromeDriver的兼容性:确保你使用的Chrome和ChromeDriver的版本是兼容的。不匹配可能导致SessionNotCreatedException。
使用远程WebDriver:在云环境中，常见的做法是设置一个远程WebDriver。这涉及到将你的代码配置为使用webdriver.Remote()而不是webdriver.Chrome(),指定Selenium Grid或基于云的测试服务的URL以及所需的功能。
指定Chrome二进制文件的位置:如果Chrome二进制文件位于非标准位置，你可能需要使用ChromeOptions显式地设置其路径。这是通过在初始化WebDriver之前设置opt.binary_location = '/path/to/chrome'来完成的。
以下是一个使用远程WebDriver的代码片段，你应该根据你的环境进行调整：

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

def setup_driver(self):
    selenium_grid_url = "http://your.selenium.grid.url:4444/wd/hub"
    capabilities = DesiredCapabilities.CHROME.copy()
    
    opt = webdriver.ChromeOptions()
    # Specify binary location if necessary
    # opt.binary_location = '/path/to/chrome'
    capabilities.update(opt.to_capabilities())

    return webdriver.Remote(command_executor=selenium_grid_url, desired_capabilities=capabilities)

将"http://your.selenium.grid.url:4444/wd/hub"替换为你的Selenium Grid中心URL或基于云的Selenium服务的端点。这种设置要求远程环境安装了正确的Chrome和ChromeDriver版本。如果你仍然遇到问题，请分享更多关于你的云设置的信息，包括Chrome和ChromeDriver的版本以及Chrome可执行文件的位置。